![빅데이터기술_최종발표(game_price예측)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHAa7r%2Fbtqvzvi1UQ2%2F3UqnGJDUKkkSVXTOMwtfz0%2Fimg.png)
201303017_김인우_빅데이터기술 최종발표 자료 목차 Par1. 1. 데이터셋 설명 2. 데이터 분석 3. 알고리즘 적용 4. 수정된 점 5. 최종결과 Part1 데이터셋 설명 먼저 최종 데이터셋은 다음과 같다. 내가 최종적으로 예측하고자 하는 Y값은 game_price이며, 예측에 필요한 feature들은 다음과 같다. Game_positive(게임의 긍정적인 수), game_negative(게임의 부정적인 수), game_owners(게임 소유자들), game_initialprice(게임 초기가격), game_discount(게임의 할인율) 왜 게임 가격 예측인가? 게임가격은 소비자들의 입장에서 매우 민감한 부분 중 하나이다. 민감한 부분인만큼 어떠한 부분이 게임가격에 영향을 미치는지 궁금했다. ..
![game_price 예측(based on linear regression algorithm)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FRVwoH%2Fbtqvs0oSM1V%2F9hCFkWVve3OoMrtBYIIdJk%2Fimg.png)
코드를 보면서 확인해 보겠다. import pandas as pd import numpy as np import statsmodels.api as sm from sklearn import linear_model from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt 먼저 필요한 library를 임포트한다. # Excel read pd.set_option('display.max_columns', None) DATA_PATH ="C:/Users/user/Desktop/Data/Data.xlsx" full_dataframe = pd.read_excel(DATA_PATH, sep=',') X = full_dataframe..
![프로젝트_중간점검(데이터정제과정)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fl9gmB%2FbtqvpjDVstB%2Fl9ZHZjvdWH6o7sScRvjUVk%2Fimg.png)
201303017_김인우_빅데이터기술 중간발표자료 목차 1. 데이터셋 설명 2. 데이터 분석 3. 분석 진행도 4. 앞으로 해야 할 작업 데이터셋 설명 è 데이터셋의 head(10)까지만 보면 위와같다. 칼럼들은 다음과 같다. è Game_name(게임이름) game_positive(게임의 긍정적인 평가 점수) game_negative(게임의 부정적인 평가 점수) game_owners(게임 소유한 사람 수) game_price(게임 현재 가격) game_initialprice(게임 초기 가격) game_discount(게임 할인 가격) game_languages(게임이 지원하는 언어) game_tags(게임 태그들) 위 데이터셋은 Steamspiapi를 이용해서 python으로 데이터를 모았으며, Ste..