최소제곱법 ( ordinary least squares ) - based on Extended_Boston datasets학부공부/빅데이터기술2019. 4. 7. 21:02
Table of Contents
반응형
저번에 wave 데이타를 사용했을 때 ,
결과값이 과소적합이였다.
특성의 개수가 많은 Extended boston datasets 을 사용했을 경우에는 결과값이 어떻게 나오는지
확인해 보자 .
from sklearn.linear_model import LinearRegression
import mglearn
from sklearn.model_selection import train_test_split
먼저 필요한 라이브러리를 로딩시킨다.
X,y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
lr = LinearRegression().fit(X_train,y_train)
Extended_Boston 데이터셋을 가져온 뒤 , 테스트 세트와 훈련 세트로 나눈다음에
모델 객체를 생성하고 , 학습시킨다.
print("train set score: {:.2f}".format(lr.score(X_train, y_train)))
print("test set score: {:.2f}".format(lr.score(X_test, y_test)))
그리고 나서 , lr.score를 통해 훈련 세트와 테스트 세트의 점수를 비교해 보겠다.
결과값은 다음과 같다 .
train set score: 0.95
test set score: 0.61
위의 결과를 바탕으로 다음과 같은 결과를 알 수 있다.
훈련 세트와 테스트 세트의 점수를 비교해보면 훈련 세트에서는 예측이
매우 정확한 반면 테스트 세트에서는 R2 값이 매우 낮다 .
훈련 데이터와 테스트 데이터 사이의 이런 성능 차이는 모델이 과대적합
되었다는 확실한 신호이므로 복잡도를 제어할 수 있는 모델을 사용해야 한다.
반응형
'학부공부 > 빅데이터기술' 카테고리의 다른 글
라쏘 (Lasso) (0) | 2019.04.08 |
---|---|
릿지 ( Lidge ) (0) | 2019.04.08 |
최소제곱법 ( ordinary least squares ) - based on wavedatasets (0) | 2019.04.07 |
KNeighbors 장단점과 매개변수 (0) | 2019.04.07 |
KNeighborsRegressor Analysis (0) | 2019.04.07 |
@IT grow. :: IT grow.
#IT #먹방 #전자기기 #일상
#개발 #일상