가중치 주택의 가치를 추정하는 프로그램을 어떻게 작성 할 수 있을까? 다음 내용을 읽기 전에 잠시 생각해 보자 만약 , 기계 학습에 대해 잘 모른다면 , 아마도 당신은 다음과 같이 주택 가격을 추정하기 위한 기본 규칙들을 작성하고자 할 것이다. 주택의 정보는 위와 같다 . 다음처럼 함수를 선언해 볼 수 있을 것 같다. def estimate_house_sales_price(num_of_bedrooms, sqft, neighborhood): price =0 #담당 지역내 평균 주택 가격은 평당 피트 당 200달이다 . price_per_sqft = 200 if neighborhood == "hipsterton": # 하지만 다른 지역은 조금 더 비싸다. price_per_sqft = 400 elif nei..
라쏘 선형 회귀에 규제를 적용하는 데 Ridge의 대안으로 Lasso가 있다. 릿지 회귀에서와 같이 라쏘도 계수를 0에 가깝게 만들려고 한다. 하지만 방식이 조금 다르고 , 이를 L1 규제라고 한다. L1 규제의 결과로 라쏘를 사용할 때 어떤 계수는 정말 0이 된다 이 말은 모델에서 완전히 제외되는 특성이 생긴다는 뜻이다. 어떻게 보면 특성 선택 ( feature selection )이 자동으로 이뤄진다고 볼 수 있다. 일부 계수를 0으로 만들면 모델을 이해하기 쉬워지고 이 모델의 가장 중요한 특성이 무엇인지 드러난다. 확장된 보스턴 주택가격 데이터셋에 라쏘를 적용해 보겠다. 코드를 통해서 확인해 보자 . from sklearn.linear_model import Lasso import mglearn f..
릿지 회귀 릿지 ( Ridge ) 도 회귀를 위한 선형 모델이므로 , 최소적합법에서 사용한 것과 같은 예측 함수를 사용한다. 하지만, 릿지 회귀에서의 가중치(w) 선택은 훈련 데이터를 잘 예측하기 위해서 뿐만 아니라 추가 제약 조건을 만족시키기 위한 목적도 있다. 가중치의 절대값을 가능한 한 작게 만드는 것이다. 다시 말해서 , w의 모든 원소가 0에 가깝게 되길 원한다. 생각을 해보면 , 이는 모든 특성이 출력에 주는 영향을 최소한으로 만든다 기울기를 작게 만든다 . 이런 제약을 규체 ( regularization ) 라고 한다. 규제란 과대적합이 되지 않도록 모델을 강제로 제한한다는 의미이다. 릿지 회귀에 사용하는 규제 방식을 L2 규제라고 한다 . 릿지 회귀는 linear_model.Ridge에 구..
저번에 wave 데이타를 사용했을 때 , 결과값이 과소적합이였다. 특성의 개수가 많은 Extended boston datasets 을 사용했을 경우에는 결과값이 어떻게 나오는지 확인해 보자 . from sklearn.linear_model import LinearRegression import mglearn from sklearn.model_selection import train_test_split 먼저 필요한 라이브러리를 로딩시킨다. X,y = mglearn.datasets.load_extended_boston() X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) lr = LinearRegression().fit(X_t..
이번에는 최소제곱법에 대해서 알아본다. 최소제곱법이란 ? 가장 간단하고 오래된 회귀용 선형 알고리즘 예측과 훈련 세트에 있는 타깃 y사이의 평균제곱오차를 최소화하는 파라미터 w와b를 찾음 평균제곱오차는 예측값과 타깃값의 차이를 제곱하여 더한 후에 샘플의 개수로 나눈 것이다. 선형 회귀는 매개변수가 없는 것이 장점이지만, 그래서 모델의 복잡도를 제어할 방법도 없다. from sklearn.linear_model import LinearRegression import mglearn from sklearn.model_selection import train_test_split --> 먼저 , 필요한 library를 로딩시켜주고 . X,y =mglearn.datasets.make_wave(n_samples=60..
일반적으로 KNeighbors 분류기에 중요한 매개변수는 두 개이다 . 데이터 포인트 사이의 거리를 재는 방법과 이웃의 수이다. 실제로 이웃의 수는 3개나 5개 정도로 적을 때 잘 작동하지만, 이 매개변수는 잘 조정해야 한다. k-NN의 장점은 이해하기 매우 쉬운 모델이라는 점이다. 그리고 많이 조정하지 않아도 자주 좋은 성능을 발휘한다. 더 복잡한 알고리즘을 적용해보기 전에 시도해볼 수 있는 좋은 시작점이다. 보통 최근접 이웃 모델은 매우 빠르게 만들 수 있지만, 훈련 세트가 매우 크면 (특성의 수나 샘플의 수가 클 경우) 예측이 느려진다. k-NN 알고리즘을 사용할 땐 데이터를 전처리하는 과정이 중요하다. (수백 개 이상의) 많은 특성을 가진 데이터셋에는 잘 동작하지 않으며, 특성 값 대부분이 0인 ..