KNeighbors 장단점과 매개변수학부공부/빅데이터기술2019. 4. 7. 02:14
Table of Contents
반응형
일반적으로 KNeighbors 분류기에 중요한 매개변수는 두 개이다 .
데이터 포인트 사이의 거리를 재는 방법과 이웃의 수이다.
실제로 이웃의 수는 3개나 5개 정도로 적을 때 잘 작동하지만, 이 매개변수는 잘 조정해야 한다.
k-NN의 장점은 이해하기 매우 쉬운 모델이라는 점이다.
그리고 많이 조정하지 않아도 자주 좋은 성능을 발휘한다.
더 복잡한 알고리즘을 적용해보기 전에 시도해볼 수 있는 좋은 시작점이다.
보통 최근접 이웃 모델은 매우 빠르게 만들 수 있지만, 훈련 세트가 매우 크면 (특성의 수나 샘플의 수가 클 경우) 예측이 느려진다.
k-NN 알고리즘을 사용할 땐 데이터를 전처리하는 과정이 중요하다.
(수백 개 이상의) 많은 특성을 가진 데이터셋에는 잘 동작하지 않으며, 특성 값 대부분이 0인 (즉 희소한) 데이터셋과는 특히 잘 작동하지 않는다.
k-최근접 이웃 알고리즘이 이해하긴 쉽지만, 예측이 느리고 많은 특성을 처리하는 능력이 부족해 현업에서는 잘 쓰지 않는다.
이런 단점이 없는 알고리즘이 선형 모델이다.
출처 :
반응형
'학부공부 > 빅데이터기술' 카테고리의 다른 글
최소제곱법 ( ordinary least squares ) - based on Extended_Boston datasets (0) | 2019.04.07 |
---|---|
최소제곱법 ( ordinary least squares ) - based on wavedatasets (0) | 2019.04.07 |
KNeighborsRegressor Analysis (0) | 2019.04.07 |
K-NN 분류기 + KNeighborsClassifier analysis (0) | 2019.04.07 |
지도학습..? (0) | 2019.04.02 |
@IT grow. :: IT grow.
#IT #먹방 #전자기기 #일상
#개발 #일상