반응형
데이터 분석 준전문가(adsp) - 데이터 가공
자격증/ADSP2020. 1. 31. 23:54데이터 분석 준전문가(adsp) - 데이터 가공

1. Data Exploration 가. 개요 - 데이터 분석을 위한 구성된 데이터의 변수들의 상태를 파악한다. 나. 종류 1) head(데이터셋) , tail(데이터셋) - 시작 또는 마지막 6개 record만 조회하는 함수 2) summary(데이터셋) 가) 수치형변수 : 최대값 , 최소값 , 평균 , 1사분위수 , 2사분위수(중앙값) , 3사분위수 나) 명목형변수 : 명목값 , 데이터 개수 2. 변수 중요도 가. 개요 - 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정이다. 나. 종류 1) klaR 패키지 - 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 에러율을 계산해주고 , 그래픽으로 결과를 보여주는 기능을 한다. - greedy.wilks() : ..

의사결정나무란 무엇인가
졸업작품_preparing..../알고리즘2019. 1. 12. 21:42의사결정나무란 무엇인가

의사결정나무는 무엇이며 , R에서 어떻게 구현할 수 있으며 , 그 의미는 무엇인지 알아 볼 것이다. 의사결정나무(decision tree) 또는 나무 모형(tree model)은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification) 하거나 예측 (prediction)을 수행하는 분석방법이다. 상위 노드로부터 하위노드로 트리구조를 형성하는 매 단계마다 분류변수와 분류 기준값의 선택이 중요하다. 상위노드에서의 (분류변수 , 분류 기준값)은 이 기준에 의해 분기되는 하위노드에서 노드 (집단) 내에서는 동질성이 , 노드(집단)간에는 이질성이 가장 커지도록 선택된다. 나무 모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한..

반응형
image