Factor학부공부/데이터마이닝과통계2018. 9. 11. 23:29
Table of Contents
반응형
Factor라는 것은 무엇이며 , 어떻게 쓰이는 것일까.
우선 Factor은 객체의 성질을 지니며 , 회기 분석에 사용이 된다
범주형 변수로써 dummy (indicator) variable
è R에서는 범주변수를 안만들어도 factor를 사용해서 쓸수 있다.
예를 들어 보자
vec_on <- c("하나","둘","셋","둘")
vec_onf <-factor(vec_on)vec_on2 <-c(3,2,1,6)vec_onf2 <- factor(vec_on2)vec_on 이라는 변수에 하나 , 둘 , 셋 , 둘 의 Character형태로 저장을 시킨다고 한다.factor로 묶고 결과 값을 보면--> 둘 , 셋 , 하나이렇게 결과가 나온다 .우리는 Factor결과값을 통해서 의아해 할 것이다.어째서 저장을 시켰는데 둘 , 셋 , 하나로 나오는 것일까??factor은 저장을 시킬 때 솔팅하는 기능이 있는데 숫자건 영어건 한글이건순서대로 저장 시키는 기능을 가지고 있다.그리고 중복되는 수는 하나의 결과 값으로 치고 저장을 시킨다.vec_onf2 의 결과값을 보아도 똑같다.순서로 저장을 시켰지만 결과값을 보면 1,2,3,6으로 나오는 것을 알 수 있다.이는 숫자도 순서대로 솔팅이 되어서 결과값으로 출력이 된다는 것을 알 수 있다.그리고 숫자도 예외 없이 중복되는 값은 하나의 결과값으로 친다.
그리고 Factor은 기본적으로 저장을 할 때 Integer형태로 저장을 시킨다 .
è 일종의 Vector이다.
è As.Integer : 정수형으로 확인 할 때
--> 여기서 헷갈리는 점은 , as.Integer로써 factor의 값을 알고 싶다고 싶을 때 해보면 ,
--> factor하면서 솔팅되어진 값들의 원래 데이터가 있던 자리의 값들이 나오게 되는데 ,
--> 이 의미는 Factor함으로써 솔팅된 값들이 나오게 되는것이다 . 물론 중복을 제외하고 이다.
각각의 값이 Integer로 저장이 되어 있을 떄 연산이 가능할까..?
è No : 범주형 변수일 때는 연산이 의미가 없다.
è Levels : 로 Factor의 값들을 확인 할 수 있다.
실제적으로 숫자를 Factor로 저장 시키는 것이 의미가 있는것인가??
è 범주형으로 바꿔서 저장 하는 것이 효율적이다.
반응형
'학부공부 > 데이터마이닝과통계' 카테고리의 다른 글
벡터 결합과 recycling ( + Matrix ) (0) | 2018.09.12 |
---|---|
data_frame 과 class (0) | 2018.09.11 |
$ 연산자와 이름 활용 (0) | 2018.09.10 |
List의 indexing (0) | 2018.09.10 |
Indexing (0) | 2018.09.10 |
@IT grow. :: IT grow.
#IT #먹방 #전자기기 #일상
#개발 #일상