데이터 분석 준전문가(adsp) - 데이터 구조와 데이터 프레임 - 1
1.벡터 ( Vector )
가. 벡터들은 동질적이다.
- 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드 ( mode ) 를 가진다.
나. 벡터는 위치로 인덱스 된다
- V[2]는 V벡터의 2번째 원소이다
다. 벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다.
- V[c(2,3)]은 V벡터의 2번째 , 3번째 원소로 구성된 하위벡터이다.
라. 벡터 원소들은 이름을 가질 수 있다.
-
V <- c (10,20,30);
names(v) <- c("Moe","Larry","Curly")
V["Larry"]
Larry
20
2. 리스트 ( Lists )
가. 리스트는 이질적이다.
- 여러 자료형의 원소들이 포함될 수 있다.
나. 리스트는 위치로 인덱스된다
- L[[2]]는 L 리스트의 2번째 원소이다.
다. 리스트에서 하위 리스트를 추출할 수 있다.
- L[ c(2,3) ] 은 L리스트의 2번째 , 3번째 원소로 이루어진 하위 리스트이다.
라. 리스트의 원소들은 이름을 가질 수 있다.
- L[["Moe"]] 와 L$Moe는 둘다 "Moe"라는 이름의 원소를 지칭 한다.
3. R에서의 자료형태 ( mode )
숫자 : 3.1415 ( 수치형 , numeric )
숫자 벡터 : c(2,3,4,5,5) : 수치형 ( numeric )
문자열 : "Tom" : 문자형 ( character )
문자열 벡터 : c ( "Tom","Yoon","Kim" ) : 문자형 ( character )
요인 : factor(c("A","B","C")) : 수치형 ( numeric )
리스트 : list ( "Tom", "Yoon" , "Kim" ) : 리스트 (list)
데이터 프레임 : data.frame(x=1:3, y=c("Tom","Yoon","Kim")) : 리스트 (list)
함수 : print : 함수 (function)
4. 데이터 프레임 ( data frames )
가. 특징
- 데이터 프레임은 강력하고 유연한 구조 , SAS의 데이터셋을 모방해서 만들어진다
- 데이터 프레임의 리스트의 원소는 벡터 또는 요인이다
- 그 벡터와 요인은 데이터 프레임의 열이다
- 벡터와 요인들은 동일한 길이이다
- 데이터 프레임은 표 형태의 데이터 구조이며, 각 열은 서로 다른 데이터 형식을 가질 수 있다.
- 열에는 이름이 있어야 한다.
나. 데이터 프레임의 원소에 대한 접근방법
b[1] ; b["empno"]
b[[i]] ; b [["empno"]]
b&empno
5. 그 밖의 데이터 구조들
가.단일값(Scalars)
R에서는 원소가 하나인 벡터로 인식/처리
>pi
[1] 3.1415
>length(pi)
[1] 1
나. 행렬(Matrix)
- R에서는 차원을 가진 벡터로 인식
다. 배열(Arrays)
- 행렬에 3차원 또는 n차원까지 확장된 형태
- 주어진 벡터에 더 많은 차원을 부여하여 배열을 생성
> b<- 1:12
> dim(b) <- c(2,3,2)
라. 요인(Factors)
- 벡터처럼 생겼지만 , R에서는 벡터에 있는 고유값 (unique value ) 의 정보를 얻어내는데 , 이 고유값들을 요인의 수준(level)이라고 한다.
- 요인의 두가지 주된 사용처로 범주형 변수 , 집단분류가 있다.
6. 벡터,리스트,행렬 다루기
- 행렬(Matrix)는 R에서 차원을 가진 벡터이며 , 텍스트마이닝과 소셜네트워크 분석 등에 활용한다.
- 재활용 규칙 ( Recycling Rule ) : 길이가 서로 다른 두 벡터에 대해 연산을 할 때 , R은 짧은 벡터의 처음으로 돌아가 연산이 끝날때까지 원소들을 재활용한다.