자격증/ADSP

데이터 분석 준전문가(adsp) - 데이터 구조와 데이터 프레임 - 1

IT grow. 2020. 1. 27. 16:07
반응형

 

 

1.벡터 ( Vector ) 

 

가. 벡터들은 동질적이다.

 

- 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드 ( mode ) 를 가진다.

 

나. 벡터는 위치로 인덱스 된다 

 

- V[2]는 V벡터의 2번째 원소이다 

 

다. 벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다.

 

- V[c(2,3)]은 V벡터의 2번째 , 3번째 원소로 구성된 하위벡터이다.

 

라. 벡터 원소들은 이름을 가질 수 있다.

 

-

V <- c (10,20,30); 

names(v) <- c("Moe","Larry","Curly")

V["Larry"]

Larry

20

 

 

2. 리스트 ( Lists ) 

 

가. 리스트는 이질적이다.

- 여러 자료형의 원소들이 포함될 수 있다.

 

나. 리스트는 위치로 인덱스된다

- L[[2]]는 L 리스트의 2번째 원소이다.

 

다. 리스트에서 하위 리스트를 추출할 수 있다.

- L[ c(2,3) ] 은 L리스트의 2번째 , 3번째 원소로 이루어진 하위 리스트이다.

 

 

라. 리스트의 원소들은 이름을 가질 수 있다.

- L[["Moe"]] 와 L$Moe는 둘다 "Moe"라는 이름의 원소를 지칭 한다. 

 

 

3. R에서의 자료형태 ( mode ) 

 

숫자 : 3.1415 ( 수치형 , numeric ) 

숫자 벡터 : c(2,3,4,5,5) : 수치형 ( numeric ) 

문자열 : "Tom" : 문자형 ( character ) 

문자열 벡터 : c ( "Tom","Yoon","Kim" ) : 문자형 ( character ) 

요인 : factor(c("A","B","C")) : 수치형 ( numeric ) 

리스트 : list ( "Tom", "Yoon" , "Kim" ) : 리스트 (list) 

데이터 프레임 : data.frame(x=1:3, y=c("Tom","Yoon","Kim")) : 리스트 (list)

함수 : print : 함수 (function) 

 

 

4. 데이터 프레임 ( data frames ) 

 

가. 특징 

 

- 데이터 프레임은 강력하고 유연한 구조 , SAS의 데이터셋을 모방해서 만들어진다

- 데이터 프레임의 리스트의 원소는 벡터 또는 요인이다

- 그 벡터와 요인은 데이터 프레임의 열이다

- 벡터와 요인들은 동일한 길이이다

- 데이터 프레임은 표 형태의 데이터 구조이며, 각 열은 서로 다른 데이터 형식을 가질 수 있다.

- 열에는 이름이 있어야 한다.

 

나. 데이터 프레임의 원소에 대한 접근방법

b[1] ; b["empno"] 

b[[i]] ; b [["empno"]] 

b&empno 

 

5. 그 밖의 데이터 구조들 

 

가.단일값(Scalars) 

 

R에서는 원소가 하나인 벡터로 인식/처리 

>pi

[1] 3.1415

 

>length(pi)

[1] 1

 

 

 

나. 행렬(Matrix)

- R에서는 차원을 가진 벡터로 인식 

 

 

 

다. 배열(Arrays)

- 행렬에 3차원 또는 n차원까지 확장된 형태 

- 주어진 벡터에 더 많은 차원을 부여하여 배열을 생성 

 

> b<- 1:12

> dim(b) <- c(2,3,2)

 

 

라. 요인(Factors) 

- 벡터처럼 생겼지만 , R에서는 벡터에 있는 고유값 (unique value ) 의 정보를 얻어내는데 , 이 고유값들을 요인의 수준(level)이라고 한다.

 

- 요인의 두가지 주된 사용처로 범주형 변수 , 집단분류가 있다.

 

 

6. 벡터,리스트,행렬 다루기 

 

- 행렬(Matrix)는 R에서 차원을 가진 벡터이며 , 텍스트마이닝과 소셜네트워크 분석 등에 활용한다.

 

- 재활용 규칙 ( Recycling Rule ) : 길이가 서로 다른 두 벡터에 대해 연산을 할 때 , R은 짧은 벡터의 처음으로 돌아가 연산이 끝날때까지 원소들을 재활용한다. 

 

 

반응형