데이터 분석 준전문가(adsp) - R 기초 - 2
1.R 기초 중에 기초
출력하기
- 커맨드 프롬프트에 변수나 표현식을 입력
print() : 출력형식을 지정할 필요 없음 , 한번에 하나의 객체만 출력
cat() : 여러 항목을 묶어서 연결된 결과로 출력 , 복합적 데이터 구조 ( 행렬 list 등 ) 를 출력 할 수 없음
변수에 값 할당하기
<- , <<- , = , ->
변수 목록보기
ls() , ls.str()
변수 삭제하기
- rm(list=ls()): 모든 변수를 삭제할 때 사용
rm()
벡터 생성하기
- 벡터의 원소 중 하나라도 문자가 있으면 모든 원소의 모드는 문자형태로 변환 됨
c()
R 함수 정의하기
- <expr의 특징>
- 지역변수 : 단순히 값을 대입하기만 하면 지역변수로 생성되고 함수가 종료되면 지역변수는 삭제 됨
- 조건부 실행 : if 문
- 반복 실행 : while 문 , for 문 , repeat 문
- 전역변수 : <<- 를 사용하여 전역변수로 지정할 수 있지만 추천하지 않음
function( 매개변수1, 매개변수2 ,,,, 매개변수 n ) {expr 1 ,expr 2 , expr m}
2.R 프로그램 소개
데이터 할당 : a <- 1 , a = 1
화면 프린트 : a , print(a) / print함수
결합 : x < -c ( 1,2,3,4) / C함수는 문자 , 숫자 , 논리값 , 변수를 모두 결합 가능하며 벡터와 데이터셋을 생성 가능
수열 : 1:5 , 9:-2 , seq(from=0 , to = 20 , by = 2 ) / 콜론(;) , seq 함수를 사용하여 시작값에서 최종값까지의 연속적인 숫자 생성 , seq 함수는 간격과 결과값의 길이를 제한 가능
반복 : rep ( 1, time = 5 ) , rep ( 1:4 , each = 2 ) , rep ( c , each = 2 ) / rep함수는 숫자나 변수의 값들을 time 인자에 지정한 횟수만큼 반복
문자 붙이기 : A <- paste ( " a " , " b " , " c " , sep = "- " ) / paste 함수는 문자열을 seq 인자에 지정한 구분자로 연결시켜 준다.
문자열 추출 : substr("Bigdataanalysis , 1, 4) / substr( 문자열 , 시작점 , 끝점 ) 함수는 문자열의 특정부분을 추출 가능
논리값 : a < - True , a <-T , b<-False , B<-F / T도 True로 인식
벡터의 원소 선택하기 : V[n] - 선택하고자 하는 자리수 , V[-n] - 제외하고자 하는 자리수
3. 벡터의 연산
[ ] : 인덱스
$ : 요소 뽑아내기 , 슬롯 뽑아내기
^ : 지수
- + : 단항 마이너스와 플러스 부호
: : 수열 생성
% any % : 특수 연산자
* / : 곱하기 , 나누기
+ - : 더하기 , 빼기
== , != , <> , <= , >= : 비교
! : 논리부정
& : 논리 " and " , 단축 ( short - circuit ) " and "
| : 논리 " or " , 단축 ( short - circuit ) " or "
~ : 식 ( formula )
-> ->> : 오른쪽 대입
= : 대입 ( 오른쪽을 왼쪽으로 )
< - <<- : 대입 ( 오른쪽을 왼쪽으로 )
? : 도움말
4. 벡터의 기초통계
평균 : mean(변수) - 변수의 평균 산출
합계 : sum(변수) - 변수의 합계 산출
중앙값 : median ( 변수 ) - 변수의 중앙값 산출
로그 : log ( 변수 ) - 변수의 로그값 산출
표준편차 : sd ( 변수 ) - 변수의 표준편차 산술
분산 : var ( 변수 ) - 변수의 분산 산출
공분산 : cov ( 변수1, 변수2 ) - 변수간 공분산 산출
상관계수 : cor ( 변수1 , 변수2 ) - 변수간 상관관계 산출
변수의 길이 값 : length ( 변수 ) - 변수간 길이를 값으로 출력
5. R 프로그래밍시 자주하는 실수
함수를 불러오고 괄호닫기 : function 함수에서의 { , } , 함수의 ( , )
윈도우 파일 경로에서 역슬래시를 두 번씩 쓰기 : 역슬래시를 2번 쓰거나 슬래시를 1번 써야한다.
<- 사이를 붙여쓰기 : x < -pi / Error : object " x " not found의 오류메시지
여러줄을 넘어서 식을 계속 이어갈 때
== 대신 =를 사용하지 말 것 / == : 비교 연산자 , = : 대입 연산자
1 : ( n + 1 ) 대신 1 : n + 1 로 쓰지 말 것
패키지를 불러오고 library()나 require()를 수행할 것
2번 써야할 것과 1번 써야할 것을 혼돈하지 말 것
인자의 개수를 정확히 사용할 것