자격증/ADSP

데이터 분석 준전문가(adsp) - R 소개

IT grow. 2020. 1. 21. 17:04
반응형

 

1. 데이터 분석 도구의 현황 

 

가. R의 탄생 

- R은 오픈소스 프로그램으로 통계 , 데이터마이닝과 그래프를 위한 언어이다.

- 다양한 최신 통계분석과 마이닝 기능을 제공한다.

- 세계적으로 많은 사용자들이 다양한 예제를 공유한다.

- 다양한 기능을 지원하는 많은 패키지가 수시로 업데이트 된다. 

 

 

나. 분석도구의 비교 

 

SAS 

- 프로그램 비용 : 유로 , 고가 

- 설치용량 : 대용량

- 다양한 모듈 지원 및 비용 : 별도구매 

- 최근 알고리즘 및 기술반영 : 느림 

- 학습자료 입수의 편의성 : 유로 도서 위주 

- 질의를 위한 공개 커뮤니티 : NA 

 

SPSS 

- 프로그램 비용 : 유료 , 고가 

- 설치용량 : 대용량 

- 다양한 모듈 지원 및 비용 : 별도구매 

- 최근 알고리즘 및 기술반영 : 다소느림 

- 학습자료 입수의 편의성 : 유로 도서 위주 

- 질의를 위하 공개 커뮤니티 : NA 

 

 

오픈소스 R 

- 프로그램 비용 : 오픈소스

- 설치용량 : 모듈화로 간단 

- 다양한 모듈 지원 및 비용 : 오픈소스 

- 설치용량 : 모듈화로 간단 

- 다양한 모듈 지원 및 비용 : 오픈소스 

- 최근 알고리즘 및 기술반영 : 매우빠름

- 학습자료 입수의 편의성 : 공개 논문 및 자료 많음 

- 질의를 위한 공개 커뮤니티 : 매우 활발 

 

 

다. R의 특징 

1) 오픈소스 프로그램 

- 사용자 커뮤니티에 도움 요청이 쉽다.

- 많은 패키지가 수시로 업데이트 된다 

 

 

2) 그래픽 및 성능 

- 프로그래밍이나 그래픽 측면 등 대부분의 주요 특징들에서 상용 프로그램과 대등하거나 월등하다. 

 

 

3) 시스템 데이터 저장 방식 

- 각 세션 사이마다 시스템에 데이터셋을 저장하므로 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장 가능하다 

 

4) 모든 운영체제 

- 윈도우 , 맥 , 리눅스 운영체제에서 사용 가능하다. 

 

5) 표준 플랫폼 

- S 통계 언어를 기반으로 구현된다

- R/S 플랫폼은 통계전문가들의 사실상의 표준 플랫폼이다

 

 

6) 객체지향언어이며 함수형 언어

- 통계 기능뿐만 아니라 일반 프로그래밍 언어처럼 자동화거나 새로운 함수를 생성하여 사용 가능하다 

 

가) 객체지향 언어의 특징 

- SAS , SPSS에서 회귀분석시 화면에 결과가 산더미로 나오게 된다. 분석 결과를 활용하기 위해서는 추가로 프로그래밍을 하거나 별도의 작업이 필요하다.

 

- R은 추정계수, 표준오차 , 잔차 등 결과값을 객체 ( object ) 에 저장하여 필요한 부분을 호출하여 쉽게 활용 가능하다.

 

 

나) 함수형 언어의 특징 

- 더욱 깔끔하고 단축된 코드 

- 매우 빠른 코드 수행 속도 

- 단순한 코드로 디버깅 노력 감소 

- 병렬 프로그래밍으로의 전환이 더욱 용이 

 

 

 

라. R스튜디오 

- 오픈소스이며 다양한 운영체제를 지원한다

- R스튜디오는 메모리에 변수가 어떻게 되어 있는지와 타입이 무엇인지를 볼 수 있고 , 스크립트관리와 도튜먼테이션이 편리하다 

- 코딩을 해야하는 부담이 있으나 스크립트용 프로그래밍으로 어렵지 않게 자동화가 가능하다.

- 래틀 ( Rattle ) 은 GUI가 패키지와 긴밀하게 결합돼 있어 정해진 기능만 사용 가능해 업그레이드가 제대로 되지 않으면 통합성에 문제가 발생할 수 있다.

 

 

마. R 기반의 작업 환경 

- 작업환경은 업무 규모와 본인에게 익숙한 환경이 무엇인지를 기준으로 선택한다.

- 기업환경에서는 64bit 환경의 듀얼코어 , 32GB RAM , 2TB 디스크 , 리눅스 운영체제를 추천한다.

- R의 메모리 : 64bit 유닉스 환경 : 메모리 무제한 , x86 64bit 환경 : 128TB까지 지원 , 64bit 윈도우 환경 : 8TB 까지 지원 

 

 

반응형