주제
역대 대통령 중 임의의 대통령을 선택 한 후 취임사를 텍스트마이닝을 통해 통계치를 구해 보고 , 데이터를 분석하기 .
코드 분석
# 박싱을 통해 코드를 나눠 보겠습니다.
*패키지 선언or설치
install.packages("KoNLP")
--> 한글 자연어 분석 패키지
install.packages("RColorBrewer")
--> 파레트 생성 패키지
install.packages("wordcloud")
--> 워드클라우드 사용하기 위한 패키지
*라이브러리 로딩하기
library(KoNLP)
library(RColorBrewer)
library(wordcloud)
--> 라이브러리 로딩은 말그대로 이 라이브러리를 사용하겠다 이정도의 의미
*한글‘세종사전’로딩
useSejongDic
--> 세종사전을 사용하겠다의 의미
*팔레트 생성
pal2 <- brewer.pal(8,"Dark2")
--> 8행의 Dark2 팔레트를 생성해서 pal2에 저장
*파일선택 해서 변수에 저장
text <- readLines(file.choose())
--> 임의의 파일을 선택해서 text 변수에 저장하겠다.
*선택한 파일의 데이터 정리하기
noun <- sapply(text,extractNoun,USE.NAMES = F)
--> sapply를 통해서 데이터를 정리해 줄 것인데 , 먼저 읽어서 저장시켜논 변수를 명사로만 추출할 것이고 , 읽어온 데이터 행위에 데이터를 덮어 씌우지 않겠다 정도의 의미
*추출된 명사 통합
noun2 <- unlist(noun)
--> 데이터 정리를 통해 추출된 명사들을 통합시키겠다는 의미 noun2에 저장.
*단어 빈도수 계산
word_count <- table(noun2)
--> 추출되고 , 통합 되어진 명사들의 단어 빈도수를 계산하는 부분
*wordcloud로 데이터마이닝하기.
wordcloud(names(word_count),freq = word_count,scale = c(6,0.3),min.freq = 3, random.order = F , rot.per = .1 , colors = pal2)
--> 마지막 단계로써 데이터를 시각화하는 부분인데 , 먼저 names(word_count)를 해줌으로써 추출되어진 명사들이 names위치에 위치하고 , freq은 빈도이므로 그대로 word_count를 대입시키고 , scale은 크기의 정도를 나타내며 , 최소 빈도수는 min.freq를 통해서 나타내며 , 정렬방식을 F로 줌으로써 각을 잡아준다 . 그리고 colors 부분에 처음에 만들어 놓은 pal2을 넣어줌으로써 색깔 지정도 해준다.
결과물
문재인 대통령님의 취임사 데이터 결과
데이터를 분석해 봅시다.
먼저 가장 큰 비중의 대통령 , 한 , 국민 , 저 , 우리 , 여러분 , 해결 , 존경 , 대화 , 약속 , 시작 등등으로 미루어 보아 , 문재인 대통령님께서 큰 비중을 두게 계신게 국민을 통해 먼가 민주적인 정치를 중점으로 보는게 아닐까 추측해 볼 수 있습니다. 이 결과를 통해 우리 국민들은 대통령님께서 큰 비중을 두고 계신 국민 , 약속 , 해결 , 대화 , 존경을 미루어 보아 믿고 맡길 수 있겠다 라는 생각을 먼저 하지 않을까 싶었습니다. 물론 정치라는 것은 당선되고나서 시작이기 때문에 확신은 못하지만 말입니다. 저는 데이터마이닝을 하기 전에 청와대에서 다음과 같은 사진을 같이 보았습니다. 아마 문재인 대통령님께서 제일 중요하다고 생각하시는 단어들을 비중중요도에 맞게 크기를 정해 놓은 것 같았습니다. 내가 데이터를 뽑아온 결과를 보았을 때 , 어느정도 맞아 떨어진다라고 생각을 하셨습니다. 우선 국민이라는 단어가 보이고 , 소통 , 만들다 , 정의 , 통합 , 존경하다 등을 통틀어서 생각해보면 존경하는 국민들과의 의사소통을 통해 위대하고 공정하게 새롭게 역사를 만든다 ?? 정도로 생각이 들었기 때문입니다. 이로써 뽑은 데이터의 결과와 대통령님께서 중요하게 생각하는 바를 통계를 해보았습니다.
'학부공부 > 데이터마이닝과통계' 카테고리의 다른 글
네트워크만들기 (0) | 2018.09.22 |
---|---|
네트워크의 개요 , 지표 (0) | 2018.09.22 |
대통령 연설문 텍스트마이닝 해보기 (0) | 2018.09.18 |
Global Environment clear in R (0) | 2018.09.18 |
통계치를 통해서 전입수가 제일 많은 지역을 나타내 보자 (0) | 2018.09.15 |
#IT #먹방 #전자기기 #일상
#개발 #일상