반응형
구글서칭결과크롤링+CSV파일저장시키기
학부공부/데이터마이닝과통계2018. 11. 19. 23:19구글서칭결과크롤링+CSV파일저장시키기

오늘은 구글에서 비정상트래픽을 검사한 뒤 , 서칭된 결과들을 바탕으로 , 본문기사의 url을 가져와서 , 그 url에 해당하는 논문의 초록을 가져와 볼 것이다. 먼저 , 구글에 “비정상트래픽”을 검색해 본다 검색해 보면 , 비정상트래픽에 관련된 , 또는 이 단어가 포함된 결과들이 나올 것이다. 나는 특정 사이트를 기준으로 검색해 보고 싶었다. 그래서 site:www.dbpia.co.kr 비정상 트래픽 으로 검색을 해보았다. 검사결과는 위의 그림처럼 , 내가 검색하고자 하는 사이트별로 , 검색결과들이 추출된 것을 확인할 수 있었다. 그리고 주소를 보면 구글은 start 변수가 page 이동 변수인 것을 알 수 있었다. 특이한 점은 구글은 page의 이동이 있을 경우에 , page 이동값이 10씩 증가하는 ..

Corpus --> VCorpus
학부공부/데이터마이닝과통계2018. 11. 18. 21:26Corpus --> VCorpus

논문크롤링을 해올 때 , 한글이 깨져서 wordcloud가 제대로 출력이 안된적이 있따. 나의 추측은 다음과 같았다. 1.Sys.setlocale의 혼동--> 왜냐하면 나는 다음과 같이 설정을 한 적이 있었다.Sys.setlocale(category = "LC_ALL", locale ="us")Sys.setlocale(category = "LC_ALL",locale ="korean") 이 두개를 번걸아 가면서 작업을 한 적이 있다 . 영어와 한국어를 다뤄야 하는 부분이 있었기 때문이다. 결론은 이 문제는 아니였다. 왜냐하면 Sys.getlocale() 를 하게되면 내가 설정해주는 언어로 제대로 바뀌고 있었다.... 2. tdm_modi tm에있는 VCorpus는 "휘발성 (Volatile)"코퍼스를 말하..

논문제목+논문저자+논문발간일 크롤링 / wordcloud2
학부공부/데이터마이닝과통계2018. 11. 18. 19:56논문제목+논문저자+논문발간일 크롤링 / wordcloud2

오늘은 구글에서 논문 저자와 메인제목과 메인내용을 가져와 볼 것이다. 먼저 , 구글에 IT논문을 쳐서 , 검색기록들을 분석해 본다 . 그런데 , 검색을 하다보니 , 내가 찾고자 하는 정보와 관련없는 내용들이 너무 많았다…. 나는 논문관련된 정보만 추출하고 싶었다. 그래서 구글말고 논문 전문 사이트를 이용하기로 하였다. 그래서 이용하게된 DBpia 사이트 : http://www.dbpia.co.kr/SearchResult/TopSearch?isFullText=0&searchAll=IT 이 사이트는 논문의 종류가 굉장히 다양하고 정보가 많았다. 이 사이트를 이용해서 분석하기 전에 앞서 , 구글의 페이지 이동에 관해서 알아보았다. 1번째 페이지 : https://www.google.com/search?q=%E..

API를 사용해서 실시간 버스 위치정보 시각화
학부공부/데이터마이닝과통계2018. 11. 15. 23:18API를 사용해서 실시간 버스 위치정보 시각화

이번에는 공공데이터를 활용하여서 , 시각화 해 볼것이다. 사용할 사이트는 공공데이터 포털 https://www.data.go.kr/ 이다 . 버스노선정보를 가져와서 버스의 실시간 위치 정보를 google map api를 통해서 시각화 해 볼 것이다. 코드를 통해서 설명해 보겠다. library(XML)library(ggmap) è 우선 사용할 패키지는 위와같다. 없다면 설치해 준다. 아참 , 들어가기 앞서서 , 공공데이터 포털에서 API 인증키를 받고 사용하는 법을 알아야한다. 회원가입은 되어있다는 가정하에 설명해 보겠다. 내가 사용할 API의 이름은 “노선정보조회 서비스” 이다 . 들어가서 다음과 같이 자신이 사용하는 목적을 클릭한다 . 나는 다음 기능 들을 다 사용할 것이다. 위 사진을 보면 일반 인..

web_crawling + wordCloud
학부공부/데이터마이닝과통계2018. 11. 15. 01:13web_crawling + wordCloud

오늘은 웹 크롤링한 데이터를 csv ( 엑셀 ) 형태로 저장을 시키고 , 저장시킨 엑셀 파일을 정제시키고 , 데이터를 가져와서 시각화 해보는 작업을 해 볼 것이다. 내가 크롤링할 사이트는 https://www.greenclimate.fund/home 이며 영어로 된 뉴스 사이트다. 코드를 보면서 분서해 보자 . 크게 rvest 패키지와 XML패키지가 필요하며 시각화 할 때 필요한 wordcloud2 패키지가 필요하다 . 문서를 다루는 tm패키지가 보통 깔려있는데 , 나는 없어서 깔아 주었다. library(rvest)library(XML) # 크롤링을 해오기 위해서 필요한 라이브러리들 install.packages("tm")install.packages("wordcloud2") # 필요한 패키지들 #wo..

동아신문 스크랩핑
학부공부/데이터마이닝과통계2018. 11. 14. 01:11동아신문 스크랩핑

동아 신문 사이트를 스크랩핑해보는 시간을 가져볼 것이다. 소스 코드는 다음과 같다. library(rvest)library(dplyr)우선 기본적으로 rvest 와 dplyr 패키지를 로딩시켜준다. url % html_nodes('a') %>% html_attr('href') %>% unique()) }이제 for문을 사용해서 html 코드 내에 있는 값에 접근을 해볼 것이다.먼저 html_read로 6개의 값이 저장되어 있는 url을 html 코드로 가져온다.그리고 나서 searchContent_class 명인것에 접근을 하고 , 그 하위 node인 클래스 a인 노드들에 접근하며 , 그 하위 노드의 attr = href 의 값을 가지는 노드를 추출한다 . 이때 unique를 사용함으로써 중복 방지를 한..

반응형
image