반응형
web_crawling + wordCloud
학부공부/데이터마이닝과통계2018. 11. 15. 01:13web_crawling + wordCloud

오늘은 웹 크롤링한 데이터를 csv ( 엑셀 ) 형태로 저장을 시키고 , 저장시킨 엑셀 파일을 정제시키고 , 데이터를 가져와서 시각화 해보는 작업을 해 볼 것이다. 내가 크롤링할 사이트는 https://www.greenclimate.fund/home 이며 영어로 된 뉴스 사이트다. 코드를 보면서 분서해 보자 . 크게 rvest 패키지와 XML패키지가 필요하며 시각화 할 때 필요한 wordcloud2 패키지가 필요하다 . 문서를 다루는 tm패키지가 보통 깔려있는데 , 나는 없어서 깔아 주었다. library(rvest)library(XML) # 크롤링을 해오기 위해서 필요한 라이브러리들 install.packages("tm")install.packages("wordcloud2") # 필요한 패키지들 #wo..

쿠팡 웹 크롤링 맛보기
학부공부/데이터마이닝과통계2018. 11. 1. 23:02쿠팡 웹 크롤링 맛보기

웹 크롤링할 일이 생겨서 하다가 , 안되는 부분이 있어서 적어보고자 한다. 기존 코드이다. XML 라이브러리를 통해서 크롤링에 접근할려고 했다. library(XML) url 먼저 내가 Parsing 하고자 하는 url을 긁어온다. doc 긁어온 url을 html 코드로 변환하며 encoding 방식도 설정해 줄수 있다. prod_name 내가 긁어온 html 코드에 접근을 하고 , ul태그내에 있는 id 값이 productList인것에 1차 접근을 하고 //을 통해서 건너뛴 다음 , div 태그 내에 있는 class 값이 name인 것에 2차 접근을 하는 것이였다. 그런데 여기서 오류가 나는 것이다. Class 가 NULL이라고 한다… 내 뇌피셜이지만 class를 못찾거나 , class명이 잘못된것이라..

반응형
image