반응형
web_crawling + wordCloud
학부공부/데이터마이닝과통계2018. 11. 15. 01:13web_crawling + wordCloud

오늘은 웹 크롤링한 데이터를 csv ( 엑셀 ) 형태로 저장을 시키고 , 저장시킨 엑셀 파일을 정제시키고 , 데이터를 가져와서 시각화 해보는 작업을 해 볼 것이다. 내가 크롤링할 사이트는 https://www.greenclimate.fund/home 이며 영어로 된 뉴스 사이트다. 코드를 보면서 분서해 보자 . 크게 rvest 패키지와 XML패키지가 필요하며 시각화 할 때 필요한 wordcloud2 패키지가 필요하다 . 문서를 다루는 tm패키지가 보통 깔려있는데 , 나는 없어서 깔아 주었다. library(rvest)library(XML) # 크롤링을 해오기 위해서 필요한 라이브러리들 install.packages("tm")install.packages("wordcloud2") # 필요한 패키지들 #wo..

나이키 사이트 크롤링
학부공부/데이터마이닝과통계2018. 11. 10. 21:17나이키 사이트 크롤링

이번에는 나이키(nike) 사이트를 크롤링 해 볼 것이다. 내가 가져올 값들은 아우터 부분의 아우터 이름명과 가격이다. R을 실행해서 , 크롤링에 필요한 , xml과 rvest 패키지를 로딩시켜 준다 . library(rvest)library(XML) url url에 내가 크롤링 하고자 하는 사이트의 url 값을 넣어준다. doc 이 url을 html으로써 읽어 온다 이제 html에 접근하기 위해서 nike 사이트를 접속해 주면 되는데 , Nike 사이트는 다음과 같은 구조를 가졌다. 다음을 보게 되면 아우터의 class 명은 item-location으로 지정되어 있는 것을 확인할 수 있었다. # 옷 이름 가져오기 부분 prod_name % html_nodes(".item-title") %>% html_..

반응형
image