저번에 다뤄본 Steam_data에서 Metacritic이란 변수를 보았을 것이다. 이게 무엇일까 라는 생각을 많이 하였다. 그래서 알아보았다. 정의 Metacritic은 영화, TV프로그램, 음악 앨범, 비디오 게임 및 이전의 서적과 같은 미디어 제품에 대한 리뷰를 집계하는 웹 사이트이다. 각 제품에 대해 각 리뷰의 점수는 평균이다. 각 리뷰에서 발췌한 내용과 소스에 대한 하이퍼 링크를 제공한다. 녹색, 노란색, 빨간색의 색상은 비평가의 권장 사항을 요약한다. Metacritic의 점수는 각 리뷰를 주어진 점수에서 수학적으로 혹은 사이트의 리뷰에서 주관적으로 결정한 백분율로 변환한다. 평균을 계산하기 전에 평론가의 평판, 리뷰 량에 따라 점수에 가중치를 부여한다. 메타 스코어는 무엇인가? 점수는 가중 ..
Random Forest는 감독 학습 알고리즘이다. 숲을 만들어 어딘지 모르게 만든다. “숲”은 의사 결정 나무의 앙살블이며 , 대부분 “포장”방법으로 훈련되었다. Bagging 방법의 일반적인 아이디어는 학습 모델의 조합이 전반적인 결과를 증가 시킨다는 것이다. 간단하게 말하자면 , 랜덤 포레스트는 여러 개의 의사 결정 트리를 만들고 병합하여 보다 정확하고 안정적인 예측을 한다 . 무작위적인 숲의 한 가지 큰 이점은 분류 및 회귀 문제 모두에 사용될 수 있다는 것이다. 현재 기계 학습 시스템의 대부분을 형성한다. 랜덤 포레스트는 결정 트리 또는 자루 분류기와 거의 동일한 하이퍼 매개 변수를 가진다. 의사 결정 트리를 분류 분류기와 결합 할 필요가 없으며 Random Forest의 분류 자 클래스를 쉽게..
의사결정나무는 무엇이며 , R에서 어떻게 구현할 수 있으며 , 그 의미는 무엇인지 알아 볼 것이다. 의사결정나무(decision tree) 또는 나무 모형(tree model)은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification) 하거나 예측 (prediction)을 수행하는 분석방법이다. 상위 노드로부터 하위노드로 트리구조를 형성하는 매 단계마다 분류변수와 분류 기준값의 선택이 중요하다. 상위노드에서의 (분류변수 , 분류 기준값)은 이 기준에 의해 분기되는 하위노드에서 노드 (집단) 내에서는 동질성이 , 노드(집단)간에는 이질성이 가장 커지도록 선택된다. 나무 모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한..
추천 알고리즘을 구현하기 위해서 몇 가지 생각을 해보았다.그 중에 한개에 해당하는 결정 트리 학습법에 대해서 알아 보고자 한다.나의 생각을 정리하기 보다는, 결정 트리 학습법이 무엇인지 알기 위함이 크다. 결정 트리 학습법(decision tree learning)은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다.. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다 . 이 트리 구조에서 잎은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다. 의사 결정 분석에서 결정 트리는 시각적이고 명시적인 방법으로 의사 결정 과정과 결..
앞에서 다룬 사용자의 행동을 분석하고 , 다른 사용자와의 유사성을 기반으로 사용자가 좋아할 것으로 예상되는 사용자 기반 협업 필터링이라는 협업 필터링 방법에 대해 알아 보았다. 그러나 , 이 방법은 다음과 같은 두 가지 주요 문제가 발생한다. 1. 데이터 희박성 : 항목 수가 많으면 사용자가 평가 한 항목 수가 매우 적어 상관 계수의 안정성이 떨어진다.2. 사용자 프로파일이 빠르게 변하고 전체 시스템 모델을 다시 계산해야 하는 데 시간과 계산 비용이 많이 든다 . 이러한 문제를 해결하기 위해 ITEM-ITEM 협업 필터링을 사용한다. ITEM-ITEM 협업 필터링 ITEM-ITEM 협업 필터링은 사용자가 이미 평가 한 기사와 유사한 항목을 찾고 유사한 기사를 가장 많이 추천한다 . 그러나 항목 항목 유사..
졸작 준비중에 있는데 , 추천시스템을 알아야 하는 과정이 필요했다.그래서 짧게 나마, 추천시스템이 무엇이며 , 어떤 것들이 있고 , 어떤 알고리즘을 사용하는지 알아볼 것이다. 추천 시스템이란 ??? 대상자가 좋아할 만한 무언가를 추천하는 시스템을 일컫는다. 예를 들어서 , 쇼핑을 하기 위해 웹사이트를 방문하면 당신에게 추천할 만한 아이템이라는 것을 보거나 혹은 특정 상품의 정보를 얻기 위해 클릭을 하면 화면 어딘가에 추천아이템 , 인기아이템 , 당신이 좋아할 만한아이템 등 다양한 이름으로 상품을 추천하는 것을 쉽게 발견할 수 있다. 추천시스템의 주요기술 협업필터링(Collaborative Filtering) 협업필터링은 다음과 같은 가정을 기반으로 만들어진 기술로 추천시스템의 가장 기본적이면서도 중요한 ..