반응형
학부공부/빅데이터기술2019. 5. 27. 21:52기획이란 무엇인가

기획의 개념 1. 꾀할 기 + 그을 획 = 기획 2. 꾀하다 + 계획하다 = 일을 꾀하여 계획한다 기획의 목적 1. 해결하고자 하는 대상이나 프로젝트에 대한 방법과 목적을 구체적인 사안을 통해 상대방을 설득하여 목적 대상에 대한 합리적인 방안을 제시하기 위한 것 기획의 정의 1. 보다 나은 수단으로 목표를 달성하기 위하여 장래의 행동에 관한 일단의 결정을 준비하는 과정이며, 어떤 대상에 대해 그 대상의 변화를 가져올 목적을 확인하고 그 목적을 성취하는 데에 가장 적합한 행동을 설계하는 것을 의미 무엇을 , 어떻게 à 상대방을 설득,공감 유도 à 해결책 제시 기획자의 역할 1. 제안 요청서에 대한 분석, 전체 프로젝트의 방향과 목표 설정, 제안서 작성, 일정 계획 수립, 화면 설계, 클라이언트와의 커뮤니케..

학부공부/빅데이터기술2019. 4. 9. 01:39나이브 베이즈 분류기 ( Naive Bayes Classifier )

나이브 베이즈 ( naive bayes ) 분류기는 앞에서 설명한 선형 모델과 매우 유사하다. LogisticRegression 이나 LinearSVC 같은 선형 분류기보다 훈련 속도가 빠른 편이지만 , 그 대신 일반화 성능이 조금 느리다. 나이브 베이즈 분류기가 효과적인 이유는 각 특성을 개별로 취급해 파라미터를 학습하고 , 각 특성에서 클래스별 통계를 단순하게 취합하기 때문이다 . scikit-learn에 구현된 나이브 베이즈 분류기는 GaussianNB , BernoulliNB , MultinomialNB 이렇게 세가지이다. GaussianNB는 연속적인 어떤 데이터에도 적용할 수 있고 BernoulliNB는 이진 데이터 MultinomialNB는 카운트 데이터 ( 특성이 어떤 것을 헤아린 정수 카..

가중치 ( weight )
학부공부/빅데이터기술2019. 4. 9. 00:41가중치 ( weight )

가중치 주택의 가치를 추정하는 프로그램을 어떻게 작성 할 수 있을까? 다음 내용을 읽기 전에 잠시 생각해 보자 만약 , 기계 학습에 대해 잘 모른다면 , 아마도 당신은 다음과 같이 주택 가격을 추정하기 위한 기본 규칙들을 작성하고자 할 것이다. 주택의 정보는 위와 같다 . 다음처럼 함수를 선언해 볼 수 있을 것 같다. def estimate_house_sales_price(num_of_bedrooms, sqft, neighborhood): price =0 #담당 지역내 평균 주택 가격은 평당 피트 당 200달이다 . price_per_sqft = 200 if neighborhood == "hipsterton": # 하지만 다른 지역은 조금 더 비싸다. price_per_sqft = 400 elif nei..

라쏘 (Lasso)
학부공부/빅데이터기술2019. 4. 8. 01:25라쏘 (Lasso)

라쏘 선형 회귀에 규제를 적용하는 데 Ridge의 대안으로 Lasso가 있다. 릿지 회귀에서와 같이 라쏘도 계수를 0에 가깝게 만들려고 한다. 하지만 방식이 조금 다르고 , 이를 L1 규제라고 한다. L1 규제의 결과로 라쏘를 사용할 때 어떤 계수는 정말 0이 된다 이 말은 모델에서 완전히 제외되는 특성이 생긴다는 뜻이다. 어떻게 보면 특성 선택 ( feature selection )이 자동으로 이뤄진다고 볼 수 있다. 일부 계수를 0으로 만들면 모델을 이해하기 쉬워지고 이 모델의 가장 중요한 특성이 무엇인지 드러난다. 확장된 보스턴 주택가격 데이터셋에 라쏘를 적용해 보겠다. 코드를 통해서 확인해 보자 . from sklearn.linear_model import Lasso import mglearn f..

릿지 ( Lidge )
학부공부/빅데이터기술2019. 4. 8. 00:29릿지 ( Lidge )

릿지 회귀 릿지 ( Ridge ) 도 회귀를 위한 선형 모델이므로 , 최소적합법에서 사용한 것과 같은 예측 함수를 사용한다. 하지만, 릿지 회귀에서의 가중치(w) 선택은 훈련 데이터를 잘 예측하기 위해서 뿐만 아니라 추가 제약 조건을 만족시키기 위한 목적도 있다. 가중치의 절대값을 가능한 한 작게 만드는 것이다. 다시 말해서 , w의 모든 원소가 0에 가깝게 되길 원한다. 생각을 해보면 , 이는 모든 특성이 출력에 주는 영향을 최소한으로 만든다 기울기를 작게 만든다 . 이런 제약을 규체 ( regularization ) 라고 한다. 규제란 과대적합이 되지 않도록 모델을 강제로 제한한다는 의미이다. 릿지 회귀에 사용하는 규제 방식을 L2 규제라고 한다 . 릿지 회귀는 linear_model.Ridge에 구..

학부공부/빅데이터기술2019. 4. 7. 21:02최소제곱법 ( ordinary least squares ) - based on Extended_Boston datasets

저번에 wave 데이타를 사용했을 때 , 결과값이 과소적합이였다. 특성의 개수가 많은 Extended boston datasets 을 사용했을 경우에는 결과값이 어떻게 나오는지 확인해 보자 . from sklearn.linear_model import LinearRegression import mglearn from sklearn.model_selection import train_test_split 먼저 필요한 라이브러리를 로딩시킨다. X,y = mglearn.datasets.load_extended_boston() X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) lr = LinearRegression().fit(X_t..

반응형
image