전체 글(79)
-
[Data Analysis 개념] NaiveBayes(나이브 베이즈) 모델 - 조건부 확률 / 베이즈 정리 / Multinomial, Gaussian, Bernoulli NaiveBayes
※ 이 게시글은 나이브 베이즈 분류에 대한 이론만 게시된 게시글입니다. 만약 파이썬을 통한 구현에서만 알아보고 싶다면 아래 링크를 통해 실습과정을 확인해주시면 됩니다. https://todayisbetterthanyesterday.tistory.com/18?category=821465 [Python] Gaussian/Multinomial Naive Bayes Classification(가우시안/다항 나이브 베이즈 분류) 실습 *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과정을 공유하고자 복기한 내용입니다. 나이브 베이즈 모델은 데이터가 적을 때, 간단한 학습으�� todayisbetterthanyesterday.tistory.com 나이브 베이..
2020.07.02 -
[Python] - PCA(주성분분석) 실습
PCA는 Principal component analysis의 약자로 차원의 저주를 해결하기 위한 방법 중 하나이다. 많은 변수들 사이에서 수학적인 연산을 통해 PC score를 얻어내고, 높은 PC score를 기반으로 LogisticRegression회귀분석을 진행한다. 이번 게시글에서는 이를 Python으로 실습하는 과정을 풀어나갈 것이다. 만약 이론과 원리에 대해 알고 싶다면 아래 링크를 통해 확인하길 바란다. https://todayisbetterthanyesterday.tistory.com/22 [Data Analysis] 차원 축소법 - PCA(주성분 분석) 이 게시글은 PCA의 이해와 수학적 과정만을 다룬다. Python 실습코드를 따라가보면 훨씬 이해가 잘 될 것이다. 아래 링크를 남겨놓..
2020.06.30 -
[Data Analysis 개념] 차원의 저주
차원의 저주? " 차원이 커질수록 데이터가 Sparse하게 존재하는 문제로 인해, 학습 데이터의 대표성을 잃고 모델 학습의 성능을 저하시키는 현상 "이라고 생각한다. 그림을 통해 알아보자. 선을 보면 선의 50%가 해당되는 영역이나 2차원 평면으로 차원이 확대되었을 때, 기존의 선이 나타낼 수던 영역이 넓이로 표현되었을 때 25%로 줄어든다. 이는 3차원 공간으로 이동하면 12.5%만 해당되는 부분으로 축소된다. 이처럼 차원이 높아질 수록 분포하는 데이터의 대표성이 줄어드는 현상이 발생한다. 이는 곧 학습/예측 성능의 저하를 불러일으킨다. 더 쉽게 알아보자. 첫 번째 선에서 별(데이터)이 5개 분포하고 있다. 이는 10개 중 5개로 50%에 해당한다. 하지만, 2차원에서 이 데이터가 분포한다면, 같은 범..
2020.06.25 -
[Python]회귀계수 축소법 실습 - Ridge,Lasso
실습에 사용될 데이터 : 개인대출 데이터 -----target Personal Loan ( 0 or 1 의 값을 갖는 변수이다. ) -----feature Experience 경력 Income 수입 Famliy 가족단위 CCAvg 월 카드사용량 Education 교육수준 (1: undergrad; 2, Graduate; 3; Advance ) Mortgage 가계대출 Securities account 유가증권계좌유무 CD account 양도예금증서 계좌 유무 Online 온라인계좌유무 CreidtCard 신용카드유무 ※ 실습은 Ridge와 Lasso만 진행하며, ElasticNet은 개념설명만 존재합니다. Ridge / Lasso / Elastic-Net의 개념은 아래 링크에 저장되어 있고, 이 페이지는..
2020.06.24 -
회귀계수 축소법 - Lasso, Ridge, Elastic-Net 개념
변수선택법 ※ 변수선택법으로 Forward / Backward / Stepwise 방법을 통해 유의미한 변수를 선택하여 변수의 개수를 줄이고 모델을 단순화 시키는 작업에 대해서 알아보았다. 회귀계수 축소법은 비슷해보이지만 목표가 약간다르다. 변수선택법에서는 다중회귀 분석을 진행할 때, 다중공선성과 같은 문제를 해결하기 위해 SSE를 최소화하며 변수선택을 해나가거나 또는 제거해나아가는 방식을 택했다. https://todayisbetterthanyesterday.tistory.com/10 [Python]변수선택법 실습(2) - 전진선택법/후진소거법/단계적선택법/MAPE 모델 성능 평가 (변수선택�� *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과..
2020.06.23 -
[Python]로지스틱회귀분석 실습
실습에 사용될 데이터 : 개인대출 데이터 -----target Personal Loan ( 0 or 1 의 값을 갖는 변수이다. ) -----feature Experience 경력 Income 수입 Famliy 가족단위 CCAvg 월 카드사용량 Education 교육수준 (1: undergrad; 2, Graduate; 3; Advance ) Mortgage 가계대출 Securities account 유가증권계좌유무 CD account 양도예금증서 계좌 유무 Online 온라인계좌유무 CreidtCard 신용카드유무 여태 단순/다중회귀분석과 다중공선성을 해결하기 위한 방법을 Python코드로 알아보았다. 이제 sigmoid function을 이용한 분류/예측을 하는 로지스틱 회귀분석을 실습하려고 한다. ..
2020.06.20