전체 글(79)
-
[Python] K-means clustering
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. K-means 군집분석의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. 아래는 3개의 실습과정을 통해서 k-means 공부를 진행할 것이다. 각 단계에서 사용되는 parameter는 약간의 차이가 있다. 그렇기에 하나씩 읽어나가면 k-means의 구현과정을 알아가는데 많은 도움이 될 것이라고 생각한다. 그렇기에 모든 실습과정을 살펴보는 것을 추천한다. https://todayisbetterthanyesterday.tistory.com/58 [Data Analysis 개념] Clustering(1) - K-means/K-medoids 1. Clustering - 군집분석 군집분석은 비지도학습(unsupervised learning)의..
2020.08.09 -
[Data Analysis 개념] Clustering(2) - Hierarchical clustering / DBSCAN
https://todayisbetterthanyesterday.tistory.com/58 [Data Analysis 개념] Clustering(1) - K-means/K-medoids 1. Clustering - 군집분석 군집분석은 비지도학습(unsupervised learning)의 일종으로 유사한 데이터끼리 그룹화를 시키는 학습모델을 말한다. 각 데이터의 유사성을 측정하여, 유사성이 높은 집단끼리 � todayisbetterthanyesterday.tistory.com 앞의 게시글을 통해서 Clustering의 설명과 K-means/K-medoids clustering에 대해서 알아보았다. 이번 게시글은 Hierarchical clustering과 DBSCAN에 대해서 알아보자. 1. Hierarch..
2020.08.05 -
[Data Analysis 개념] Clustering(1) - K-means/K-medoids
1. Clustering - 군집분석 군집분석은 비지도학습(unsupervised learning)의 일종으로 유사한 데이터끼리 그룹화를 시키는 학습모델을 말한다. 각 데이터의 유사성을 측정하여, 유사성이 높은 집단끼리 분류하고 군집간에 상이성을 규명하는 방법이다. 군 위의 그림을 보면 raw data에는 여러가지 종류가 섞여있다. 섞여있는 raw data를 군집분석을 통해 서로 다른 특성을 가진 군집으로 분류한다. 이때, 분류문제와는 다르게 target Y가 존재하지 않는다. 그렇기에 학습과정에 있어서 정답을 맞출 기준표가 없는 것이다. 위의 그림은 기사에 대한 군집분석을 보여준다. 각 군집은 이슈별로 정리된 결과를 도출했다. 이처럼 군집분석은 raw data에서 segmentation을 통해 insi..
2020.08.05 -
[Python] 중요변수를 추출하기 위한 방법 - Shap Value 구현
*아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과정을 공유하고자 복기한 내용입니다. 이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 중요변수를 추출하기 위한 방법과 shap value의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/56 [Data Analysis 개념] Ensemble(앙상블)-4 : Feature Importance & Shap Value 1. Feature importance 앙상블에서 변수 해석의 문제 앙상블 모형은 많은 모델들이 기본적으로 Tree 기반으로 이루어진다. 동시에, 이 Tree기반의 앙상블들은 전반적으..
2020.08.03 -
[Data Analysis 개념] Ensemble(앙상블)-4 : Feature Importance & Shap Value
1. Feature importance 앙상블에서 변수 해석의 문제 앙상블 모형은 많은 모델들이 기본적으로 Tree 기반으로 이루어진다. 동시에, 이 Tree기반의 앙상블들은 전반적으로 우수한 성능을 내는 모델들이라고도 알려져 있다. 하지만, 앙상블 기법을 사용하면서 Decision Tree들의 결합과 반복되는 학습과정에서 Decision Tree의 뛰어난 직관성이 사라진다. 변수 및 모델의 설명력을 위해서 Tree를 사용하는데 성능을 높이려고 앙상블 기법을 추가하다 보니, 원래의 목적을 잃는 것이다. 이처럼 정확성(Accuracy)과 설명력은 모델 선택에 있어서 trade-off 관계가 존재한다. 그러다 보니, 모델에 대한 해석이 필요할 때(target에 어떤 변수가 영향을 미치는지) Linear re..
2020.08.03 -
[ADP] R을 활용한 모형평가 방법(2) - Confusion matrix, ROC Curve, Gain chart
https://todayisbetterthanyesterday.tistory.com/5 헷갈리는 통계기본 - 정확도, 정밀도, 재현율, 특이도, G-mean, F1 measure, ROC curve&AUC, Gain Chart & Lift cur 추출한 훈련용 자료를 사용하여 분류 모형을 적합후 검증용 데이터를 사용하여 정확도를 평가할 때, 범주형 변수에 대해 사용되는 confusion matrix, ROC curve, gain chart, lift curve에 대해서 알아보자. 모 todayisbetterthanyesterday.tistory.com 위의 링크에 Confusion matrix에 관한 주요 지표들의 정의와 ROC curve, Gain chart&Lift chart의 설명이 모두 포함되어 ..
2020.08.02