ML in Python/Knowledge(19)
-
[Data Analysis 개념] Clustering(2) - Hierarchical clustering / DBSCAN
https://todayisbetterthanyesterday.tistory.com/58 [Data Analysis 개념] Clustering(1) - K-means/K-medoids 1. Clustering - 군집분석 군집분석은 비지도학습(unsupervised learning)의 일종으로 유사한 데이터끼리 그룹화를 시키는 학습모델을 말한다. 각 데이터의 유사성을 측정하여, 유사성이 높은 집단끼리 � todayisbetterthanyesterday.tistory.com 앞의 게시글을 통해서 Clustering의 설명과 K-means/K-medoids clustering에 대해서 알아보았다. 이번 게시글은 Hierarchical clustering과 DBSCAN에 대해서 알아보자. 1. Hierarch..
2020.08.05 -
[Data Analysis 개념] Clustering(1) - K-means/K-medoids
1. Clustering - 군집분석 군집분석은 비지도학습(unsupervised learning)의 일종으로 유사한 데이터끼리 그룹화를 시키는 학습모델을 말한다. 각 데이터의 유사성을 측정하여, 유사성이 높은 집단끼리 분류하고 군집간에 상이성을 규명하는 방법이다. 군 위의 그림을 보면 raw data에는 여러가지 종류가 섞여있다. 섞여있는 raw data를 군집분석을 통해 서로 다른 특성을 가진 군집으로 분류한다. 이때, 분류문제와는 다르게 target Y가 존재하지 않는다. 그렇기에 학습과정에 있어서 정답을 맞출 기준표가 없는 것이다. 위의 그림은 기사에 대한 군집분석을 보여준다. 각 군집은 이슈별로 정리된 결과를 도출했다. 이처럼 군집분석은 raw data에서 segmentation을 통해 insi..
2020.08.05 -
[Data Analysis 개념] Ensemble(앙상블)-4 : Feature Importance & Shap Value
1. Feature importance 앙상블에서 변수 해석의 문제 앙상블 모형은 많은 모델들이 기본적으로 Tree 기반으로 이루어진다. 동시에, 이 Tree기반의 앙상블들은 전반적으로 우수한 성능을 내는 모델들이라고도 알려져 있다. 하지만, 앙상블 기법을 사용하면서 Decision Tree들의 결합과 반복되는 학습과정에서 Decision Tree의 뛰어난 직관성이 사라진다. 변수 및 모델의 설명력을 위해서 Tree를 사용하는데 성능을 높이려고 앙상블 기법을 추가하다 보니, 원래의 목적을 잃는 것이다. 이처럼 정확성(Accuracy)과 설명력은 모델 선택에 있어서 trade-off 관계가 존재한다. 그러다 보니, 모델에 대한 해석이 필요할 때(target에 어떤 변수가 영향을 미치는지) Linear re..
2020.08.03 -
[Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting)
1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치와 중요도를 계산한다. 그리고 복원추출을 진행할 때 가중치의 분포를 고려한다. 가중치의 분포가 고려되며 오분류된 데이터에 가중치를 더 얻게되면서, 다음 round에서 더 많이 고려된다. Boosting에는 AdaBoost, LPBoost, TotalBoost, BrownBoost, MadaBoost, LogitBoost, Gradient Boosting 등 많은 종류가 존재한다. Boosting 기법들의 차이는 오분류된 데이터를 다음 라운드에서 어떻게 반영시킬건지의 차이이다. 이 게..
2020.07.30 -
[Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest
앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysis 개념] Ensemble(앙상블)-1 : Ensemble의 기본적인 개념 1. Ensemble learning의 의미 먼저, Ensemble이란 "조화"를 뜻하는 의미의 프랑스어이다. Ensemble모형에 대해서 말하기 전에 우리는 실생활에서 의사결정을 진행할 때, 다양한 사람들의 의견을 수렴한다. todayisbetterthanyesterday.tistory.com 1. Bagging 1) Bagging의 의미 Bagging이란 bootst..
2020.07.28 -
[Data Analysis 개념] Ensemble(앙상블)-1 : Ensemble의 기본적인 개념
1. Ensemble learning의 의미 먼저, Ensemble이란 "조화"를 뜻하는 의미의 프랑스어이다. Ensemble모형에 대해서 말하기 전에 우리는 실생활에서 의사결정을 진행할 때, 다양한 사람들의 의견을 수렴한다. 그리고 이 과정에서는 "대수의 법칙"이 적용된다. "대수의 법칙"이란 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계학 개념이다. 즉, 많은 사람들의 의견이 전체 사회구성원의 의견과 동일하다는 것이다. Ensemble learning은 이 기본적인 아이디어에 기반한다. Ensemble learning이라함은 여러개의 기본 모델을 활용하여 하나의 새로운 모델로 만들어낸다는 것이다. 이때의 기본모델(base model)을 weak learn..
2020.07.28