ML in Python(40)
-
[Data Analysis 개념] Ensemble(앙상블)-4 : Feature Importance & Shap Value
1. Feature importance 앙상블에서 변수 해석의 문제 앙상블 모형은 많은 모델들이 기본적으로 Tree 기반으로 이루어진다. 동시에, 이 Tree기반의 앙상블들은 전반적으로 우수한 성능을 내는 모델들이라고도 알려져 있다. 하지만, 앙상블 기법을 사용하면서 Decision Tree들의 결합과 반복되는 학습과정에서 Decision Tree의 뛰어난 직관성이 사라진다. 변수 및 모델의 설명력을 위해서 Tree를 사용하는데 성능을 높이려고 앙상블 기법을 추가하다 보니, 원래의 목적을 잃는 것이다. 이처럼 정확성(Accuracy)과 설명력은 모델 선택에 있어서 trade-off 관계가 존재한다. 그러다 보니, 모델에 대한 해석이 필요할 때(target에 어떤 변수가 영향을 미치는지) Linear re..
2020.08.03 -
[Python] Ensemble(앙상블) - Boosting(AdaBoost, Gradient Boosting)
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Boosting의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/49?category=822147 [Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting) 1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치 todayisbetterthanyesterday.tistory.com 실습에 사용..
2020.07.31 -
[Python] Ensemble(앙상블) - Random Forest(랜덤포레스트)
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 RandomForest의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/48?category=822147 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysi.. todayisbetterthanyesterday.tistor..
2020.07.31 -
[Python] Ensemble(앙상블) - Bagging
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Bagging의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/48?category=822147 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysi.. todayisbetterthanyesterday.tistory.com..
2020.07.31 -
[Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting)
1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치와 중요도를 계산한다. 그리고 복원추출을 진행할 때 가중치의 분포를 고려한다. 가중치의 분포가 고려되며 오분류된 데이터에 가중치를 더 얻게되면서, 다음 round에서 더 많이 고려된다. Boosting에는 AdaBoost, LPBoost, TotalBoost, BrownBoost, MadaBoost, LogitBoost, Gradient Boosting 등 많은 종류가 존재한다. Boosting 기법들의 차이는 오분류된 데이터를 다음 라운드에서 어떻게 반영시킬건지의 차이이다. 이 게..
2020.07.30 -
[Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest
앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysis 개념] Ensemble(앙상블)-1 : Ensemble의 기본적인 개념 1. Ensemble learning의 의미 먼저, Ensemble이란 "조화"를 뜻하는 의미의 프랑스어이다. Ensemble모형에 대해서 말하기 전에 우리는 실생활에서 의사결정을 진행할 때, 다양한 사람들의 의견을 수렴한다. todayisbetterthanyesterday.tistory.com 1. Bagging 1) Bagging의 의미 Bagging이란 bootst..
2020.07.28