boosting(4)
-
[ADP] R로 하는 Ensemble(앙상블)모형 - Bagging, Boosting, RandomForest
Ensemble 모형에는 대표적으로 Bagging/RandomForest/Boosting이 있다. 이 앙상블 기법에 대한 개념적 설명은 아래 링크를 통해 남겨 놓겠다. 이번 게시글에는 R을 활용해 Bagging/RandomForest/Boosting을 실습하려고 한다. Bagging/RandomForest https://todayisbetterthanyesterday.tistory.com/48 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterd..
2020.08.02 -
[Python] Ensemble(앙상블) - Boosting(AdaBoost, Gradient Boosting)
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Boosting의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/49?category=822147 [Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting) 1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치 todayisbetterthanyesterday.tistory.com 실습에 사용..
2020.07.31 -
[Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting)
1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치와 중요도를 계산한다. 그리고 복원추출을 진행할 때 가중치의 분포를 고려한다. 가중치의 분포가 고려되며 오분류된 데이터에 가중치를 더 얻게되면서, 다음 round에서 더 많이 고려된다. Boosting에는 AdaBoost, LPBoost, TotalBoost, BrownBoost, MadaBoost, LogitBoost, Gradient Boosting 등 많은 종류가 존재한다. Boosting 기법들의 차이는 오분류된 데이터를 다음 라운드에서 어떻게 반영시킬건지의 차이이다. 이 게..
2020.07.30 -
[Data Analysis 개념] Ensemble(앙상블)-1 : Ensemble의 기본적인 개념
1. Ensemble learning의 의미 먼저, Ensemble이란 "조화"를 뜻하는 의미의 프랑스어이다. Ensemble모형에 대해서 말하기 전에 우리는 실생활에서 의사결정을 진행할 때, 다양한 사람들의 의견을 수렴한다. 그리고 이 과정에서는 "대수의 법칙"이 적용된다. "대수의 법칙"이란 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계학 개념이다. 즉, 많은 사람들의 의견이 전체 사회구성원의 의견과 동일하다는 것이다. Ensemble learning은 이 기본적인 아이디어에 기반한다. Ensemble learning이라함은 여러개의 기본 모델을 활용하여 하나의 새로운 모델로 만들어낸다는 것이다. 이때의 기본모델(base model)을 weak learn..
2020.07.28