전체 글(79)
-
[ADP] R을 활용한 모형평가 방법(1) - Holdout, K-fold, Boostrap
분류 분석의 모형을 평가하기 위해서 먼저 raw data에서 모형 구축을 위한 train data와 모형 성과 검증을 위한 test data를 추출한다. 이는 주어진 뎅터에서만 높은 성과를 보이게 되는 Overfitting 문제를 해결하기 위한 단계로 잘못된 가설을 가정하는 2종 오류의 발생을 방지할 수 있다. 이 단계를 위해 사용되는 추출방법이 대표적으로 Holdout method, K-fold Cross Validation, Boostrap이다. 학습용& 훈련용 데이터 추출방법 1. Holdout Holdout 방법은 일반적인 train_test_split방법으로 전체 데이터중 70%는 train data로, 나머지 30%는 test data로 분리해서 사용하는 것이다. 이런 방식을 통해서 검증용 자..
2020.08.02 -
[ADP] R로 하는 Ensemble(앙상블)모형 - Bagging, Boosting, RandomForest
Ensemble 모형에는 대표적으로 Bagging/RandomForest/Boosting이 있다. 이 앙상블 기법에 대한 개념적 설명은 아래 링크를 통해 남겨 놓겠다. 이번 게시글에는 R을 활용해 Bagging/RandomForest/Boosting을 실습하려고 한다. Bagging/RandomForest https://todayisbetterthanyesterday.tistory.com/48 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterd..
2020.08.02 -
[Python] Ensemble(앙상블) - Boosting(AdaBoost, Gradient Boosting)
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Boosting의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/49?category=822147 [Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting) 1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치 todayisbetterthanyesterday.tistory.com 실습에 사용..
2020.07.31 -
[Python] Ensemble(앙상블) - Random Forest(랜덤포레스트)
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 RandomForest의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/48?category=822147 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysi.. todayisbetterthanyesterday.tistor..
2020.07.31 -
[Python] Ensemble(앙상블) - Bagging
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Bagging의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/48?category=822147 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysi.. todayisbetterthanyesterday.tistory.com..
2020.07.31 -
[Data Analysis 개념] Ensemble(앙상블)-3 : Boosting(Adaboost, Gradient Boosting)
1. Boosting boosting은 오분류된 데이터에 집중해 더 많은 가중치를 주는 ensemble 기법이다. 맨 처음 learner에서는 모든 데이터가 동일한 가중치를 갖는다. 하지만, 각 라운드가 종료될 때마다, 가중치와 중요도를 계산한다. 그리고 복원추출을 진행할 때 가중치의 분포를 고려한다. 가중치의 분포가 고려되며 오분류된 데이터에 가중치를 더 얻게되면서, 다음 round에서 더 많이 고려된다. Boosting에는 AdaBoost, LPBoost, TotalBoost, BrownBoost, MadaBoost, LogitBoost, Gradient Boosting 등 많은 종류가 존재한다. Boosting 기법들의 차이는 오분류된 데이터를 다음 라운드에서 어떻게 반영시킬건지의 차이이다. 이 게..
2020.07.30