ADP | ADsP with R/Knowledge(16)
-
[ADP] R을 활용한 모형평가 방법(2) - Confusion matrix, ROC Curve, Gain chart
https://todayisbetterthanyesterday.tistory.com/5 헷갈리는 통계기본 - 정확도, 정밀도, 재현율, 특이도, G-mean, F1 measure, ROC curve&AUC, Gain Chart & Lift cur 추출한 훈련용 자료를 사용하여 분류 모형을 적합후 검증용 데이터를 사용하여 정확도를 평가할 때, 범주형 변수에 대해 사용되는 confusion matrix, ROC curve, gain chart, lift curve에 대해서 알아보자. 모 todayisbetterthanyesterday.tistory.com 위의 링크에 Confusion matrix에 관한 주요 지표들의 정의와 ROC curve, Gain chart&Lift chart의 설명이 모두 포함되어 ..
2020.08.02 -
[ADP] R을 활용한 모형평가 방법(1) - Holdout, K-fold, Boostrap
분류 분석의 모형을 평가하기 위해서 먼저 raw data에서 모형 구축을 위한 train data와 모형 성과 검증을 위한 test data를 추출한다. 이는 주어진 뎅터에서만 높은 성과를 보이게 되는 Overfitting 문제를 해결하기 위한 단계로 잘못된 가설을 가정하는 2종 오류의 발생을 방지할 수 있다. 이 단계를 위해 사용되는 추출방법이 대표적으로 Holdout method, K-fold Cross Validation, Boostrap이다. 학습용& 훈련용 데이터 추출방법 1. Holdout Holdout 방법은 일반적인 train_test_split방법으로 전체 데이터중 70%는 train data로, 나머지 30%는 test data로 분리해서 사용하는 것이다. 이런 방식을 통해서 검증용 자..
2020.08.02 -
[ADP] R로 하는 Ensemble(앙상블)모형 - Bagging, Boosting, RandomForest
Ensemble 모형에는 대표적으로 Bagging/RandomForest/Boosting이 있다. 이 앙상블 기법에 대한 개념적 설명은 아래 링크를 통해 남겨 놓겠다. 이번 게시글에는 R을 활용해 Bagging/RandomForest/Boosting을 실습하려고 한다. Bagging/RandomForest https://todayisbetterthanyesterday.tistory.com/48 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterd..
2020.08.02 -
[ADP] R로 하는 의사결정나무(Decision Tree) 모형
1. Decision Tree model 요약 의사결정 나무는 간단하게 말해서 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree구조의 분류/회귀 데이터마이닝 기법이다. 이해도가 매우 높고 직관적이라는 장점이 있다. 그렇기에 많이 사용되며, 의사결정나무도 많은 머신러닝 기법과 동일하게 종속변수의 형태에 따라 분류와 회귀 문제로 나뉜다. 종속변수가 범주형일 경우 Decision Tree Classification으로 분류를 진행하고, 종속변수가 연속형일 경우 Decision Tree Regression으로 회귀를 진행한다. 자세한 원리와 과정은 아래 링크를 통해 학습을 실시하기 바란다. 이번 게시글에서는 R을 통하여 구현하는 과정을 진행하겠다. https://today..
2020.07.24 -
[ADP] R로 하는 신경망(Neural Network) 모형
이 게시글은 신경망 모형을 R로 구현하는 과정만 진행한다. 그렇기에 인경신경망에 대한 원리와 정확한 개념을 알기 위해서는 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/42 [Data Analysis 개념] 인공신경망(Artificial Neural Network) 모형의 원리와 구성 - Perceptron / Activation function 1. 인공 신경망 모형의 배경 인공 신경망 모형은 인간의 뉴련의 자극전달 과정에 아이디어를 착안하여 발생한 머신러닝 알고리즘이다. 인간의 뉴런은 시냅스를 통하여 다른 뉴런으로부터 자극 todayisbetterthanyesterday.tistory.com 1. Artificial Neura..
2020.07.24 -
[ADP] R로 하는 로지스틱 회귀분석
1. 로지스틱 회귀모형의 이해 로지스틱 회귀모형은 반응변수가 범주형인 경우( 0 or 1 ) 적용하는 회귀분석 모형이다. 로지스틱 회귀모형은 설명변수의 값이 주어질 때, 특정 종속변수 집단에 속할 확률을 추정하여 특정 임계값을 설정하여 분류작업으로 진행되기도 한다. 이 때 모형 적합을 통해 추정된 확률은 "사후확률(posterior probability)"이라고 부르기도 한다. 기본적인 다중 로지스틱 회귀모형의 수식은 아래와 같다. 아래의 식은 승산비(odds)로 표현된 것이다. 그렇기에 해석에 있어서 단순 확률이라고 읽으면 안된다. 승산비란 성공확률(주류) = p /실패확률(비주류) = (1-p)이다. 위 식에서 파이는 아래의 정의와 같다. 이를 뜻하는 것은 파이(x)란 특정 x변수에서 성공할 확률인 ..
2020.07.20