r(10)
-
[ADP] R을 활용한 모형평가 방법(2) - Confusion matrix, ROC Curve, Gain chart
https://todayisbetterthanyesterday.tistory.com/5 헷갈리는 통계기본 - 정확도, 정밀도, 재현율, 특이도, G-mean, F1 measure, ROC curve&AUC, Gain Chart & Lift cur 추출한 훈련용 자료를 사용하여 분류 모형을 적합후 검증용 데이터를 사용하여 정확도를 평가할 때, 범주형 변수에 대해 사용되는 confusion matrix, ROC curve, gain chart, lift curve에 대해서 알아보자. 모 todayisbetterthanyesterday.tistory.com 위의 링크에 Confusion matrix에 관한 주요 지표들의 정의와 ROC curve, Gain chart&Lift chart의 설명이 모두 포함되어 ..
2020.08.02 -
[ADP] R을 활용한 모형평가 방법(1) - Holdout, K-fold, Boostrap
분류 분석의 모형을 평가하기 위해서 먼저 raw data에서 모형 구축을 위한 train data와 모형 성과 검증을 위한 test data를 추출한다. 이는 주어진 뎅터에서만 높은 성과를 보이게 되는 Overfitting 문제를 해결하기 위한 단계로 잘못된 가설을 가정하는 2종 오류의 발생을 방지할 수 있다. 이 단계를 위해 사용되는 추출방법이 대표적으로 Holdout method, K-fold Cross Validation, Boostrap이다. 학습용& 훈련용 데이터 추출방법 1. Holdout Holdout 방법은 일반적인 train_test_split방법으로 전체 데이터중 70%는 train data로, 나머지 30%는 test data로 분리해서 사용하는 것이다. 이런 방식을 통해서 검증용 자..
2020.08.02 -
[ADP] R로 하는 신경망(Neural Network) 모형
이 게시글은 신경망 모형을 R로 구현하는 과정만 진행한다. 그렇기에 인경신경망에 대한 원리와 정확한 개념을 알기 위해서는 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/42 [Data Analysis 개념] 인공신경망(Artificial Neural Network) 모형의 원리와 구성 - Perceptron / Activation function 1. 인공 신경망 모형의 배경 인공 신경망 모형은 인간의 뉴련의 자극전달 과정에 아이디어를 착안하여 발생한 머신러닝 알고리즘이다. 인간의 뉴런은 시냅스를 통하여 다른 뉴런으로부터 자극 todayisbetterthanyesterday.tistory.com 1. Artificial Neura..
2020.07.24 -
[ADP] R로 하는 시계열 분석 실습(분해시계열, ARIMA)
이번 게시글에서는 R을 활용한 실습만 진행한다. 시계열 모형들에 대한 자세한 내용은 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/36 [Data Analysis 개념] 시계열 분석 - AR/MA/ARIMA/분해시계열 의미 1. 비정상/정상 시계열 자료 시계열 자료란 시간의 흐름에 따라 관측된 데이터를 말한다. 시계열 분석을 하기 위해서는 기본적으로 정상성(Stationary)를 만족해야한다. 정상성을 만족하는 것은 �� todayisbetterthanyesterday.tistory.com 시계열 분석 실습은 특성이 다른 두 가지 데이터를 가지고 비교하면서 진행하겠다. 첫 번째 데이터는 나일강 연간 유입량에 관한 데이터이며 두 번..
2020.07.18 -
[ADP] R을 활용한 변수 선택법 ( step()함수 - Forward, Backward, Stepwise )
회귀분석을 할 때 다중공선성이 발생하면, 데이터 분석의 신뢰성이나 예측 정확도를 떨어뜨린다. 이러한 문제를 하기 위한 방법 중 하나로 데이터 선정/전처리 과정에서 "변수선택"이 매우 중요하다. 변수 선택법(Variable Selection)은 1. 전진선택법(Forward Selection) 2. 후진소거법(Backward Elimination) 3. 단계적선택법(Stepwise Selection) 이 있다. 이 방법들은 모두 각 변수의 OLS 결과를 보고, 직접 p-value와 F통계량을 비교하며 추가/삭제하는 작업을 진행할 수 있다. 하지만, 통계에 수월한 언어인 R에는 step()이란 함수를 통해서 쉽게 3가지 방법 모두를 적용할 수 있다. 먼저 기본적인 함수의 형태를 알아보자 step(lm(종속변..
2020.07.17 -
[ADP] R을 활용한 단순회귀/다중회귀/다항회귀분석 실습
회귀 분석은 하나 또는 그이상의 변수들이 다른 변수에 미치는 영향을 추론하는 통계기법이다. 통계에서 영향을 받는 변수를 종속변수 혹은 반응변수라고 하고 이는 y로 표기한다. 그리고 영향을 주는 변수를 독립변수 혹은 설명변수라고 하고 x,x_1,x_2 등으로 표기한다. 그리고 단순회귀분석과 다중회귀분석을 진행할 때 가정은 아래와 같다. 1, 선형성(독립변수의 변화에 따라 종속변수도 일정 크기로 변화하는가) 2. 독립성(잔차와 독립변수의 값이 관련되어 있지 않은가) 3. 등분산성(독립변수의 모든 값에 대해 오차들의 분산이 일정한가) 4. 비상관성(관측치들의 잔차들끼리 상관이 없는가) 5. 정상성(잔차항이 정규분포를 이루는가) 이러한 가정을 두고 회귀분석을 진행하기에, 회귀분석의 결과를 검토할 때, 이러한 가..
2020.07.16