전체 글(79)
-
[ADP] R을 활용한 다변량 분석 -상관분석/ 다차원 척도법 / 주성분분석 (PCA)
1. 상관 분석 상관분석은 데이터에 존재하는 두 변수 간의 관계를 알아보기 위해서 진행한다. 즉, 상관계수를 알아보는 것이다. 두 변수간의 상관관계를 측정하는 상관계수는 피어슨 상관계수와 스피어만 상관계수가 있다. 1) 피어슨 상관계수 피어슨 상관계수의 수식은 아래와 같다. 이때 상관계수는 -1
2020.07.17 -
[ADP] R을 활용한 변수 선택법 ( step()함수 - Forward, Backward, Stepwise )
회귀분석을 할 때 다중공선성이 발생하면, 데이터 분석의 신뢰성이나 예측 정확도를 떨어뜨린다. 이러한 문제를 하기 위한 방법 중 하나로 데이터 선정/전처리 과정에서 "변수선택"이 매우 중요하다. 변수 선택법(Variable Selection)은 1. 전진선택법(Forward Selection) 2. 후진소거법(Backward Elimination) 3. 단계적선택법(Stepwise Selection) 이 있다. 이 방법들은 모두 각 변수의 OLS 결과를 보고, 직접 p-value와 F통계량을 비교하며 추가/삭제하는 작업을 진행할 수 있다. 하지만, 통계에 수월한 언어인 R에는 step()이란 함수를 통해서 쉽게 3가지 방법 모두를 적용할 수 있다. 먼저 기본적인 함수의 형태를 알아보자 step(lm(종속변..
2020.07.17 -
[Data Analysis 개념] (kernel)SVM - Support Vector Machine의 직관적 이해와 수학적 개념
이번 게시글은 SVM에 대한 원리와 이해에 집중한다. Python을 통해 구현하는 과정은 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/32 [Python] SVM(Support Vector Machine)구현 실습 *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과정을 공유하고자 복기한 내용입니다. SVM은 다른 분류모형처럼 Decision Boundary를 형성하는 것에 �� todayisbetterthanyesterday.tistory.com 1. SVM의 직관적 이해 1) SVM의 직관적 이해 SVM은 다른 분류모형처럼 Decision Boundary를 체계적인 방법..
2020.07.16 -
[Python] SVM(Support Vector Machine)구현 실습
SVM은 다른 분류모형처럼 Decision Boundary를 형성하는 것에 집중한다. 그리고 boundary의 결정은 위의 그림과 같이, 각 분포로부터 margin을 최대화하는 것을 목표로 결정하게 된다. 하지만 이러면 분산대비 평균의 차이를 극대화시키는 LDA와는 크게 다른 점이 없어 보인다. 그렇다면 아래와 같은 경우는 어떻게 되는가? 위의 그림을 보면 margin사이에 다른 데이터가 분포하고, 게다가 boundary를 넘어서 다른 집단의 데이터가 분포한다. 이러한 경우는 일반적인 데이터에 매우 많이 존재한다. 오히려 깔끔하게 boudary에 따라 분리되는 데이터를 찾는 경우가 더 힘들수도 있다. SVM은 이러한 데이터의 경우를 생각하여, 적당한 error를 허용하며, 이를 최소화하는 boundary..
2020.07.16 -
[ADP] R을 활용한 단순회귀/다중회귀/다항회귀분석 실습
회귀 분석은 하나 또는 그이상의 변수들이 다른 변수에 미치는 영향을 추론하는 통계기법이다. 통계에서 영향을 받는 변수를 종속변수 혹은 반응변수라고 하고 이는 y로 표기한다. 그리고 영향을 주는 변수를 독립변수 혹은 설명변수라고 하고 x,x_1,x_2 등으로 표기한다. 그리고 단순회귀분석과 다중회귀분석을 진행할 때 가정은 아래와 같다. 1, 선형성(독립변수의 변화에 따라 종속변수도 일정 크기로 변화하는가) 2. 독립성(잔차와 독립변수의 값이 관련되어 있지 않은가) 3. 등분산성(독립변수의 모든 값에 대해 오차들의 분산이 일정한가) 4. 비상관성(관측치들의 잔차들끼리 상관이 없는가) 5. 정상성(잔차항이 정규분포를 이루는가) 이러한 가정을 두고 회귀분석을 진행하기에, 회귀분석의 결과를 검토할 때, 이러한 가..
2020.07.16 -
[ADP] R - 결측값 처리와 이상값 탐색
R언어와 사용법에 관한 게시글들은 "한국 데이터 산업진흥원"에서 출간한 국가공인 ADP/ADsP자격증을 위한 "데이터 분석 전문 가이드"에 서술된 수준에 한정지어 다루어 볼 것입니다. ADP필기 준비를 위한 R의 기본적인 문법과 패키지들을 학습을 목표로 합니다. 1. 데이터 탐색 데이터를 본격적으로 분석하기 이전에는 데이터의 특서을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근해야한다. 그 작업 중 하나가 바로 기초통계량(기술통계량)을 확인하는 작업이다. data(iris) # 데이터 로드 head(iris) # 데이터 생김새 파악 str(iris) # 데이터 구조를 파악 summary(iris) # 데이터의 평균과 4분위수 파악 cov(iris[,1:4]) # 데이터의 공분산 파악 cor(ir..
2020.07.14