ADP | ADsP with R(16)
-
[ADP] R로 하는 시계열 분석 실습(분해시계열, ARIMA)
이번 게시글에서는 R을 활용한 실습만 진행한다. 시계열 모형들에 대한 자세한 내용은 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/36 [Data Analysis 개념] 시계열 분석 - AR/MA/ARIMA/분해시계열 의미 1. 비정상/정상 시계열 자료 시계열 자료란 시간의 흐름에 따라 관측된 데이터를 말한다. 시계열 분석을 하기 위해서는 기본적으로 정상성(Stationary)를 만족해야한다. 정상성을 만족하는 것은 �� todayisbetterthanyesterday.tistory.com 시계열 분석 실습은 특성이 다른 두 가지 데이터를 가지고 비교하면서 진행하겠다. 첫 번째 데이터는 나일강 연간 유입량에 관한 데이터이며 두 번..
2020.07.18 -
[ADP] R을 활용한 다변량 분석 -상관분석/ 다차원 척도법 / 주성분분석 (PCA)
1. 상관 분석 상관분석은 데이터에 존재하는 두 변수 간의 관계를 알아보기 위해서 진행한다. 즉, 상관계수를 알아보는 것이다. 두 변수간의 상관관계를 측정하는 상관계수는 피어슨 상관계수와 스피어만 상관계수가 있다. 1) 피어슨 상관계수 피어슨 상관계수의 수식은 아래와 같다. 이때 상관계수는 -1
2020.07.17 -
[ADP] R을 활용한 변수 선택법 ( step()함수 - Forward, Backward, Stepwise )
회귀분석을 할 때 다중공선성이 발생하면, 데이터 분석의 신뢰성이나 예측 정확도를 떨어뜨린다. 이러한 문제를 하기 위한 방법 중 하나로 데이터 선정/전처리 과정에서 "변수선택"이 매우 중요하다. 변수 선택법(Variable Selection)은 1. 전진선택법(Forward Selection) 2. 후진소거법(Backward Elimination) 3. 단계적선택법(Stepwise Selection) 이 있다. 이 방법들은 모두 각 변수의 OLS 결과를 보고, 직접 p-value와 F통계량을 비교하며 추가/삭제하는 작업을 진행할 수 있다. 하지만, 통계에 수월한 언어인 R에는 step()이란 함수를 통해서 쉽게 3가지 방법 모두를 적용할 수 있다. 먼저 기본적인 함수의 형태를 알아보자 step(lm(종속변..
2020.07.17 -
[ADP] R을 활용한 단순회귀/다중회귀/다항회귀분석 실습
회귀 분석은 하나 또는 그이상의 변수들이 다른 변수에 미치는 영향을 추론하는 통계기법이다. 통계에서 영향을 받는 변수를 종속변수 혹은 반응변수라고 하고 이는 y로 표기한다. 그리고 영향을 주는 변수를 독립변수 혹은 설명변수라고 하고 x,x_1,x_2 등으로 표기한다. 그리고 단순회귀분석과 다중회귀분석을 진행할 때 가정은 아래와 같다. 1, 선형성(독립변수의 변화에 따라 종속변수도 일정 크기로 변화하는가) 2. 독립성(잔차와 독립변수의 값이 관련되어 있지 않은가) 3. 등분산성(독립변수의 모든 값에 대해 오차들의 분산이 일정한가) 4. 비상관성(관측치들의 잔차들끼리 상관이 없는가) 5. 정상성(잔차항이 정규분포를 이루는가) 이러한 가정을 두고 회귀분석을 진행하기에, 회귀분석의 결과를 검토할 때, 이러한 가..
2020.07.16 -
[ADP] R - 결측값 처리와 이상값 탐색
R언어와 사용법에 관한 게시글들은 "한국 데이터 산업진흥원"에서 출간한 국가공인 ADP/ADsP자격증을 위한 "데이터 분석 전문 가이드"에 서술된 수준에 한정지어 다루어 볼 것입니다. ADP필기 준비를 위한 R의 기본적인 문법과 패키지들을 학습을 목표로 합니다. 1. 데이터 탐색 데이터를 본격적으로 분석하기 이전에는 데이터의 특서을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근해야한다. 그 작업 중 하나가 바로 기초통계량(기술통계량)을 확인하는 작업이다. data(iris) # 데이터 로드 head(iris) # 데이터 생김새 파악 str(iris) # 데이터 구조를 파악 summary(iris) # 데이터의 평균과 4분위수 파악 cov(iris[,1:4]) # 데이터의 공분산 파악 cor(ir..
2020.07.14 -
[ADP] R-데이터 마트(2) / sqldf / plyr / data.table
R언어와 사용법에 관한 게시글들은 "한국 데이터 산업진흥원"에서 출간한 국가공인 ADP/ADsP자격증을 위한 "데이터 분석 전문 가이드"에 서술된 수준에 한정지어 다루어 볼 것입니다. ADP필기 준비를 위한 R의 기본적인 문법과 패키지들을 학습을 목표로 합니다. 1. 데이터 마트의 정의 데이터 마트란 데이터의 한 부분으로 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터 웨어하우스이다. 즉, 일반적인 데이터베이스 형태로 갖고 있는 다양한 정보를 사용자의 요구 항목에 따라 체계적으로 분석하여 기업의 경영활동을 돕기 위한 시스템을 말한다. 데이터 웨어하우스는 정부 기관 또는 정부 전체의 상세 데이터를 포함하는 반면, 데이터 마트는 전체적인 데이터 웨어하우스에서 일부 데이터를 가지고 특정 ..
2020.07.14