ML in Python(40)
-
[Data Analysis 개념] Ensemble(앙상블)-1 : Ensemble의 기본적인 개념
1. Ensemble learning의 의미 먼저, Ensemble이란 "조화"를 뜻하는 의미의 프랑스어이다. Ensemble모형에 대해서 말하기 전에 우리는 실생활에서 의사결정을 진행할 때, 다양한 사람들의 의견을 수렴한다. 그리고 이 과정에서는 "대수의 법칙"이 적용된다. "대수의 법칙"이란 큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계학 개념이다. 즉, 많은 사람들의 의견이 전체 사회구성원의 의견과 동일하다는 것이다. Ensemble learning은 이 기본적인 아이디어에 기반한다. Ensemble learning이라함은 여러개의 기본 모델을 활용하여 하나의 새로운 모델로 만들어낸다는 것이다. 이때의 기본모델(base model)을 weak learn..
2020.07.28 -
[Data Analysis 개념] 인공신경망(Artificial Neural Network) 모형의 원리와 구성 - Perceptron / Activation function / Gradient descent / Backpropagation
1. 인공 신경망 모형의 배경 인공 신경망 모형은 인간의 뉴련의 자극전달 과정에 아이디어를 착안하여 발생한 머신러닝 알고리즘이다. 인간의 뉴런은 시냅스를 통하여 다른 뉴런으로부터 자극을 전달받고 시냅스를 통하여 다른 뉴런에게 자극을 전달하는 과정을 통해서 학습을 진행한다. 이 자극 전달의 과정을 알고리즘에서 layer와 perceptron으로 뉴런과 시냅스를 구성하여 연결지은 것이 바로 인공신경망 모형이다. 하나의 뉴런은 Neural Network 모형에서 하나의 perceptron과 대응되며, 시냅스의 역할은 여러 layer를 잇는 weight/bias(error)가 한다. 위의 그림에서 A는 인간의 뉴런을 형상화 한 것이다. 그리고 C는 이 뉴런들의 연결을 보여주는 것이다. B그림을 보면 X1~Xn의..
2020.07.23 -
[Python] sklearn을 활용한 인공신경망(Artificial Neural Network) 모형 실습
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 인공신경망 모형의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/42 [Data Analysis 개념] 인공신경망(Artificial Neural Network) 모형의 원리와 구성 - Perceptron / Activation function 이 게시글은 인공신경망에 대한 개념만을 다룬다. python에서 sklearn을 활용한 구현은 아래 링크를 통해 남겨놓도록 하겠다. https://todayisbetterthanyesterday.tistory.com/41 [Python] sklearn을 활용한 인.. todayisbetterthanyester..
2020.07.22 -
[Data Analysis 개념] Decision Tree(의사결정나무) 모형 - Classification/Regression Tree의 직관적/수학적 이해
이 게시글에서는 Decision Tree의 개념만 다룰 것이다. Python으로 구현하고자 한다면 아래 실습링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/38 [Python] 의사결정나무(DecisionTree) 구현 - 분류(Classifier)/회귀(Regressor)/가지치기(Pruning) *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과정을 공유하고자 복기한 내용입니다. 의사결정 나무는 간단하게 말해서 if~else와 같이 특정 조�� todayisbetterthanyesterday.tistory.com 1. 요약 의사결정 나무는 간단하게 말해서 if~else와 같이 ..
2020.07.19 -
[Python] 의사결정나무(DecisionTree) 구현 - 분류(Classifier)/회귀(Regressor)/가지치기(Pruning)
의사결정 나무는 간단하게 말해서 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree구조의 분류/회귀 데이터마이닝 기법이다. 이해도가 매우 높고 직관적이라는 장점이 있다. 그렇기에 많이 사용되며, 의사결정나무도 많은 머신러닝 기법과 동일하게 종속변수의 형태에 따라 분류와 회귀 문제로 나뉜다. 종속변수가 범주형일 경우 Decision Tree Classification으로 분류를 진행하고, 종속변수가 연속형일 경우 Decision Tree Regression으로 회귀를 진행한다. 상세한 원리와 수학적/직관적 이해는 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/39 [Data Analysis 개념..
2020.07.18 -
[Data Analysis 개념] 시계열 분석 - AR/MA/ARIMA/분해시계열 의미
1. 비정상/정상 시계열 자료 시계열 자료란 시간의 흐름에 따라 관측된 데이터를 말한다. 시계열 분석을 하기 위해서는 기본적으로 정상성(Stationary)를 만족해야한다. 정상성을 만족하는 것은 다음과 같은 것들을 만족하는 것이다. 1. 평균이 일정하다. 2. 분산이 시점에 의존하지 않는다. 3. 공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다. 이 3가지의 정상성 조건 중 하나라도 만족하지 못한다면 비정상 시계열이라고 부른다. 실제 대부분의 시계열 데이터는 비정상 시계열자료이다. 이러한 비정상성을 확인하기 위해서, 1. 가장 먼저 시계열 자료의 그림을 통해 이상점(Outlier)과 개입(Intervention)이 있는지 판단하고. 2. 정상성 만족 여부와 개략적인 추세 유무를 관찰한다..
2020.07.18