ML in Python/Python(21)
-
[Python] Ensemble(앙상블) - Bagging
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 앙상블 기법중 Bagging의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/48?category=822147 [Data Analysis 개념] Ensemble(앙상블)-2 : Bagging, RandomForest 앙상블에 대한 종류와 전반적인 설명은 아래 링크에 존재한다. 이 게시글에서는 앙상블 모형중 Bagging과 RandomForest에 대해서 알아보겠다. https://todayisbetterthanyesterday.tistory.com/47 [Data Analysi.. todayisbetterthanyesterday.tistory.com..
2020.07.31 -
[Python] sklearn을 활용한 인공신경망(Artificial Neural Network) 모형 실습
이 게시글은 오로지 파이썬을 통한 실습만을 진행한다. 인공신경망 모형의 개념 및 원리를 알고자하면 아래 링크를 통해학습을 진행하면 된다. https://todayisbetterthanyesterday.tistory.com/42 [Data Analysis 개념] 인공신경망(Artificial Neural Network) 모형의 원리와 구성 - Perceptron / Activation function 이 게시글은 인공신경망에 대한 개념만을 다룬다. python에서 sklearn을 활용한 구현은 아래 링크를 통해 남겨놓도록 하겠다. https://todayisbetterthanyesterday.tistory.com/41 [Python] sklearn을 활용한 인.. todayisbetterthanyester..
2020.07.22 -
[Python] 의사결정나무(DecisionTree) 구현 - 분류(Classifier)/회귀(Regressor)/가지치기(Pruning)
의사결정 나무는 간단하게 말해서 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree구조의 분류/회귀 데이터마이닝 기법이다. 이해도가 매우 높고 직관적이라는 장점이 있다. 그렇기에 많이 사용되며, 의사결정나무도 많은 머신러닝 기법과 동일하게 종속변수의 형태에 따라 분류와 회귀 문제로 나뉜다. 종속변수가 범주형일 경우 Decision Tree Classification으로 분류를 진행하고, 종속변수가 연속형일 경우 Decision Tree Regression으로 회귀를 진행한다. 상세한 원리와 수학적/직관적 이해는 아래 링크를 통해서 학습하길 바란다. https://todayisbetterthanyesterday.tistory.com/39 [Data Analysis 개념..
2020.07.18 -
[Python] SVM(Support Vector Machine)구현 실습
SVM은 다른 분류모형처럼 Decision Boundary를 형성하는 것에 집중한다. 그리고 boundary의 결정은 위의 그림과 같이, 각 분포로부터 margin을 최대화하는 것을 목표로 결정하게 된다. 하지만 이러면 분산대비 평균의 차이를 극대화시키는 LDA와는 크게 다른 점이 없어 보인다. 그렇다면 아래와 같은 경우는 어떻게 되는가? 위의 그림을 보면 margin사이에 다른 데이터가 분포하고, 게다가 boundary를 넘어서 다른 집단의 데이터가 분포한다. 이러한 경우는 일반적인 데이터에 매우 많이 존재한다. 오히려 깔끔하게 boudary에 따라 분리되는 데이터를 찾는 경우가 더 힘들수도 있다. SVM은 이러한 데이터의 경우를 생각하여, 적당한 error를 허용하며, 이를 최소화하는 boundary..
2020.07.16 -
[Python] LDA(Linear Discriminant Analysis - 선형판별분석)/QDA(Quadratic Discriminant Analysis - 이차판별분석) 구현 실습
LDA/QDA는 간단하게 말해서 집단간의 분산대비 평균의 차이는 최대로 하는 Decision Boundary를 찾아내는 방법이다. 자세한 직관적 이해와 수학적 원리는 아래 링크를 통해 학습하기 바란다. https://todayisbetterthanyesterday.tistory.com/25 [Data Analysis 개념] LDA와 QDA의 이해 *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과정을 공유하고자 복기한 내용입니다. LDA는 간단하게 말해서 집단간의 분산대비 평균의 차이는 todayisbetterthanyesterday.tistory.com 이 게시글은 Python을 통한 실습 과정만 존재한다. 과정의 순서는 1. 기본적인 LDA(L..
2020.07.08 -
[Pyhon] KNN(K-Nearest Neighbors)알고리즘과 Cross-Validation을 통한 최적의 K찾기 실습
KNN(K-nearest neighbors)알고리즘은 분포된 주변 k개의 데이터를 통해서, 타겟변수를 회귀/분류하는 모델이다. 이번 게시글은 KNN을 sklearn에 존재하는 iris Data Set을 통해서 직접 구현해보는 과정을 진행하겠다. 이 게시글은 Python 코드의 과정만 존재하기에 KNN에 대한 직관적/이론적 이해는 아래 링크를 통해서 학습하길 추천한다. https://todayisbetterthanyesterday.tistory.com/19 [Data Analysis 개념] KNN(K-Nearest-Neighbors)알고리즘 ※ 이 게시글은 KNN분류에 대한 이론만 게시된 게시글입니다. KNN이란, K-Nearest-Neighbors의 약자로, 간단하게 말해서 K개의 이웃한 데이터를 기반으..
2020.07.04