ML in Python(40)
-
[Python]회귀계수 축소법 실습 - Ridge,Lasso
실습에 사용될 데이터 : 개인대출 데이터 -----target Personal Loan ( 0 or 1 의 값을 갖는 변수이다. ) -----feature Experience 경력 Income 수입 Famliy 가족단위 CCAvg 월 카드사용량 Education 교육수준 (1: undergrad; 2, Graduate; 3; Advance ) Mortgage 가계대출 Securities account 유가증권계좌유무 CD account 양도예금증서 계좌 유무 Online 온라인계좌유무 CreidtCard 신용카드유무 ※ 실습은 Ridge와 Lasso만 진행하며, ElasticNet은 개념설명만 존재합니다. Ridge / Lasso / Elastic-Net의 개념은 아래 링크에 저장되어 있고, 이 페이지는..
2020.06.24 -
회귀계수 축소법 - Lasso, Ridge, Elastic-Net 개념
변수선택법 ※ 변수선택법으로 Forward / Backward / Stepwise 방법을 통해 유의미한 변수를 선택하여 변수의 개수를 줄이고 모델을 단순화 시키는 작업에 대해서 알아보았다. 회귀계수 축소법은 비슷해보이지만 목표가 약간다르다. 변수선택법에서는 다중회귀 분석을 진행할 때, 다중공선성과 같은 문제를 해결하기 위해 SSE를 최소화하며 변수선택을 해나가거나 또는 제거해나아가는 방식을 택했다. https://todayisbetterthanyesterday.tistory.com/10 [Python]변수선택법 실습(2) - 전진선택법/후진소거법/단계적선택법/MAPE 모델 성능 평가 (변수선택�� *아래 학습은 Fastcampus의 "머신러닝 A-Z까지"라는 인터넷 강의에서 실습한 내용을 복습하며 학습과..
2020.06.23 -
[Python]로지스틱회귀분석 실습
실습에 사용될 데이터 : 개인대출 데이터 -----target Personal Loan ( 0 or 1 의 값을 갖는 변수이다. ) -----feature Experience 경력 Income 수입 Famliy 가족단위 CCAvg 월 카드사용량 Education 교육수준 (1: undergrad; 2, Graduate; 3; Advance ) Mortgage 가계대출 Securities account 유가증권계좌유무 CD account 양도예금증서 계좌 유무 Online 온라인계좌유무 CreidtCard 신용카드유무 여태 단순/다중회귀분석과 다중공선성을 해결하기 위한 방법을 Python코드로 알아보았다. 이제 sigmoid function을 이용한 분류/예측을 하는 로지스틱 회귀분석을 실습하려고 한다. ..
2020.06.20 -
[Python]변수선택법 실습(2) - 전진선택법/후진소거법/단계적선택법/MAPE 모델 성능 평가 (변수선택법 실습(1)에 전처리과정 존재)
실습에 사용될 데이터 : Toyota Corolla Data (Toyota Corolla 모델 차 가격/기능 데이터) 회귀분석을 할 때 다중공선성이 발생하면, 데이터 분석의 신뢰성이나 예측 정확도를 떨어뜨린다. 이러한 문제를 하기 위한 방법 중 하나로 데이터 선정/전처리 과정에서 "변수선택"이 매우 중요하다. 변수 선택법(Variable Selection)은 1. 전진선택법(Forward Selection) 2. 후진소거법(Backward Elimination) 3. 단계적선택법(Stepwise Selection) 이 있다. 이 변수 선택법들을 알아가기 위해 Python을 통한 실습을 진행해보자. 이전 전치리과정과 모델 확인 과정은 이전게시물 : 변수선택법(1)에 존재한다. 학습이 목적이라면 보고 오는 ..
2020.06.19 -
[Python]변수선택법 실습(1) - 변수선택법 실습 이전단계, 불필요한 변수 제거 및 가변수 추가 ~ 다중공선성 확인작업 (변수선택법의 코드는 (2)에서)
실습에 사용될 데이터 : Toyota Corolla Data (Toyota Corolla 모델 차 가격/기능 데이터) - 이번 게시물은 변수 선택 전의 단계를 진행할 것이며, 다음 게시물에서 변수선택에 관해 논의하도록 하자 회귀분석을 할 때 다중공선성이 발생하면, 데이터 분석의 신뢰성이나 예측 정확도를 떨어뜨린다. 이러한 문제를 하기 위한 방법 중 하나로 데이터 선정/전처리 과정에서 "변수선택"이 매우 중요하다. 변수 선택법(Variable Selection)은 1. 전진선택법(Forward Selection) 2. 후진소거법(Backward Elimination) 3. 단계적선택법(Stepwise Selection) 이 있다. 이 변수 선택법들을 알아가기 위해 Python을 통한 실습을 진행해보자. 변..
2020.06.16 -
[Python]다중회귀분석 실습 - 모델해석과 다중공선성 확인하기
실습에 사용될 데이터 : 보스턴 주택 데이터 Target Data -1978 보스턴 주택 가격 -506개 타운의 주택 가격 중앙값 (단위 1,000 달러) Feature Data CRIM: 범죄율 INDUS: 비소매상업지역 면적 비율 NOX: 일산화질소 농도 RM: 주택당 방 수 LSTAT: 인구 중 하위 계층 비율 B: 인구 중 흑인 비율 PTRATIO: 학생/교사 비율 ZN: 25,000 평방피트를 초과 거주지역 비율 CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0 AGE: 1940년 이전에 건축된 주택의 비율 RAD: 방사형 고속도로까지의 거리 DIS: 직업센터의 거리 TAX: 재산세율''' import pandas as pd import numpy as np import statsmode..
2020.06.13