ML in Python(40)
-
[Python]다중회귀분석 실습 - 데이터 불러오기부터 회귀계수까지
실습에 사용될 데이터 : 보스턴 주택 데이터 Target Data -1978 보스턴 주택 가격 -506개 타운의 주택 가격 중앙값 (단위 1,000 달러) Feature Data CRIM: 범죄율 INDUS: 비소매상업지역 면적 비율 NOX: 일산화질소 농도 RM: 주택당 방 수 LSTAT: 인구 중 하위 계층 비율 B: 인구 중 흑인 비율 PTRATIO: 학생/교사 비율 ZN: 25,000 평방피트를 초과 거주지역 비율 CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0 AGE: 1940년 이전에 건축된 주택의 비율 RAD: 방사형 고속도로까지의 거리 DIS: 직업센터의 거리 TAX: 재산세율''' import pandas as pd #DataFrame 활용 라이브럴 import numpy as ..
2020.06.13 -
[Python]단순선형회귀분석 실습 - 데이터 불러오기부터 회귀계수까지
실습에 사용될 데이터 : 보스턴 주택 데이터 Target Data -1978 보스턴 주택 가격 -506개 타운의 주택 가격 중앙값 (단위 1,000 달러) Feature Data CRIM: 범죄율 INDUS: 비소매상업지역 면적 비율 NOX: 일산화질소 농도 RM: 주택당 방 수 LSTAT: 인구 중 하위 계층 비율 B: 인구 중 흑인 비율 PTRATIO: 학생/교사 비율 ZN: 25,000 평방피트를 초과 거주지역 비율 CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0 AGE: 1940년 이전에 건축된 주택의 비율 RAD: 방사형 고속도로까지의 거리 DIS: 직업센터의 거리 TAX: 재산세율''' import pandas as pd # Dataframe 활용 라이브러리 import numpy a..
2020.06.10 -
헷갈리는 통계기본 - 정확도, 정밀도, 재현율, 특이도, G-mean, F1 measure, ROC curve&AUC, Gain Chart & Lift curve 정리
추출한 훈련용 자료를 사용하여 분류 모형을 적합후 검증용 데이터를 사용하여 정확도를 평가할 때, 범주형 변수에 대해 사용되는 confusion matrix, ROC curve, gain chart, lift curve에 대해서 알아보자. 모델 성능 평가 방법 1. Confusion matrix(오분류표) 오분류표는 아래의 형태와 같다. TP(True Positive) : 실제값과 예측치 모두 True TN(True Negative) : 실제값과 예측치 모두 False FP(False Positive) : 실제값은 False, 예측은 True FN(False Negative) : 실제값은 True, 예측은 False 로 이루어진 표이다. 이 때 정분류율(accuracy) = TP + TN / TP + FN..
2020.06.09 -
헷갈리는 통계기본 - 신뢰구간/신뢰도/유의수준/유의확률/검정력
신뢰구간 - 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다. - 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰구간이 될 수 없다. - 신뢰수준이란, 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것이다. - 100개 중에서 95개가 모평균에 포함되면 신뢰구간을 95%라고 한다. 신뢰도 - 신뢰도는 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률이다. 유의수준 - 유의수준은 표본의 평균이 모평균과 같은데, 표본의 평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계이다. - 대립가설에 해당하는 함수의 넓이가 유의수준이다. - 유의수준 5%와 신뢰도 95%가 많이 사용된다 ..
2020.06.07