2020. 6. 7. 14:57ㆍML in Python/Knowledge
신뢰구간
- 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다.
- 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰구간이 될 수 없다.
- 신뢰수준이란, 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것이다.
- 100개 중에서 95개가 모평균에 포함되면 신뢰구간을 95%라고 한다.
신뢰도
- 신뢰도는 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률이다.
유의수준
- 유의수준은 표본의 평균이 모평균과 같은데, 표본의 평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계이다.
- 대립가설에 해당하는 함수의 넓이가 유의수준이다.
- 유의수준 5%와 신뢰도 95%가 많이 사용된다
=> 유의수준 a = 0.05라면 신뢰도는 1-a이다. 그렇기에 5% 유의수준은 95%의 신뢰도를 가지고 검정을 한다는 것이다.
유의확률(p-value, probability value)
- 귀무가설이 진실이라는 가정에서 표본 통계량의 값이 나타내는 확률이다.
- 보통, 95%의 신뢰도를 기준으로 가설판단에 사용된다.
- 0~1 사이의 값을 가지고 있고 p 값은 전체 표본에서 하나의 표본이 나올 수 있는 확률이다.
- 즉, 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.
검정력
- 대립가설이 사실인 상황에서 귀무가설을 기각할 확률이다.
예)
1) p(0.000) < a(0.05) : 유의확률 p-value가 유의수준 0.05보다 작다. 이는 귀무가설이 기각되고 대립가설이 채택된다.
=> 위의 예는 대립가설에 해당하는 함수의 넓이 안에 유의확률이 존재하기 때문에 귀무가설이 기각되는 것이다.
2) p(0.000) > a(0.05) : 유의확률 p-value가 유의수준 0.05보다 크다. 이는 귀무가설이 채택되고 대립가설이 기각된다.
=> 위의 예는 대립가설에 해당하는 함수의 넓이를 넘어서 유의확률이 존재하기 때문에 대립가설이 기각되는 것이다.
**그림으로 이해해보자**
위의 그래프는 두 검정방식을 나타낸 그래프이고, 노란부분이 대립가설에 해당하는 부분이다. 그리고 x축보다 큰 함수 안의 영역에서 노란영역 이외의 나머지 흰 영역이 귀무가설에 해당하는 부분이다. 또한 대립가설 영역과 귀무가설 영역의 맞닿는 검은선을 임계값이라고 한다.
즉, 1)의 경우(p-value < 유의수준,0.05% / 귀무가설 기각, 대립가설 채택)는 저 노란 영역의 넓이안에 p-value의 영역이 존재하는 것이다.
반대로, 2)의 경우(p-value > 유의수준 0.05% / 귀무가설 채택, 대립가설 기각)는 저 노란영역을 넘어서 귀무가설의 영역에도 p-value가 존재하는 것이다.
'ML in Python > Knowledge' 카테고리의 다른 글
[Data Analysis 개념] KNN(K-Nearest-Neighbors)알고리즘 (0) | 2020.07.03 |
---|---|
[Data Analysis 개념] NaiveBayes(나이브 베이즈) 모델 - 조건부 확률 / 베이즈 정리 / Multinomial, Gaussian, Bernoulli NaiveBayes (0) | 2020.07.02 |
[Data Analysis 개념] 차원의 저주 (0) | 2020.06.25 |
회귀계수 축소법 - Lasso, Ridge, Elastic-Net 개념 (0) | 2020.06.23 |
헷갈리는 통계기본 - 정확도, 정밀도, 재현율, 특이도, G-mean, F1 measure, ROC curve&AUC, Gain Chart & Lift curve 정리 (2) | 2020.06.09 |