헷갈리는 통계기본 - 신뢰구간/신뢰도/유의수준/유의확률/검정력

2020. 6. 7. 14:57ML in Python/Knowledge

신뢰구간 

- 신뢰구간이란, 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위이다.

- 표본을 랜덤하게 추출하는 특성으로 인해서 특정 모집단의 두 표본은 동일한 신뢰구간이 될 수 없다.

- 신뢰수준이란, 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 가에 대한 것이다.

- 100개 중에서 95개가 모평균에 포함되면 신뢰구간을 95%라고 한다.

신뢰도

- 신뢰도는 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률이다.

유의수준

- 유의수준은 표본의 평균이 모평균과 같은데, 표본의 평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계이다. 

- 대립가설에 해당하는 함수의 넓이가 유의수준이다.

- 유의수준 5%와 신뢰도 95%가 많이 사용된다

=> 유의수준 a = 0.05라면 신뢰도는 1-a이다. 그렇기에 5% 유의수준은 95%의 신뢰도를 가지고 검정을 한다는 것이다. 

유의확률(p-value, probability value)

- 귀무가설이 진실이라는 가정에서 표본 통계량의 값이 나타내는 확률이다.

- 보통, 95%의 신뢰도를 기준으로 가설판단에 사용된다.

- 0~1 사이의 값을 가지고 있고 p 값은 전체 표본에서 하나의 표본이 나올 수 있는 확률이다.

- 즉, 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.

검정력

- 대립가설이 사실인 상황에서 귀무가설을 기각할 확률이다.


예)

1) p(0.000) < a(0.05) : 유의확률 p-value가 유의수준 0.05보다 작다. 이는 귀무가설이 기각되고 대립가설이 채택된다.

=> 위의 예는 대립가설에 해당하는 함수의 넓이 안에 유의확률이 존재하기 때문에 귀무가설이 기각되는 것이다.

2) p(0.000) > a(0.05) : 유의확률 p-value가 유의수준 0.05보다 크다. 이는 귀무가설이 채택되고 대립가설이 기각된다.

=> 위의 예는 대립가설에 해당하는 함수의 넓이를 넘어서 유의확률이 존재하기 때문에 대립가설이 기각되는 것이다.

 

**그림으로 이해해보자**

양측검정
오른쪽 단측검정

위의 그래프는 두 검정방식을 나타낸 그래프이고, 노란부분이 대립가설에 해당하는 부분이다. 그리고 x축보다 큰 함수 안의 영역에서 노란영역 이외의 나머지 흰 영역이 귀무가설에 해당하는 부분이다. 또한 대립가설 영역과 귀무가설 영역의 맞닿는 검은선을 임계값이라고 한다. 

즉, 1)의 경우(p-value < 유의수준,0.05% / 귀무가설 기각, 대립가설 채택)는 저 노란 영역의 넓이안에 p-value의 영역이 존재하는 것이다.

반대로, 2)의 경우(p-value > 유의수준 0.05% / 귀무가설 채택, 대립가설 기각)는 저 노란영역을 넘어서 귀무가설의 영역에도 p-value가 존재하는 것이다.