본문 바로가기
AI

Statistics : 10-2 : 통계적 추정 : 구간추정

by 월곡동로봇팔 2019. 12. 22.

구간추정(Interval Estimation) (굉장히 중요...!!!)


정의

> 구간추정은 관측된 데이터로 모집단의 모수를 추리하는 것을 말한다.

ex) 투표소 앞에서 투표를 마친 사람들에게 물어본다. (관측된 데이터) -> 선거결과를 예측하는 것 (모집단의 모수를 추리)

 

95% 예언적중구간

<이미 모집단의 평균, 표준편차를 이미 다 아는 상황에서 어떤 특정조건을 만족하는 data의 95%가 그 구간안에 들어가 있다"> 라는 의미. 따라서 관측하는 데이터는 95%의 확률로 그 구간안으로 들어간다 라고 생각하면 맞다.

 

ex) 16개의 동전을 던져서, 10개의 동전이 앞면이 나올 확률은 95% 예언적중기간 안에 존재한다.

 

예언적중구간은 신뢰구간과는 다르게, "이미 모수의 통계량을 다 아는 상황에서", 사건의 확률분포를 예측할 수 있다.

95% 신뢰구간

신뢰구간은 예언적중구간과는 다른 개념이다.

"관측된 데이터가 존재할 때, 이를 만족하는 모집단의 평균과 표준편차를 모르는 모수 N을 추정할 때 쓴다."

특정 모수 N을 지닐 때에 각자 예언적중구간을 가지는데,

이 때 관측데이터를 만족하는 모수가 예언적중구간에 들어있지 않은 구간이 100번을 진행했을 때 95개의 예언적중구간 안에 모수가 들어있을 것이고, 5번은 예언적중구간에 모수가 없을 것이다.

신뢰구간

모집단의 전체를 모르기 때문에, 100번의 통계적 추정을 통해 모수를 구한다면, 이 모수가 한 모집단에서 선택한 100개의 표본 중 관측데이터를 만족하는 95개(95%)가 모집단 모수를 포함하는 신뢰 구간을 생성할 것임을 나타낸다.

(N이 다르면 모집단도 다르다.)

(N=36개 일 때 적중예언구간이 12.12~23.88 이었다.)

 

ex) N개의 동전을 던져서, x개의 앞면이 나오는 경우의 가능한 N은 몇 개일까??

ex) N명의, 모집단의 선거권자들 중, 후보자를 100 명이 선출을 했다고 한다. 당선될 확률을??

 

즉, 이는 각각의 관측값 x에 대해서 z를 계산하여 N을 기각해가는 작업을 한 경우, 정말 올바른 개수 N이 남을 확률은 각각의 관측값 x에 대해서 모두 0.95가 될 것이다. (N이 기각당했는데, 결과가 잘못된 경우는 5%에 해당한다. ) 어떤 관측값 x가 나온 경우에도, 이 방법에서 N을 추정해가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것이 올바른 해석이다.

다시 말해, 신뢰구간 95% 라는 것은, "13<=N<=30 에서 정말 N으로 가능한 것이 95% 로 들어간다" 는 추정이 아니고, ///

1. "구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간이 구할 수 있지만, 그 100번 중 95번은 N이 구해지는 구간에 들어간다.


2. 구간추정으로 정해진 구간 = 신뢰구간은 "검정"(하나의 데이터로 모집단 추론) 작업을 모든 모수에 실행하여, 기각되지 않고 남은 것을 모은 범위이 된다.

(버려진 구간은 30 초과 13 미만의 모수!!!! 하지만 이 버려진 모수들도 실제로 관측데이터에 대해서 적합한 모수일 수도 있다. 하지만 우리는 이러한 경우의 수를 버리는 것이 효율적이다. 또한 신뢰구간이 13~30 인 것과, 95%의 신뢰구간은 독립적인 의미이다.)

표준편차를 아는 정규모집단의 평균값에 대한 구간추정

모집단이 정규분포인 것을 알고 있으며, 표준편차는 알고 있지만, 평균값을 모를 때, 관측된 데이터로부터 평균값(모수)를 구간추정한다.

 

물론, 실제 데이터들은 표준편차가 얼마나 되는지, 정규분포인지도 모른다. 이런 상황에서 추론을 해야 정말 가치가 있는것이고, 실제로 추정은 가능하며 최종 목표이다. -> 정규확률그림으로 확인한다.

 

예제 - 1

ex) 액체의 온도를 측정한다. 측정된 data는 실제로 온도 μ을 평균값으로 하고, 표준편차 5도의 정규분포를 가진다.

지금 측정된 온도는 20도이다. 실제 온도를 95% 신뢰구간에서 구간추정하시오.

(실제로 단위 측정 기구들은 정규분포를 베이스로 하고, 표준편차 (측정오차)가 정해져 있다.)

 

여기서 헷갈리면 안되는게, 측정한 데이터가 20도이고, 평균값은 온도의 실제 값이다. μ은 -1.98<=(20-μ)/5<=1.98

실제온도 μ의 95%의 신뢰구간은 10.2<=μ<=29,8 이다.

(20도 관측값에 대한 구간추정을 한 결과, 20도 관측결과에 대한 구간 중의 95%에 해당하는 구간들은 바른 모수 μ을 포함하고 있는 구간이 된다.)

 

그림

출처 : 세상에서 가장 쉬운 통계학 입문

정규모집단에서 모표준편차가 σ라는 사실을 알고있을 경우에, 모평균 μ를 n개의 표본에서 추정하기 위해서는 표본평균을 계산한 후, -1.96 <= (X bar-μ)/σ/√n<= 1.96

위 범위 안에 만족시키는 μ 를 기각하지 않고 남기면 된다.

 

표본크기의 결정

Q. 표준화된 표본들의 확률분포가 오차가 d 이하가 될 확률이 최소한 100(1-α)% 가 되려면,

A. P(ΙX bar - μΙ/ (σ/√n) <= Z<a/2>) <= 1-α
n ≥ (Z<a/2> * σ/d)**2

Q. 단위부피당 평균무게 μ 를 추정하고자 하는데, 이제까지의 자료에 의하면, 단위부피당 인산염의 무게의 표준편차는 σ=4,를가진다.

평균무게에 대한 오차가 0.75이하가 될 확률이 최소한 90%가 되기 위해서는 어느 정도 크기의 표본을 조사하여야 하나?

 

여기서 평균무게에 대한 오차의 범위는 다른 말로, 신뢰구간의 범위길이를 말하기도 한다.

따라서 구간의 길이가 0.75이다.

 

90%가 되기 위해서라면, P(ΙX bar - μΙ/ (σ/√n) <= Z<a/2>) 가 0.9가 되어야 한다. 그러려면 Z<0.05>는 1.645가 되어야한다.

그렇다면 Z<a/2>/ (σ/√n) ≤ d -> n ≥ (Z<a/2> * σ/d)**2

n은 계산해보면 최소 77이상이어야 한다.

댓글