본문 바로가기
AI

Statistics : 10-1 : 통계적 추정

by 월곡동로봇팔 2019. 12. 22.

통계적 추정


우리는 앞에서 표준정규분포에 대해 공부했다.

2019/12/22 - [ML/statistics] - Statistics : 정규분포 (Normal Distribution)

 

Statistics : 정규분포 (Normal Distribution)

정규분포 (Normal Distribution) 2019/12/21 - [ML/statistics] - Statistics : 통계학, 도수분포표 Statistics : 통계학, 도수분포표 Statistics (통계학) 우리가 살아가는 사회에서의 data들은 항상 "불확실성"..

mambo-coding-note.tistory.com

목적 (굉장히 중요!!!)

"과연 우리는 정규분포의 성질을 이용해서 어떠한 예언을 할 수 있지 않을까?" 를 생각한다.

따라서 통계적 추정은

1."엄청나게 많은 dataset 중에서 random sampling한 data의 작은 부분으로, data가 가지는 집단 전체의 "모수"를 추리하는 것" 이다. 

2. 또한 모든 가능한 표본의 종류별로 X bar의 값들이 어떻게 달라지는지를 알 수 있다면, 현재의 표본평균이 모평균에 얼마나 가까운지를 알 수 있다.

정의

추정량 (estimator) : 모수를 추정하기 위해 만들어진 통계량
추정치 (estimate) : 주어진 관측값으로부터 계산된 추정량의 값 

통계적 추정의 종류

  • 모수의 추정 (점추정)
  • 모수의 추정 (구간추정) : parameter에 대한 추측, or 추측치를 수치화된 정확도와 함께 제시
  • 모수에 대한 가설검증 : 모수에 대한 여러 가설들이 적합한지 or 적합하지 않은 것인지를 추출된 표본으로부터 판단

표준정규분포의 95% 예언적중구간

적중확률을 높이고 싶다면, 구간을 넓혀야 한다.

 

이 때, 가장 많이 쓰는 것은 "95% 적중", "99% 적중" 이다. 뒤집어서 얘기하면, 5%, 1%는 틀리다는 것이다.

하지만, 5%, 1%가 틀리더라도, 보기 드물게 일어나는 현상이니, 우리는 이를 무시하겠다!! 는 것이다.

 

-2 ~ 2 사이의 상대도수는 95.44% 이다.

앞에서 표준정규분포에 대한 상대도수를 정의했다. 우리는 조금 더 깔끔하게 쓰기위해, 0.44%를 덜어낸다.

따라서 95%의 상대도수를 포함하는 적중확률의 범위는 -1.96 ~ 1.96이다.

95%의 상대도수를 포함하는 적중확률의 범위는 -1.96 ~ 1.96

조건 - 1

"처음부터 100%는 맞추지 못한다.". 완벽하지 않다는 점을 허용하면서, 상당히 좁은 구간의 예언을 가능하게 하는 것.

조건 - 2

"예언하는 구간이 짧으면 짧을수록 좋기 때문에, 예언적중확률의 구간 중에서 가장 짧은 구간을 선택하는 길은 같은 '좌우대칭 구간'을 고르는 것이다."

일반정규분포의 95% 예언적중구간

일반정규분포의 95% 

평균값이 μ, 표준편차가 σ인 정규분포의 예언적중구간은 μ+1.96σ ~ μ-1.96σ

일반정규분포 -> 표준정규분포 

평균값이 μ, 표준편차가 σ인 일반정규분포를 따르는 데이터 일 때, Z = ( x - μ )/σ 를 가공을 하면, 데이터 Z는 표준정규분포를 따르는 데이터가 된다.

일반정규분포의 95% 

평균값이 μ, 표준편차가 σ인 정규분포를 따르는 data 일 때, 95%의 예언적중구간은 -1.96 <= ( x - μ )/σ <= 1.96을 풀어서 구한 범위이다. 즉, (μ-1.96σ <= x <= μ+1.96σ)

 

예륻 들어, "100개의 동전을 던져서 앞면이 나오는 개수" 는 평균값이 50, 표준편차가 5이다.

 

이 때, 95% 의 예연적중구간은 (50-1.98*5) <= x <= (50+1.96*5),  == 40개이상 60개 사이,x는 앞면이 나오는 개수이다.

댓글