통계적 추정
우리는 앞에서 표준정규분포에 대해 공부했다.
2019/12/22 - [ML/statistics] - Statistics : 정규분포 (Normal Distribution)
목적 (굉장히 중요!!!)
"과연 우리는 정규분포의 성질을 이용해서 어떠한 예언을 할 수 있지 않을까?" 를 생각한다.
따라서 통계적 추정은
1."엄청나게 많은 dataset 중에서 random sampling한 data의 작은 부분으로, data가 가지는 집단 전체의 "모수"를 추리하는 것" 이다.
2. 또한 모든 가능한 표본의 종류별로 X bar의 값들이 어떻게 달라지는지를 알 수 있다면, 현재의 표본평균이 모평균에 얼마나 가까운지를 알 수 있다.
정의
추정량 (estimator) : 모수를 추정하기 위해 만들어진 통계량
추정치 (estimate) : 주어진 관측값으로부터 계산된 추정량의 값
통계적 추정의 종류
- 모수의 추정 (점추정)
- 모수의 추정 (구간추정) : parameter에 대한 추측, or 추측치를 수치화된 정확도와 함께 제시
- 모수에 대한 가설검증 : 모수에 대한 여러 가설들이 적합한지 or 적합하지 않은 것인지를 추출된 표본으로부터 판단
표준정규분포의 95% 예언적중구간
적중확률을 높이고 싶다면, 구간을 넓혀야 한다.
이 때, 가장 많이 쓰는 것은 "95% 적중", "99% 적중" 이다. 뒤집어서 얘기하면, 5%, 1%는 틀리다는 것이다.
하지만, 5%, 1%가 틀리더라도, 보기 드물게 일어나는 현상이니, 우리는 이를 무시하겠다!! 는 것이다.
-2 ~ 2 사이의 상대도수는 95.44% 이다.
앞에서 표준정규분포에 대한 상대도수를 정의했다. 우리는 조금 더 깔끔하게 쓰기위해, 0.44%를 덜어낸다.
따라서 95%의 상대도수를 포함하는 적중확률의 범위는 -1.96 ~ 1.96이다.
95%의 상대도수를 포함하는 적중확률의 범위는 -1.96 ~ 1.96
조건 - 1
"처음부터 100%는 맞추지 못한다.". 완벽하지 않다는 점을 허용하면서, 상당히 좁은 구간의 예언을 가능하게 하는 것.
조건 - 2
"예언하는 구간이 짧으면 짧을수록 좋기 때문에, 예언적중확률의 구간 중에서 가장 짧은 구간을 선택하는 길은 같은 '좌우대칭 구간'을 고르는 것이다."
일반정규분포의 95% 예언적중구간
일반정규분포의 95%
평균값이 μ, 표준편차가 σ인 정규분포의 예언적중구간은 μ+1.96σ ~ μ-1.96σ
일반정규분포 -> 표준정규분포
평균값이 μ, 표준편차가 σ인 일반정규분포를 따르는 데이터 일 때, Z = ( x - μ )/σ 를 가공을 하면, 데이터 Z는 표준정규분포를 따르는 데이터가 된다.
일반정규분포의 95%
평균값이 μ, 표준편차가 σ인 정규분포를 따르는 data 일 때, 95%의 예언적중구간은 -1.96 <= ( x - μ )/σ <= 1.96을 풀어서 구한 범위이다. 즉, (μ-1.96σ <= x <= μ+1.96σ)
예륻 들어, "100개의 동전을 던져서 앞면이 나오는 개수" 는 평균값이 50, 표준편차가 5이다.
이 때, 95% 의 예연적중구간은 (50-1.98*5) <= x <= (50+1.96*5), == 40개이상 60개 사이,x는 앞면이 나오는 개수이다.
'AI' 카테고리의 다른 글
Statistics : 9-3 : 표본평균, 대수의 법칙 (0) | 2019.12.26 |
---|---|
Statistics : 10-2 : 통계적 추정 : 구간추정 (0) | 2019.12.22 |
Statistics : 8-1,2,3 : 정규분포 (0) | 2019.12.22 |
Statistics : 3-2 : cf) 평균값과 표준편차를 이용한 데이터 분석 (0) | 2019.12.21 |
Statistics : 3-3 : 분산, 표준편차 (0) | 2019.12.21 |
댓글