분산분석 (Analysis of Variance, ANOVA)
Why use it ??
두 모집단 뿐만 아니라, 셋 이상의 여러 모집단 간의 평균을 비교하는 방법으로써 널리 사용된다.
관측한 자료 값들이 다양하게 나타나는 것을 체계적으로 설명하려는 하나의 통계기법이다.
즉, 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화의 정도에 기여하였는 가를 분석하는 것.
예시
- 소비자 단체에서는 여러 종류의 건전지 중에서 어느 건전지의 수명이 오래가는지
- 어느 농업 연구가는 여러 품종의 볍씨 중 어느 종의 수확량이 가장 높은지
정의
관측자료 | 평균 | 제곱합 | |
처리 1 | y11, y12 ----- y1n | y1 bar |
∑(y1i - yi bar)**2 |
처리 2 | y21, y22 ----- y2n | y2 bar | ∑(y2i - yi bar)**2 |
처리 3 | y31, y32 ----- y3n | y3 bar | ∑(y3i - yi bar)**2 |
처리 4 | y41, y42 ----- y4n | y4 bar | ∑(y4i - yi bar)**2 |
총평균 = ybar
관측값 (yij) = 총평균(ybar) +
평균으로부터의 변동(yij - ybar) = [처리에 의한 편차 = "모집단간의 변동"(yi bar - ybar) + 잔차 = " 모집단내의 변동, 처리에 의해 설명할 수 없는 부분" (yij - yi bar)]
처리제곱합 (Treatment Sum of Squares, SStr)
> 모집단간의 변동을 말한다.
> ∑n(yi bar - ybar)**2 = SStr
오차제곱합 (Error Sum of Squares, SSE)
> 모집단 내의 변동을 말한다. 이는 처리에 의해 나타내지 못하는 값이다.
> ∑∑ (yij - yi bar)**2 = SSE
총제곱합 (Total Sum of Squares, SST)
> 모든 편차들의 제곱합을 말한다.
> ∑∑(yij - ybar)**2 = SST
제곱합의 자유도
제곱합의 자유도 = (제곱을 하여 더하는 항의 개수) - (각 항들에 의하여 만족되는 선형 제약조건의 수)
'AI' 카테고리의 다른 글
ML&DL : train, validation, test 데이터로 나누기 (0) | 2020.02.01 |
---|---|
ML&DL : 정규성, 독립성, 등분산성 검증 (0) | 2020.02.01 |
Statistics : 5-5 : 베이즈정리 심화 (0) | 2020.01.18 |
Statistics : 5-5 : 표본공간의 분할과 베이즈정리 (0) | 2020.01.18 |
Statistics : 5-5 : 조건부확률 (0) | 2020.01.18 |
댓글