본문 바로가기
AI

Statistics : 14-1, 2 : 분산분석

by 월곡동로봇팔 2020. 1. 22.

분산분석 (Analysis of Variance, ANOVA)


Why use it ??

두 모집단 뿐만 아니라, 셋 이상의 여러 모집단 간의 평균을 비교하는 방법으로써 널리 사용된다.

관측한 자료 값들이 다양하게 나타나는 것을 체계적으로 설명하려는 하나의 통계기법이다.

즉, 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화의 정도에 기여하였는 가를 분석하는 것.

 

예시

  1. 소비자 단체에서는 여러 종류의 건전지 중에서 어느 건전지의 수명이 오래가는지 
  2. 어느 농업 연구가는 여러 품종의 볍씨 중 어느 종의 수확량이 가장 높은지

정의

  관측자료 평균 제곱합
처리 1 y11, y12 ----- y1n y1 bar

∑(y1i - yi bar)**2

처리 2 y21, y22 ----- y2n y2 bar ∑(y2i - yi bar)**2
처리 3 y31, y32 ----- y3n y3 bar ∑(y3i - yi bar)**2
처리 4 y41, y42 ----- y4n y4 bar ∑(y4i - yi bar)**2

총평균 = ybar

 

관측값 (yij) = 총평균(ybar) +
평균으로부터의 변동(yij - ybar) = [처리에 의한 편차 = "모집단간의 변동"(yi bar - ybar) + 잔차 = " 모집단내의 변동, 처리에 의해 설명할 수 없는 부분" (yij - yi bar)]

 

처리제곱합 (Treatment Sum of Squares, SStr)

> 모집단간의 변동을 말한다.
> ∑n(yi bar - ybar)**2 = SStr

오차제곱합 (Error Sum of Squares, SSE)

> 모집단 내의 변동을 말한다. 이는 처리에 의해 나타내지 못하는 값이다. 
> ∑∑ (yij - yi bar)**2 = SSE

총제곱합 (Total Sum of Squares, SST)

> 모든 편차들의 제곱합을 말한다.
> ∑∑(yij - ybar)**2 = SST

 

제곱합의 자유도

제곱합의 자유도 = (제곱을 하여 더하는 항의 개수) - (각 항들에 의하여 만족되는 선형 제약조건의 수)

 

댓글