본문 바로가기
AI

ML : Model : LDA Math : 다변량 정규분포

by 월곡동로봇팔 2020. 2. 10.

정규분포

정규분포
이변량 정규분포

위는 정규분포의 함수이다.

밑은 이 변량 정규분포의 함수로, x1, x2 그룹(변수 X) 사이의 상관관계를 정의할 때, x1,x2로 한꺼번에 표현한 함수이다.

실제로 함수를 보면 표준편차를 상관계수를 넣어서 나눠줌으로써 상관관계가 작용함을 보여준다.

상관계수를 ρ라고 하고, ρ= cov(x1,x2)/σ1σ2 = E[(X1-μ1)(X2-μ2)]/σ1σ2 이다.

 

상관계수 ρ = 0.9
상관계수 ρ = 0.1

실제로 ρ가 작아짐에 따라 상관관계, 즉 그래프에서의 선형관계가 옅어짐을 확인할 수 있다.

ρ = 0 이면 상관관계가 없고 서로 영향을 주지 않으므로, 이는 독립이다. 따라서 f(x1,x2) = f(x1)f(x2)이다.

ρ = 1 이면 상관관계가 짙고 선형관계를 유지함을 알 수 있다.

Σ-1의 이유

Σ는 Covariance Matrix 다. ρσ1σ2 = E[(X1-μ1)(X2-μ2)] 이기 때문에 Σ는공분산 행렬**2에 해당한다.

여기서 Σ-1 을 한 이유는

  1. σ1**2 σ2**2(1-ρ**2) 를 쉽게 치환하기 위해 쓴다.
  2. 독립이 아닌 경우 = 변수로 둔 x1,x2 상관관계가 존재하는 경우 를 check 하기 위해서다.
  3. model은 변수로 취한 x1,x2 ---- xk가 서로 상관관계가 없어야 정확한 model을 만들어진다.

다변량 정규분포 -> LDA에 적용

다변량 정규분포 -> LDA에 적용

fk(x) -> fk(x|μk, Σk)로 수정한다. 그리고 이 함수는 μk, Σk일 때, x 변수를 가진 정규분포를 보이는 확률분포함수이다.

fk(μk, Σk) = πk 는 y=k일 사전확률이다.

즉, fk(x|μk, Σk) * fk(μk, Σk) 는 y가 k일 확률에 k번째 확률분포함수를 곱한 것이다. <y가 어떤 값인지를 몰라 y=k라는 사전확률을 곱해주면, fk(x, μk, Σk)현재 자료는 k,l 중 확률에서 k번째 밀도함수에서 나올 확률이다.>

따라서 logfk(x, μk, Σk) 는 P(y=k) = πk 라는 k를 뽑을 확률에서 k번째 범주의 확률분포인 f(x | μk, Σk) 을 곱해준 함수이다. 이는 현재 자료 x가 μk, Σk와 교집합인, x가 그룹 k와 교집합을 이루는 확률이다. (x는 확률분포함수의 변수). 

 

LDA Decision Rule

댓글