본문 바로가기

mambo's coding note346

Statistics : 5-5 : 조건부확률 조건부확률 목적, 언제 쓸까? > 두 개 이상의 사건이 있을 때, 한 사건의 결과가 다른 사건의 확률에 영향을 미치는 경우!! 정의 > 어떤 사건 B가 있을 때, B사건중 A 사건이 일어날 확률을 조건부확률이라고 말하며, P(A|B) 라고 한다. 사실 조건부확률은 예시를 통해 아는 것이 굉장히 중요하다. 예시 - 1 Q . 한 신용카드 회사에서 주요 고객 25명에 대해 그들의 대금결제현황을 조사했더니, 그 중 20명은 매달 착실하게 결제하고 있었고, 나머지 5명은 항상 기일을 넘기는 것으로 드러났다. 이런 25명의 고객 중에 2명을 임의추출한다고 하였을 때, 다음의 확률을 계산하라 1. 두 사람 모두 대금결제 기일을 어긴다. 2. 한 사람은 기일을 어기는 사람이고, 또 한 사람은 착실하게 대금결제를 하는.. 2020. 1. 18.
Statistics : 7-8 : 감마분포 감마분포 (Gamma Distribution) 감마함수 목적 > 정규분포로 설명할 수 없는 부분을 보완하기 위해 나온 확률분포 이다. > 데이터들이 얼마나 치우쳐져 있는지에 대한 정도를 분석하는 확률분포이다. 정의 정리 감마분포 증명 카이제곱분포로 연결 그래프 이를 그래프로 그리면 다음과 같은 그래프를 지닌다. 감마분포는 나중에 카이제곱분포로 이어지기 때문에, 카이제곱분포와 이어서 생각하면 좋다. 2020/01/01 - [ML/statistics] - Statistics : 카이제곱분포 Statistics : 카이제곱분포 카이제곱분포 배경 모집단이 정규분포를 따르지 않을 때, t분포를 이용한 모평균추론보다, t분포를 이용한 모분산추론이 더 심각한 오류를 만든다. 따라서 모분산은 t분포를 쓰지 않고, 카이.. 2020. 1. 16.
Statistics : 7-7 : 기하분포 기하분포 정의 > "한 번 성공하기까지의 확률을 알고싶을 때" 사용하고, 이를 기하분포를 따른다고 표현한다. 공식 2020. 1. 16.
Statistics : 선형회귀 : 잔차의 검토 잔차 or 독립변수와 예측값의 산점도 정상인 경우 예측값의 산점도가 위와 같이 random 하게 퍼져있는 경우에는, 정상적인 선형회귀임을 알 수 있다. 비선형성인 경우 잔차와 예측값의 분포가 2차형태를 나타내므로, 이를 해결하는 방법으로는 이차항을 추가시키는 것이다. 등분산성이 아닌 경우 잔차와 예측값의 산점도가 일정한 분산을 가지고 있지 않고, 일정하게 분산이 증가하는 방향으로 분포가 생겼다. 이를 해결하는 방법으로는 변수변환 (log, 1/x 등등) 이 있다. 오차의 정규성 검정 잔차는 정규분포를 따른다고 되어있다. 2020/01/13 - [ML/statistics] - Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정 Statistics : 회귀분석 : 모형, 최소제곱법을 이.. 2020. 1. 14.
Statistics : 회귀분석 : 선형관계의 강도 선형관계의 강도 SST (Sum of Squares Total) 정의 > Syy = ∑yi - ybar)**2 > y값들이 나타내는 변동의 크기를 SST라 하며, 총제곱합 (sum of squares total) 이라 한다. SSR (Sum of Squares Regression) > Sxy**2/Sxx > 회귀제곱합이라고 하며, 이는 선형관계로 설명되는 변동이다. R**2, 결정계수 (Coefficient of determination) R**2 = SSR/SST = Sxy**2/SxxSyy = 1 - SSE/SST 결정계수는 항상 0~1 사이의 값임을 알 수 있다. R**2 이 0에 가깝다면, 선형회귀모형이 관측결과를 설명하는데 별로 도움이 되지 않는 경우이다. R**2 이 1에 가깝다면, 선형회귀모.. 2020. 1. 14.
Statistics : 회귀분석 : 모형, 최소제곱법을 이용한 모수 추정 회귀분석 목적 1. 변수들이 서로 관련이 있는가? 2. 관련이 있다면 얼마나 밀접하게 관련이 있는가? 3. 관심이 있는 변수의 값을 그 외 다른 변수의 값으로부터 예측할 수 있는가? (머신러닝의 목적) 독립변수 & 종속변수 독립변수 (independent variable) : 실험하는 사람에 의해 통제되어 독립적으로 주어지는 변수 종속변수 (dependent variable) : 독립변수와 오차에 의해 결정되는 변수 우리는 산점도로부터 변수들 간에 대략적으로 직선의 관계라 있음을 알 수 있다. 하지만 대략적인 직선의 관계가 없더하더라도 변수의 적절한 변환을 통해서 직선의 관계를 만들 수 있다. 회귀분석은 D차원 벡터 독립 변수 xx와 이에 대응하는 스칼라 종속 변수 yy간의 관계를 정량적으로 찾아내는 작.. 2020. 1. 13.
Numpy & Pandas : 참고 블로그 https://sacko.tistory.com/18 파이썬으로 데이터분석하자 (4) - Pandas 기본 파이썬 Numpy - 파이썬 라이브러리를 활용한 데이터 분석 中 ※본 포스팅은 "파이썬 라이브러리를 활용한 데이터 분석"을 다시 돌아볼 목적으로 필요 내용만 간단하게 정리하였습니다. 2017/09/19 - [Data Science.. sacko.tistory.com 2020. 1. 12.
Statistics : 정규모집단에서의 추론 : t 분포 T 분포 배경 > 모집단의 분포가 N(μ,σ**2) 일 때, 크기가 n인 표본의 평균 X bar의 분포는 정확하게 N(μ,σ**2/n)다. 하지만, 일반적으로는 σ는 미지수이기 때문에, 표본에서의 표준편차 s를 이용해서 적용하게 되는데, 이 때!!!!!!! n이 큰 경우에는 정규분포를 따라서 그대로 s를 적용하면 되지만, n이 작은 경우에는 자유도에 따라서 t분포를 따른다. 정의 > 정규모집단 N(μ,σ**2) 일 때, 추출된 표본을 X1, X2 ---- Xn이라고 할 때, 표본평균과 표본분산은 Xbar = ∑Xi/n, s**2 = ∑(Xi - Xbar)**2/(n-1) 라고 정의하면, 표준화된 확률변수 t = (Xbar-μ)/s/√n 는 자유도가 n-1인 t분포를 따른다. 즉, t분포는 1. 표본의 크.. 2020. 1. 11.
Statistics : 10-4 : 모비율에 대한 추론 (표본의 크기가 클 때) 모비율 정의 > 모집단의 어떠한 사건에 대한 확률 p를 추정하고자 할 때, p에 대한 추정량인 비율은 p(hat)=Xbar/n 이다. p hat은 p의 추정량이라고 생각하면 된다. 목적 > 모집단의 모수를 비율, 확률로써 알고 싶을 때 사용한다. 점추정 모수 : 모집단에서 A라는 특성을 갖는 집단의 비율 : 모비율 p 자료 : 크기가 n인 표본에서 A라는 특성을 갖는 개체의 수 : X 추정량 : 표본비율 : p hat = Xbar/n 표준오차 : S.E.(p hat)=√[p(1-p)/n], 추정된 표준오차 = √[p hat(1-p hat)/n] X에 대한 기댓값과 표준편차는 np, √np(1-p) 이다. 모비율 p에 대한 추정량이 표본비율인 것은, 표본이 충분히 크다면, 표본평균이 모평균으로 향한다는 중.. 2020. 1. 11.
Statistics : 10-3 : 통계적 추정 : 가설검증 (가설의 정의, 오류의 종류) 가설검증 (귀납적 방법, Testing Statistical hypothesis) 2019/12/22 - [ML/statistics] - Statistics : 통계적 추정 Statistics : 통계적 추정 통계적 추정 우리는 앞에서 표준정규분포에 대해 공부했다. 2019/12/22 - [ML/statistics] - Statistics : 정규분포 (Normal Distribution) Statistics : 정규분포 (Normal Distribution) 정규분포 (Normal Distri.. mambo-coding-note.tistory.com 우리는 앞에서 통계적 추정을 정의하였다. "엄청나게 많은 dataset 중에서 data의 작은 부분으로, data가 가지는 집단 전체를 추리하는것" 이것이.. 2020. 1. 11.
Statistics : 10-3 : 통계적 추정 : 가설검증 (검정통계량, 기각역의 결정, 유의확률) 검정통계량 (Test Statistics) 정의 > 표본으로부터 검정의 결론, 즉 H0을 기각하거나 H0을 기각하지 않고 유지하는 결정을 내릴 때, 이용되는 표본의 함수, 즉 통계량을 검정통계량 2019/12/22 - [ML/statistics] - Statistics : 통계적 추정 : 가설검증 (가설의 정의, 오류의 종류) Statistics : 통계적 추정 : 가설검증 (가설의 정의, 오류의 종류) 가설검증 (귀납적 방법, Testing Statistical hypothesis) 2019/12/22 - [ML/statistics] - Statistics : 통계적 추정 Statistics : 통계적 추정 통계적 추정 우리는 앞에서 표준정규분포에 대해 공부했다. 2019/1.. mambo-coding.. 2020. 1. 8.
Statistics : 8-5 : 정규분포가정의 조사 정규점수 (normal scores) 정의 > 표준정규분포에서의 이상적인 표본을 말한다. > 표준정규분포의 확률밀도함수를 등확률구간으로 나누어 주는 경계값, Z의 의미를 말한다. ex) 정규확률그림 (normal probability plot) 정의 > 표본이 이상적인 정규분포와 얼마나 흡사한지를 그림으로 보여준다. 주의!!!! 위와 아래의 표는 편의상 4개를 적어둔 것이다. 실제는 n이 30이상일 때 중심극한정리로 인해, 표본들은 정규분포를 따르기 때문에, 표본들을 크기가 커지는 순으로 정렬해두면, 실제로 정규점수와 순서가 일치함을 알 수 있다. 실제로 관측한 x값, 정규점수 이상적인 x값 44, -0.84 μ + σm1 68, -0.25 μ + σm2 75, 0.25 μ + σm3 82, 0.84 μ.. 2020. 1. 7.