본문 바로가기

mambo's coding note346

Statistics : 7-5 : 포아송분포 포아송분포 (Poisson Distribution) 정의 > 연속된 시간상에서 발생하는 경우처럼 사건은 매순간 발생할 수 있다. > 그러나 매 순간마다 베르누이 시행을 한다고 하기에는 "시행횟수가 너무 많고, 매 순간의 성공확률은 아주 작기 때문에" 이항분포로는 부족하다. > 연속된 사건을 다루는 분포를 포아송분포라고 한다. > ex) 프러시아 질병 중 매년 말에 치여 사망하는 병사의 수 > ex) 국내에서 발생하는 진도 4이상 지진의 횟수 > ex) 한 야구경기에서의 실책의 수 조건 > 포아송분포는 매 순간 사건 발생이 가능하나, 매 순간의 사건 발생 확률은 아주 작은 경우에 주로 이용되는 확률모형이다. 따라서 "평균 발생횟수"를 이용한다. 1. 주어진 구간에서 사건의 평균 발생횟수의 확률분포는 구간의.. 2020. 1. 4.
Statistics : 7-4 : 초기하분포 초기하분포(Hypergeometric distribution) 정의 > 비복원추출에서 N개 중에 K가 원하는 것이고 n번 추출했을때 원하는 것 k개가 뽑힐 확률의 분포이다. > P(X=x) = DCx * (N-D)C(n-x) / NCn > N : 모집단의 크기 > n : 표본의 크기 > D : 모집단 내에서 범주 A에 속하는 구성원의 수 (A 는 k개가 뽑히는 경우) > X : 표본 내에서 범주 A에 속하는 구성원의 수 예시-1 Q. 50개 중 불량품이 5개인 더미에서 10개를 조사관이 비복원추출을 할 때, 2개의 불량품을 발견한 확률 P을 구하시오. > 50개의 더미에서 10개를 고르는 경우의 수 = 50C10 > 2개의 불량품을 고를 확률은 5C2, 8개의 정품을 고를 확률은 45C8, 동시에 고를확.. 2020. 1. 4.
Statistics : 7-3 : 이항분포 이항분포 (Binary Distribution) 정의 > 성공할 확률이 p인 베르누이 시행을 n번 반복할 때에 일어나는 성공의 횟수를 X라고 하면, 이 확률변수 X의 확률분포를 모수가 (n,p)인 이항분포라고 한다. > n : 베르누이 시행의 반복 횟수 > p : 각 시행에서 성공할 확률, P (S) > X : n번 시행 중 성공의 횟수 (사건) > 확률변수 X를 이향확률변수라고 하고, 그 분포들을 이항분포라고 한다. X ~ Bin (n , p) > 이항분포의 기댓값, 분산, 표준편차 > E(X) = np > Var(X) = npq > sd(X) = √npq 증명은 다음에 사진으로 올릴 예정이다...!! 자세한 증명은 밑으로 참조! http://blog.naver.com/PostView.nhn?blogI.. 2020. 1. 4.
Statistics : 7-2 : 베르누이 시행 베르누이 시행 정의 > 시행 : 매번 반복되는 추출을 통계학용어로 시행 (trial) 이라고 한다. > 1. 각 시행은 성공, 실패의 두 결과만을 가진다. > 2. 각 시행에서 성공할 확률은 P(S) = p로, 실패할 확률을 P(F) = q = 1-p 로 그 값이 일정하다. > 3. 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않는다. 복원추출 & 비복원추출 복원추출의 정의 > 매 추출은 서로 영향을 주지 않고 독립이므로, 이런 경우의 반복되는 추출은 베르누이 시행을 따른다고 볼 수 있다. > ex) 15개의 상품으로 이루어지는 모집단에서 5개는 불량품일 때, 상품을 꺼내서 확인 후, 다음 시행에 영향이 없게 다시 넣어야 독립, 그리고 복원추출이라고 볼 수 있다. 비복원추.. 2020. 1. 4.
Statistics : 6-6 : 확률분포 : 공분산과 상관계수 공분산 (확률변수에서 적용) 정의 > 두 개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도로서 (X-μx)(Y-μy).의 기댓값으로 정의된다. > Cov(X, Y) = E[(X-μx)(Y-μy)] = E(XY) - μxμy (E가 붙으면 확률함수가 붙는다고 생각하자. μxE(Y) = μxμy ) 특징 > X, Y가 ++ or -- 로 같은 방향으로 변화할 때, 공분산 값은 양수가 될 것이다. > X, Y가 +- or -+ 로 다른 방향으로 변화할 때, 공분산 값은 음수가 될 것이다. > 이는 두 확률변수의 관계의 방향을 나타내게 된다. > 확률변수에 상수배를 하면 -> Cov(aX, bY) = abCov(X, Y) 상관계수 2020/01/01 - [ML/statistics] .. 2020. 1. 2.
Statistics : 6-1, 6-2 : 확률분포 : 확률변수 확률변수 (random variable) 정의 > 각각의 근원사건들에 실숫값을 대응시키는 함수이며, X, Y .... 등등으로 표시한다. > 즉, 어떤 사건이 일어났을 때, 각각 근원사건들을 우리가 원하는 상황에 맞춰 실수값으로 대응시키는 것을 말한다. (근원사건 -> 실수값) 예시-1 ex ) 승용차를 소유하고 있는 사람들 중에서 임의로 3명은 선택, 어느 회사에서 만든 승용차를 가지고 있는지를 물어보는 실험을 하였다. 편의상 이들은 모두 A와 B 회사 제품 중 하나를 가지고 있다고 가정하자. 이 때 3명 중에서 A회사 제품을 가지는 사람의 수를 X라고 할 때, X가 확률변수이다. X라는 확률변수가 여러가지 경우의 수 중, A회사를 가지는 사람의 수라는 상황에 맞춰 실수값에 대응시키기 때문에, X를 확.. 2020. 1. 2.
Statistics : 5-5 : 독립사건 vs 배반사건 독립사건 정의 > P(A∩B) = P(A)P(B) 즉! 독립사건은 단순히 A, B들의 곱이 교집합의 확률과 같으면 독립이라고 하는 것이라고 알면 된다. 둘의 곱이 교집합이라는 말은, 둘의 곱이 서로에게 영향을 미치지 않는다는 의미이다. 배반사건 정의 > A∩B = ∮ , P(A∩B) = 0 즉! 배반사건은 A와 B의 교집합이 없으면 되는 부분이다. 둘은 동시에 일어날 수 없다는 의미이다. 결론 독립사건은 A, B라는 사건들이 서로에게 영향을 미치지 않는것을 의미하기 때문에 둘의 곱이 교집합을 의미한다. 배반사건은 A, B라는 사건들이 동시에 일어나지 않는다는 것을 의미하기 때문에 둘의 교집합이 0이다. 2020. 1. 2.
Statistics : 카이제곱분포 카이제곱분포 배경 모집단이 정규분포를 따르지 않을 때, t분포를 이용한 모평균추론보다, t분포를 이용한 모분산추론이 더 심각한 오류를 만든다. 따라서 모분산은 t분포를 쓰지 않고, 카이제곱분포를 쓴다. 정의 > "표준정규분포 하는 모집단에서 얻은 n개의 data 제곱의 합" == 분산 이라는 통계량을 분석한 것이다. > V = (Xbar - x1)**2 + (Xbar- x2)**2 + (Xbar- x3)**2 ----(Xbar- xn)**2 > χ**2 = V / σ**2 = (n-1)s**2/σ**2 특징 > 감마분포의 특수한 형태 > 자유도 (관측한 데이터의 수) 에 따라 달라진다. > 0 근처의 데이터 상대도수가 크다. > 자유도 n이 커짐에 따라서 가운데 볼록한 높이가 낮아지면서 점점 오른쪽으로 .. 2020. 1. 1.
Statistics : 확률분포들의 서로 얽혀있는 구조 확률분포들은 지금과 같은 구조로 서로 얽혀있다. 이들의 서로의 관계들을 알아야 왔다갔다 하면서 이들을 응용할 수 있다. 따라서 우리는 처음 이항분포부터 마지막 정규분포를 향해서 달려가야한다. 통계학을 처음 시작하는 사람들한테는 이 도표가 굉장히 도움이 많이 될 것으로 생각이 든다. https://m.blog.naver.com/mykepzzang/220853827288 [확률과 통계] 50. t 분포, Student's t-Distribution 이번에 다룰 주제는 '스튜던트 t 분포(Student's t-Distribution)'입니다. 간단하게 't-분포'라고 많이 ... blog.naver.com 2020. 1. 1.
Statistics : 4-4 : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수 표본상관계수(Sample Correlation Coefficient) 정의 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 표본상관계수이다. 두 변수 (x,y) 에 대하여 관측값 n개의 짝 (x1, y1), (x2, y2), ---- (xn,yn)이 주어질 때, 상관계수는 다음과 같이 계산. 특징 1. 표본상관계수 r은 -1 ~ 1 사이에 있다. 2. 표본상관계수는 크기는 얼마나 직선위에 있는지 직선관계 // 부호는 직선관계의 방향을 나타낸다. -- r>0 : 양의 상관관계, 기울기가 양수이다. -- r 2020. 1. 1.
Statistics : 4-3 : 두 변수 자료의 요약 : 산점도 산점도 (Scatter Diagram) 정의 두 변수 x, y 간의 관계를 분석할 때, 중요한 첫 번째 단계가 자료에 대한 그림을 그리는 것이다. 변수 x를 수평축에 놓고 변수 y를 수직축에 놓은 후에 각 관측값의 짝을 좌표 위에 표시함으로써 얻게 되는 그림을 산점도 (Scatter Diagram) 이라고 한다. 산점도의 예시-1 위의 산점도를 보면, 노란색 부분이 한국이다. 한국과 수평하게 같은 라인에 있는 도시와 비교해보면, 한국은 1인당 보건비 지출액이 비슷한 나라 3개 국가 중에서, GDP 대비 보건의료비 지출비중이 높다고 할 수 있다. import matplotlib.pyplot as plt plt.scatter([6.6, 6.5, 12.7, 9.4, 8.7, 8.8, 6.1, 4.3, 1.9,.. 2020. 1. 1.
Statistics : 4-2 : 두 변수 자료의 요약 : 분할표 배경 조사대상의 각 개체로부터 둘 또는 그 이상의 변수들을 동시에 관측하는 경우가 많다. 이 때에 "여러 개의 변수를 동시에 분석할 필요"가 있다. 분할표 (Contingency Table) 두 변수가 모두 범주형에 속하는 경우, 수집된 자료는 도수분포표 2차원으로 설명이 가능하다. 한 변수에 대한 범주는 왼쪽에, 다른 변수에 대한 범주는 오른쪽에 표시, 두 변수들이 교차하는 칸마다, 각 변수의 범주를 동시에 갖는 관측값들의 수를 그 칸의 도수로 기록하면 된다. 이를 분할표라고 한다. ex) 정책에 대해 지지여부를 알아보기 위해 400명을 임의추출하여 조사. 개인의 성별과 지지여부를 해당 범주에 따라 정리한 결과이다. 여기는 성별, 지지 여부 가 두 가지의 변수이다. 찬성 미결정 반대 합계 남자 112 .. 2020. 1. 1.