본문 바로가기

mambo's coding note346

Statistics : 3-3 : 백분위수 및 사분위수, 변동계수 2019/12/21 - [ML/statistics] - Statistics : 3-3 : 분산, 표준편차 Statistics : 3-3 : 분산, 표준편차 분산(variance), 표준편차 (Standard Deviation) 배경 2019/12/21 - [ML/statistics] - Statistics : 3-2 : 평균값, 중앙값, 최빈값 Statistics : 3-2 : 평균값, 중앙값, 최빈값 평균값 정의 ∑(데이터) / (데.. mambo-coding-note.tistory.com 앞서서 우리는 표준편차에 대해 공부를 하였다. 장점 : 표본평균을 사용할 경우, 표준편차를 퍼진정도의 측도로 쓰는 것이 바람직하다. 단점 : 극단적인 값에 영향을 많이 받을 때가 있다. 백분위수 정의 > 자료의 수가.. 2020. 1. 1.
Statistics : 10-2 : 통계적 추정 : 점추정 점추정 (Point Estimation) (표본의 크기가 클 때) 정의 > 추정하고자 하는 하나의 모수에 대하여 이 n개의 확률변수로 하나의 통계량을 만들고 > 주어진 표본으로부터 그 값을 계산하여 하나의 수치를 제시하려고 하는 것이다. 모평균에 대한 점추정 자료 : 평균이 μ, 표준편차가 σ, 모집단에서 임의추출한 표본 X1, -----Xn 추정량 : μ 햇 표준오차 : σ/√n 추정된 오차 : 위처럼 우리가 모표준편차를 모른다면, 우리는 표본에서의 점추정으로 표본표준오차를 구해서 쓸 수 있다. 예시-1 Q. 어느 공장에서 자사의 제품 중에서 퓨즈의 평균수명, μ 을 알아보기 위해 40개의 표본을 추출하고 그 수명 (xi)를 조사한 후, 다음과 같은 결과를 얻었다. 그 때 평균수명을 추정하고 추정량의 .. 2019. 12. 26.
Statistics : 9-3 : 중심극한정리 정의 모집단의 분포가 정규분포가 아닌 경우에, X bar의 정확한 분포는 모집단의 분포에 따라 다르게 나타난다. > 그러나 동일한 확률분포를 가진 확률변수 n개의 평균의 분포는 표본의 크기 n이 큰 경우에, X bar의 분포는 모집단의 분포와 무관하게, (모집단의 분포가 연속이거나 이산이거나 대칭이거나 비대칭이거나) 상관없이 근사적으로 정규분포를 따른다. 공식 모집단의 평균이 μ 이고, 분산이 σ**2 일 때, 임의추출된 표본의 표본평균 X bar는 표본의 크기 n 이 큰 경우, 모집단에 관계없이 (보통 30 이상) 근사적으로 정규분포를 따르게 되며, 그 평균은 μ, 표준편차는 σ / 루트n 이다. 두 그림 다 중심극한정리에 대해서 보여주는 그래프이다. 모집단 자체가 비대칭형으로 분포한다고 하여도, 표본.. 2019. 12. 26.
Statistics : 9-1 : 모집단, 통계량, 모수 모집단 정의 우리가 통계학적으로 분석하고 싶은 집단을 모집단이라 한다. 통계적 추정의 목표 " 몇 가지의 데이터를 가지고, 모집단 전체에 대해 어떠한 추측" 을 하는 일이다. (귀납적 방법) random sampling & 모평균 가정 : 충분한 횟수로 관측하여 히스토그램을 작성하면 모집단의 분포가 재현된다. 정의 : 모집단의 평균값을 모평균, μ 라고 한다. 이는 (데이터 수치 * 상대도수)들의 총합 (상대도수는 데이터의 수 / 총 데이터들의 수 를 한 것이기 때문에, (데이터수치 * 데이터의 수)들의 총 합 / 총 데이터들의 수 를 한 것이 모평균이다.) 의미 : 모평균은 모집단의 데이터가 모평균 주위로 분포함을 알려준다. 모분산과 모표준편차우리는 데이터가 모평균 근처에 머물러있다고는 알고 있지만, .. 2019. 12. 26.
Statistics : 9-3 : 표본평균, 대수의 법칙 표본평균 표본평균 정의 및 구하는 이유 정의 > (관측된 데이터의 합계) / (관측 데이터 총 개수) > 여러 데이터를 관측하여 그 평균을 구한 것 표본평균을 구하는 이유 > "우연히 생긴 흩어진 데이터를 없애고, 실제의 값에 가까운 값을 만들어 내고 싶기 때문이다." > 모평균은 모집단의 중심을 나타내는 수치로써 가장 많이 사용하고 집단의 특성을 잘 나타낸다. 대수의 법칙 (중심극한정리와 헷갈리지 말기!) 위에 첫 번째 그림은 주사위를 한 번 던졌을 때의 표본평균이라고 하고, 두 번째 그림은 주사위를 두 번 던졌을 때의 표본평균이라고 하자. n=1, n=2일 때로 n이 커질수록 표본평균이 3.5로 향하는 것을 알 수 있다. 즉, n이 커질수록 표본평균이 모평균에 가까워지는 것을 알 수 있다. 하나의 모.. 2019. 12. 26.
Statistics : 10-2 : 통계적 추정 : 구간추정 구간추정(Interval Estimation) (굉장히 중요...!!!) 정의 > 구간추정은 관측된 데이터로 모집단의 모수를 추리하는 것을 말한다. ex) 투표소 앞에서 투표를 마친 사람들에게 물어본다. (관측된 데이터) -> 선거결과를 예측하는 것 (모집단의 모수를 추리) 95% 예언적중구간 2019. 12. 22.
Statistics : 10-1 : 통계적 추정 통계적 추정 우리는 앞에서 표준정규분포에 대해 공부했다. 2019/12/22 - [ML/statistics] - Statistics : 정규분포 (Normal Distribution) Statistics : 정규분포 (Normal Distribution) 정규분포 (Normal Distribution) 2019/12/21 - [ML/statistics] - Statistics : 통계학, 도수분포표 Statistics : 통계학, 도수분포표 Statistics (통계학) 우리가 살아가는 사회에서의 data들은 항상 "불확실성".. mambo-coding-note.tistory.com 목적 (굉장히 중요!!!) "과연 우리는 정규분포의 성질을 이용해서 어떠한 예언을 할 수 있지 않을까?" 를 생각한다. 따.. 2019. 12. 22.
Statistics : 8-1,2,3 : 정규분포 정규분포 (Normal Distribution) 2019/12/21 - [ML/statistics] - Statistics : 통계학, 도수분포표 Statistics : 통계학, 도수분포표 Statistics (통계학) 우리가 살아가는 사회에서의 data들은 항상 "불확실성" 을 가지고 있다. 따라서 우리는 data의 불확싱성의 구조를 찾아내기 위해 이 통계학을 사용한다. 데이터는 항상 "제각각인 구조"를 가.. mambo-coding-note.tistory.com 앞에서도 언급했듯이, 데이터들은 "제각각의 구조"를 가지고 있으며, 우리는 데이터들의 특징을 알기위해서 평균값, 분산, 표준편차를 사용한다고 알고있다. 우리 사회에서는 데이터의 분포가 가장 일반적인 정규분포이다. 근데 왜?? > 물론 모든 자.. 2019. 12. 22.
Statistics : 3-2 : cf) 평균값과 표준편차를 이용한 데이터 분석 한 dataset 중에 있는 어떤 data가 갖는 의미 내 점수가 85점이라고 할 때, 위의 그림을 A 학급, B 학급이라고 하자. 만약 A 학급이라면, 표준편차가 B 학급보다는 작다. 따라서 내 점수는 평균에서 많이 멀어져 있고, 다른사람들도 평균에서 머물러있다는 뜻이므로, 내 점수는 가치가 높다. 만약 B 학급이라면, 표준편차가 A 학급보다는 크다. 따라서 점수 분포가 평균에서 다들 많이 떨어져있으므로, 고득점의 사람들도 A 학급보다는 많다는 의미이기 때문에, 내 점수의 가치는 낮다. 위의 그림처럼, dataset이 만약에 정규분포에 가깝다면??? 평균점수에서 표준편차만큼 높은 정도의 경우는 특수하다고 볼 수 없지만, 평균점수에서 표준편차보다 2, 3배만큼 큰 경우는 특수하다고 볼 수 있다. "특수하.. 2019. 12. 21.
Statistics : 3-3 : 분산, 표준편차 분산(variance), 표준편차 (Standard Deviation) 배경 2019/12/21 - [ML/statistics] - Statistics : 3-2 : 평균값, 중앙값, 최빈값 Statistics : 3-2 : 평균값, 중앙값, 최빈값 평균값 정의 ∑(데이터) / (데이터의 총 갯수)로 나누기해서 얻은 값이다. ∑ (계급값 * 상대도수) 배경 도수분포표나 히스토그램은 몇 가지 단점들을 가지고 있다. 만든 사람의 생각이 들어가니, 실제로 표.. mambo-coding-note.tistory.com 우리가 위에 포스팅에서 통계량은 데이터들이 어떠한 특성을 가지고 있는지, 평균값, 표준편차를 이용해 수치적으로 정한다고 배웠다. 또한 평균값의 특성상 "평균값은 data들이 평균값 주위로 분포해있다.. 2019. 12. 21.
Statistics : 3-2 : 평균값, 중앙값, 최빈값 평균값 정의 ∑(데이터) / (데이터의 총 갯수)로 나누기해서 얻은 값이다. ∑ (계급값 * 상대도수) 배경 도수분포표나 히스토그램은 몇 가지 단점들을 가지고 있다. 만든 사람의 생각이 들어가니, 실제로 표를 보고 이해하지 못하는 경우가 생긴다. -> 히스토그램에서 하나의 계급값들은 각각의 수치들이 차이가 얼마나 나는지에 대한 부분을 알지 못한다. 따라서 데이터로부터 추출한 성질을 통해서 결론도출이 힘들 수 있다. 상당히 많은 공간을 차지한다. -> 논문에서는 집약적으로 다뤄야하기 때문에, 잘 써야함. 이 단점들을 극복하기위해 축약 방법 중 통계량이 나왔다. 통계량은 데이터의 특징을 하나의 숫자로 표현한 것이다. 구체적으로는, 평균값, 분산, 표준편차 등등이다. 도수분포표에서의 평균값의 역할 평균값 = .. 2019. 12. 21.
Statistics : 3-5 : 통계학, 도수분포표 Statistics (통계학) 우리가 살아가는 사회에서의 data들은 항상 "불확실성" 을 가지고 있다. 따라서 우리는 data의 불확싱성의 구조를 찾아내기 위해 이 통계학을 사용한다. 데이터는 항상 "제각각인 구조"를 가지고 있기 때문에, 우리는 이들의 분포와 특징을 알아내기 위해 평균값, 분산, 표준편차를 사용한다. 통계학은 기술통계와 추정 통계로 나뉜다. 기술통계 정의 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술 ex) histogram, 도수분포표 추정통계 정의 "전체를 파악할 수 없을 정도의 큰 대상, 아직 일어나지 않은 미래에 일어난 일" 을 파악하는 것이다. 즉 "" 부분으로 전체를 파악하는 일"" 이다. 주로 우리가 머신러닝, 딥러닝으로 예측하는 부분을 추정통계라 한.. 2019. 12. 21.