Statistics (통계학)
우리가 살아가는 사회에서의 data들은 항상 "불확실성" 을 가지고 있다.
따라서 우리는 data의 불확싱성의 구조를 찾아내기 위해 이 통계학을 사용한다.
데이터는 항상 "제각각인 구조"를 가지고 있기 때문에, 우리는 이들의 분포와 특징을 알아내기 위해
평균값, 분산, 표준편차를 사용한다.
통계학은 기술통계와 추정 통계로 나뉜다.
기술통계
정의
관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술
ex) histogram, 도수분포표
추정통계
정의
"전체를 파악할 수 없을 정도의 큰 대상, 아직 일어나지 않은 미래에 일어난 일" 을 파악하는 것이다.
즉 "" 부분으로 전체를 파악하는 일"" 이다.
주로 우리가 머신러닝, 딥러닝으로 예측하는 부분을 추정통계라 한다.
도수분포표와 히스토그램
도수분포표와 히스토그램은 데이터의 특징을 돋보이게 해주는 도구이다.
용어정리
- 분포한다 : 다양한 수치로 나타내는 것
- 축약 : 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
- 계급 : 데이터를 범위 내로 자를 때, 이 범위들을 말함.
- 계급값 : 각 계급을 대표하는 수치
- 도수 : 각 계급에 들어가 있는 데이터의 총 개수
- 상대도수 : 각 계급에 도수가 전체에서 차지하는 비율을 계산한 도수
- 누적도수 : 특정 계급까지의 도수를 합한다.
- 통계랑 : 그래프로 만들어서 특징을 파악하게 만들고, 숫자 하나로 특징을 대표하도록 할 때, 이 숫자를 말한다.
도수분포표
만드는 방법 (중요!!)
- 데이터 수치 중 가장 큰 값과, 작은 값을 찾는다.
- 최댓값부터 최솟값까지 포함하도록 구간을 자르기 좋은 계급을 만든다. (범위는 5~8개가 적당하다.)
- 계급값을 정한다. (아무거나 해도 되지만, 대표값이니 가운데 값으로 정하는게 좋다.)
- 도수를 센다.
- 상대도수를 센다.
- 누적도수를 센다.
trade-off
도수분포표를 만들면, data로써의 그 자체의 수치들은 잃어버린다.
위의 도수분포표를 보면, 지역별로의 오염도를 측정해놓았는데, 오염도가 서울이 65가 되기전까지 서울 여러 지역에서 오염도를 모아서 오염도가 65가 되었을 것이다. 이 때 서울의 여러지역의 오염도는 data 자체로서 남아있지 않다.
특징
- 전라도가 다른 도보다는 오염도가 낫다.
- 경기도권이 전체적으로 오염도가 높다.
이렇게 도수분포표를 보고, data가 나타내는 특성을 가진다.
즉, data를 어떻게 나누고, 어떻게 보느냐에 따라 data의 가치는 변하게 된다.
결론
- 데이터 자체는 현실 그대로 나타내지만, 이것을 아무리 자세히 본다하더라도 잘 알수 없으니, 이를 도수분포표나 히스토그램으로 표현하자!
- 데이터를 축약하는 방법은, 1) 그래프를 만드는 방법 2) 통계량(숫자하나로 특징을 대표)을 구하는 방법, 두 가지가 있다.
- 도수분포표는 데이터를 5-9개 정도의 그룹으로 나눈 것이다. 도수분포표로 데이터의 특성(데이터가 집중되는 곳이나 대칭성)을 파악할 수 있다.
- 히스토그램은 도수분표포를 그래프로 나타낸 것이다.
- 그래프나 표로 데이터를 나타내면 data 그 자체의 가치는 변하게 된다.
- data를 어떻게 나누고 어떻게 분석하는지에 따라 가치가 굉장히 많이 변한다.
'AI' 카테고리의 다른 글
Statistics : 3-3 : 분산, 표준편차 (0) | 2019.12.21 |
---|---|
Statistics : 3-2 : 평균값, 중앙값, 최빈값 (0) | 2019.12.21 |
Deep_Learning : CNN (Convolutional Neural Network) (0) | 2019.12.02 |
자연어 처리 : Reference 정리 (0) | 2019.11.04 |
DeepLearning : basic_model (0) | 2019.10.28 |
댓글