본문 바로가기
AI

Statistics : 3-5 : 통계학, 도수분포표

by 월곡동로봇팔 2019. 12. 21.

Statistics (통계학)

 

우리가 살아가는 사회에서의 data들은 항상 "불확실성" 을 가지고 있다.

따라서 우리는 data의 불확싱성의 구조를 찾아내기 위해 이 통계학을 사용한다.

데이터는 항상 "제각각인 구조"를 가지고 있기 때문에, 우리는 이들의 분포와 특징을 알아내기 위해
평균값, 분산, 표준편차를 사용한다.

 

통계학은 기술통계와 추정 통계로 나뉜다.

 


기술통계

정의

관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술

 

ex) histogram, 도수분포표

 

 

추정통계

정의

"전체를 파악할 수 없을 정도의 큰 대상, 아직 일어나지 않은 미래에 일어난 일" 을 파악하는 것이다.

즉 "" 부분으로 전체를 파악하는 일"" 이다.

 

주로 우리가 머신러닝, 딥러닝으로 예측하는 부분을 추정통계라 한다.


도수분포표와 히스토그램

도수분포표와 히스토그램은 데이터의 특징을 돋보이게 해주는 도구이다.

 

용어정리

  • 분포한다 : 다양한 수치로 나타내는 것
  • 축약 : 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
  • 계급 : 데이터를 범위 내로 자를 때, 이 범위들을 말함.
  • 계급값 : 각 계급을 대표하는 수치
  • 도수 : 각 계급에 들어가 있는 데이터의 총 개수
  • 상대도수 : 각 계급에 도수가 전체에서 차지하는 비율을 계산한 도수
  • 누적도수 : 특정 계급까지의 도수를 합한다.
  • 통계랑 : 그래프로 만들어서 특징을 파악하게 만들고, 숫자 하나로 특징을 대표하도록 할 때, 이 숫자를 말한다.

 

도수분포표

도수분포표

만드는 방법 (중요!!)

  1. 데이터 수치 중 가장 큰 값과, 작은 값을 찾는다.
  2. 최댓값부터 최솟값까지 포함하도록 구간을 자르기 좋은 계급을 만든다. (범위는 5~8개가 적당하다.)
  3. 계급값을 정한다. (아무거나 해도 되지만, 대표값이니 가운데 값으로 정하는게 좋다.)
  4. 도수를 센다.
  5. 상대도수를 센다.
  6. 누적도수를 센다.

trade-off

도수분포표를 만들면, data로써의 그 자체의 수치들은 잃어버린다.

위의 도수분포표를 보면, 지역별로의 오염도를 측정해놓았는데, 오염도가 서울이 65가 되기전까지 서울 여러 지역에서 오염도를 모아서 오염도가 65가 되었을 것이다. 이 때 서울의 여러지역의 오염도는 data 자체로서 남아있지 않다.

 

특징

  • 전라도가 다른 도보다는 오염도가 낫다.
  • 경기도권이 전체적으로 오염도가 높다.

이렇게 도수분포표를 보고, data가 나타내는 특성을 가진다.

 

즉, data를 어떻게 나누고, 어떻게 보느냐에 따라 data의 가치는 변하게 된다.


결론

  • 데이터 자체는 현실 그대로 나타내지만, 이것을 아무리 자세히 본다하더라도 잘 알수 없으니, 이를 도수분포표나 히스토그램으로 표현하자!
  • 데이터를 축약하는 방법은, 1) 그래프를 만드는 방법 2) 통계량(숫자하나로 특징을 대표)을 구하는 방법, 두 가지가 있다.
  • 도수분포표는 데이터를 5-9개 정도의 그룹으로 나눈 것이다. 도수분포표로 데이터의 특성(데이터가 집중되는 곳이나 대칭성)을 파악할 수 있다.
  • 히스토그램은 도수분표포를 그래프로 나타낸 것이다.
  • 그래프나 표로 데이터를 나타내면 data 그 자체의 가치는 변하게 된다.
  • data를 어떻게 나누고 어떻게 분석하는지에 따라 가치가 굉장히 많이 변한다.

댓글