본문 바로가기
AI

Statistics : 4-3 : 두 변수 자료의 요약 : 산점도

by 월곡동로봇팔 2020. 1. 1.

산점도 (Scatter Diagram)

 

정의

두 변수 x, y 간의 관계를 분석할 때, 중요한 첫 번째 단계가 자료에 대한 그림을 그리는 것이다.
변수 x를 수평축에 놓고 변수 y를 수직축에 놓은 후에 각 관측값의 짝을 좌표 위에 표시함으로써 얻게 되는 그림을 산점도 (Scatter Diagram) 이라고 한다.

산점도의 예시-1

위의 산점도를 보면, 노란색 부분이 한국이다. 한국과 수평하게 같은 라인에 있는 도시와 비교해보면,

한국은 1인당 보건비 지출액이 비슷한 나라 3개 국가 중에서, GDP 대비 보건의료비 지출비중이 높다고 할 수 있다.

import matplotlib.pyplot as plt

plt.scatter([6.6, 6.5, 12.7, 9.4, 8.7, 8.8, 6.1, 4.3, 1.9, 5.7], [365, 1538, 2765, 1869 , 1511, 2343, 1039, 323, 215, 687])
plt.xlabel('GDP/medical expension')
plt.ylabel('one person medical expensino dollar')
plt.title('statistics')
plt.show()

산점도의 예시-2

 

산점도를 보면, 광고비용을 많이 지출한 회사가 판매량을 늘릴 수 있었다.

하지만, 선형관계를 가지지 않고, 곡선관계를 가진다는 것을 알 수 있다.

산점도에서는 4억 이상을 투자했을 시에, 판매량이 두 배로 점점 급증하는 것을 볼 수 있다.

import matplotlib.pyplot as plt

plt.scatter([1.0, .16, 2.5, 3.0, 4.0, 4.6, 5.0, 5.7, 6.0, 7.0], [2.5, 2.6, 2.7, 5.0, 5.3, 9.1, 14.8, 17.5, 23.0, 28.0])
plt.xlabel('marketing expension(billion)')
plt.ylabel('sales rate')
plt.title('statistics')
plt.show()

가치

이처럼, 산점도를 이용해, 데이터를 찍고, 데이터들의 관계를 유추할 수 있다.
이는 후에 머신러닝에서 주로 사용하는 방법이니 잘 알아두자.

댓글