산점도 (Scatter Diagram)
정의
두 변수 x, y 간의 관계를 분석할 때, 중요한 첫 번째 단계가 자료에 대한 그림을 그리는 것이다.
변수 x를 수평축에 놓고 변수 y를 수직축에 놓은 후에 각 관측값의 짝을 좌표 위에 표시함으로써 얻게 되는 그림을 산점도 (Scatter Diagram) 이라고 한다.
산점도의 예시-1
위의 산점도를 보면, 노란색 부분이 한국이다. 한국과 수평하게 같은 라인에 있는 도시와 비교해보면,
한국은 1인당 보건비 지출액이 비슷한 나라 3개 국가 중에서, GDP 대비 보건의료비 지출비중이 높다고 할 수 있다.
import matplotlib.pyplot as plt
plt.scatter([6.6, 6.5, 12.7, 9.4, 8.7, 8.8, 6.1, 4.3, 1.9, 5.7], [365, 1538, 2765, 1869 , 1511, 2343, 1039, 323, 215, 687])
plt.xlabel('GDP/medical expension')
plt.ylabel('one person medical expensino dollar')
plt.title('statistics')
plt.show()
산점도의 예시-2
산점도를 보면, 광고비용을 많이 지출한 회사가 판매량을 늘릴 수 있었다.
하지만, 선형관계를 가지지 않고, 곡선관계를 가진다는 것을 알 수 있다.
산점도에서는 4억 이상을 투자했을 시에, 판매량이 두 배로 점점 급증하는 것을 볼 수 있다.
import matplotlib.pyplot as plt
plt.scatter([1.0, .16, 2.5, 3.0, 4.0, 4.6, 5.0, 5.7, 6.0, 7.0], [2.5, 2.6, 2.7, 5.0, 5.3, 9.1, 14.8, 17.5, 23.0, 28.0])
plt.xlabel('marketing expension(billion)')
plt.ylabel('sales rate')
plt.title('statistics')
plt.show()
가치
이처럼, 산점도를 이용해, 데이터를 찍고, 데이터들의 관계를 유추할 수 있다.
이는 후에 머신러닝에서 주로 사용하는 방법이니 잘 알아두자.
'AI' 카테고리의 다른 글
Statistics : 확률분포들의 서로 얽혀있는 구조 (0) | 2020.01.01 |
---|---|
Statistics : 4-4 : 두 변수의 자료 요약 : 수치를 통한 요약, 상관계수 (0) | 2020.01.01 |
Statistics : 4-2 : 두 변수 자료의 요약 : 분할표 (0) | 2020.01.01 |
Statistics : 3-3 : 백분위수 및 사분위수, 변동계수 (0) | 2020.01.01 |
Statistics : 10-2 : 통계적 추정 : 점추정 (0) | 2019.12.26 |
댓글