-
기초통계 #2 자료의 요약통계 공부방 2020. 3. 18. 00:41
집단의 관찰값들을 대표할만 한 값을 통해 자료의 형태를 파악할 수 있다.
* 대표값 정의
- 평균 : 관찰값의 합을 관찰한 개체의 수로 나눈 값(자료의 무게중심)
- 중앙값(중위수) : 자료를 크기 순으로 나열했을 때 가운데 위치하는 값
- 최빈수(최빈값) : 관찰값이나 관찰값의 구간 중 빈도가 가장 높은 값
- 산포도 : 자료의 퍼짐의 정도 (산포도를 나타내는 잣대 : 범위, 편차, 분산 등)
- 범위 : 최대값과 최소값의 차이
- 편차 : 각 자료값들이 평균으로부터 떨어진 정도
- 분산 : 각 관찰값과 평균값과의 차이의 제곱의 평균
* 평균과 표준편차를 활용한 자료의 표현
평균은 자료가 분포하고 있는 중심을, 표준편차는 그 중심으로부터 자료의 퍼진 정도를 표현한다.
예) 어느 한 반의 수학, 영어 점수의 평균이 80점이고 표준편차는 수학이 20점, 영어가 10점일 경우 수학 점수의 자료가 영어 점 수 자료 대비 넓게 퍼져 있음을 예상할 수 있다.
- 평균
- 편차(평균이 무게중심으로, 편차의 합은 항상 0이기 때문에 이 문제점을 해결해주기 위하여 제곱을 해준다)
- 분산 (편차의 제곱의 평균)
- 표준편차(분산의 제곱근)
(모집단과 표본 내용은 다음 장에서 다루겠습니다.)
* 다섯숫자요약를 활용한 자료의 표현
평균과 표준편차 만으로는 전체적인 형태를 추측하기 어렵기 때문에 다섯숫자 요약을 이용하여도 자료의 분포형태를 파악한다.
- 다섯숫자요약 : 자료를 크기순으로 나열했을 때, 최소값, 하위25%값(제1사분위수), 중앙값(중위수), 상위25%값(제3사분위수), 최대값을 이용해 자료를 표현하는 방법
평균, 표준편차, 다섯숫자요약 모두 중요한 정보를 주고 있기 때문에 한 가지만 사용한다면 다른 중요한 정보를 놓치는 것이므로 모두 활용하여 자료를 파악하는 것이 중요하다.
'통계 공부방' 카테고리의 다른 글
기초통계 #6 이항분포 (0) 2020.04.28 기초통계 #5 지수분포 (0) 2020.04.28 기초통계 #4 정규분포 (0) 2020.04.28 기초통계 #3 모집단과 표본 (0) 2020.03.21 기초통계 #1 자료의 유형 (0) 2020.03.16