반응형
SMALL

 

1. 연속형 자료의 정리


연속형 자료를 정리하는 방법으로는 그래프를 이요하거나, 기술통계량을 구하여 특성들을 파악하게 된다. 연속인 자료를 나타낼 때 이용되는 그래프로는 히스토그램, 점도표, 상자그림, 줄기-잎 그림 등이 이용된다. 연속형 자료를 도표나 그림 등을 이용하여 정리할 때는 구간의 수 또는 구간의 너비 등과 같이 작성자의 주관적인 판단이 작용될 수 있다. 이러한 점을 보완하기 위하여 연속형 자료의 특성을 객관적으로 나타내고 자료의 전반적인 형태를 나타낼 수 있는 기술통계량을 이용하는데, 자료의 중심위치, 산포도 등의 측도가 있다.

1) 기술통계량

(1) 중심위치의 측도
중심위치의 측도에는 평균, 중앙값, 최빈값 등이 있는데 이 중 가장 많이 사용되는 것이 평균(Mean)이다. 관측한 자료의 값들을 X1, X2....Xn(n은 자료의 수)이라 표기할 때 평균은 다음과 같이 정의된다.
평균은 어느 한 자료값이 다른 자료값들보다 아주 크거나 작을 때 이 특이값(Outlier)의 영향을 많이 받는다.
중앙값(Median)은 자료를 크기 순서로 나열할 때 중앙에 놓이는 값이다. 즉, 자료의 수를 n이라 할 때 2분의 (n+1)번째의 값을 중앙값으로 한다. 예를 들어 n=11이면 2분의 (11+1)은 6이므로 6번째의 값이 중앙값이 되고, n=12이면 2분의 (12+1)이 6.5이므로 6번째와 7번쨰 자료의 평균을 중앙값으로 정의한다. 중웅값은 특이값(Outlier)이 있는 경우에도 민감하지 않으므로(이를 “Robust to Outlier”이라고 한다.) 특이값이 있는 경우에는 평균보다 중심위치의 측도로 더 자주 쓰인다.

최빈값(Mode)은 자료 중 가장 빈도가 많은 값을 말한다. 이 최빈값은 이산형 자료일 경우 도수분포표만 살펴보면 쉽게 구할 수 있다. 하지만 연속형 자료일 경우 거의 대부분의 자료값들이 한 번만 나타나기 때문에 단순히 빈도수가 많은 값을 최반값으로 정하는 것은 불합리하다. 이런 경우 자료를 몇 개의 계급구간으로 나누어서 가장 도수가 높은 계급의 중간값을 최빈값으로 정하기도 한다.

(2) 산포도 측정
자료가 흩어진 정도를 수치로 정하는 것이 산포도의 측도(measure of Dispersion)라고 한다. 많이 쓰이는 산포도의 측도는 분산 및 표준편차이고, 변동계수, 범위, 사분위수 범위 등이 있다. 분산(Variance)이란 각 자료값과 평균과의 거리를 제곱하여 합을 구한 후 이를 자료의 수로 나눈 것이다. 따라서 자료가 평균을 중심으로 많이 흩어져 있으면 분산이 커지고, 자료가 평균 주위에 몰려 있으면 분산이 작게 된다.
표준편차(Standard Deviation)는 분산의 제곱근으로 정의되며, 표본의 표준편차를 표본표준편차라고 부르며 s로 표시한다.
자료의 개수나 측정단위가 다른 2개 이상의 자료에 대한 표준편차를 비교하는 것은 무의미하다. 이러한 경우에 사용하는 측도가 표준편차를 평균으로 나눈 표준화된 표준편차인 변동계수(Coefficient of Variation)이다. 변동계수는 변이계수라고도 한다.

범위(Range)는 자료의 최댓값에서 최솟값을 뺸 차이를 나타낸다. 범위는 계산하기가 간편하나 극단점이 있을 경우 올바른 산포의 측도가 되지 못한다.
범위 = 최댓값 - 최솟값

범위의 단점을 보완한 것이 사분위수범위인데 이것을 알기 위해서 먼저 백분위수를 알아야 한다. p% 백분위수(Percentile)는 자료를 작은 것부터 큰 것까지 순서대로 늘어놓았을 때 p%번쨰 자료를 뜻한다.

반응형
LIST
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기