반응형
SMALL

 

 

1. 데이터 점검


일반적으로 데이터의 입력과정은 주어진 데이터를 한번 입력했다고 해서 끝나는 작업이 아니라 여러 차례 수정과정이 필요한 작업이다. 왜냐하면 입력하면서 입력자의 실수로 잘못 입력하였거나 조사자의 실수로 설문지에 잘못 기재해서 수정해야 하는 경우가 발생하기 때문이다. 잘못 입력된 데이터를 분석해서 얻은 결과는 엉뚱한 결론으로 이어질 수 있다. 따라서 통계 패키지나 다른 소프트웨어를 사용하기에 앞서 반드시 데이터가 제대로 입력되었는지 점검해야 한다. 이처럼 잘못 입력하였거나 조사상의 실수로 인한 오류를 찾아서 수정할 목적으로 데이터 세트를 검토하고 분석하는 것을 디버깅(debugging, 일반적으로 디버깅은 컴퓨터 프로그램을 작성할 때 나온 용어로 컴퓨터 프로그램이 정상적으로 작동하지 않으면 프로그램상의 오류를 찾아서 수정함으로써 정상적으로 작동할 수 있게 하는 것을 말한다)이라고 한다.

데이터의 수가 적고 같단 한 경우에는 화면을 통해서 눈으로 확인해 보거나 데이터 파일을 출력해서 확인해 볼 수 있을 것이다. 그러나 조사 대상자의 수가 많거나, 조사하는 변수의 수가 많은 경우에 이러한 방법은 비효율적이다. 일반적으로 데이터의 수가 많은 경우에 데이터 입력 과정상의 오류를 점검하기 위해서 간단하게 사용될 수 있는 방법으로는 각 변수가 취하는 값들의 범위를 확인하는 방법과 각 변수가 논리적 이로 주축을 만족하는지 확인하는 방법이 있다.

1) 각 변수의 입력 범위를 확인하는 방법
데이터의 입력과정 실수나 조사원의 실수로 잘못 입력된 것이 없는지 확인하는 방법 중에서 가장 간단한 방법은 각 변수가 취하고 있는 값들의 최댓값이나 최솟값을 살펴보는 것이다. 대부분은 데이터를 분석하고자 하는 연구자는 각 변수에 대해서 그 변수가 취할 수 있는 최댓값과 최솟값을 알고 있다. 만약 어떤 변숫값이 해당 변수의 범위를 벗어나면 이는 입력 고가정의 키보드 입력 오류이거나 조사과정에서 잘못된 응답 또는 조사원의 실수로 인해서 발생하였다고 볼 수 있다. 이러한 경우에 그 원인을 찾아서 데이터를 수정해야 한다.

예를 들어, 응답자의 성별을 나타내는 변수에 대해서 남자는 1의 값을, 여자는 2의 값을 줄면 그 변숫값이 1보다 작은 값이나 2보다 큰 값이 있다면 입력 과정상의 오류이거나 응답자의 잘못된 응답 또는 조사원의 실수로 발생하였다고 볼 수 있을 것이다.
다른 예로 100점 만점으로 어떤 수학 시험 점수를 나타내는 변수면 해당 변수가 음수의 값을 갖거나 100보다 큰 값을 가질 수가 있다면 이 데이터를 점검해야 할 것이다. 이처럼 각 변수에 대해서 기초적인 데이터 분석을 통해서 입력 과정상의 오류 여부를 점검할 수 있다. 물론 어떤 변숫값이 그 변수가 취할 수 있는 최댓값과 최솟값의 사이에 있다고 해서 그 변숫값에 오류가 없다는 것을 보장하는 것은 아니다.

변수의 범위를 확인하는 방법은 가장 기초적인 입력 오류를 찾는 것이다. 때에 따라서는 어떤 변수가 그 값을 취할 수 있지만 가능성이 희박한 예도 있다. 예를 들어, 어떤 영어학원에서 학원에 등록한 사람들의 나이, 직업, 성별 등을 조사하여 데이터를 얻었다고 가정하자. 이 경우에 어떤 수강생의 나이가 98로 입력되었다면 물론 가능하지만 가능성이 희박한 경우로 입력 오류 여부를 검토해야 할 것이다.

반응형
LIST
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기