결측자료

(손실 데이터에서 넘어옴)

통계학에서 결측자료(missing data), 손실자료(損失資料)는 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다. 결측자료는 흔히 발생이 가능한 데이터이며 데이터를 가지고 내리는 결론에 상당한 영향을 미칠 수 있다.

결측자료는 무응답을 이유로 발생할 수 있다: 하나 이상의 항목 또는 전체 단위(subject, 서브젝트)를 위해 제공되는 정보가 없는 상황이다. 일부 항목들은 다른 항목들에 비해 무응답을 발생시킬 가능성이 더 높다. 이를테면 소득과 같은 비공개 서브젝트들에 관한 항목을 들 수 있다.

경제학, 사회학, 정치학 연구에서 데이터가 손실되는 일이 종종 있는데, 그 이유는 정부나 사설 기관들이 중요한 통계를 보고하지 않기로 결정하거나 보고를 실패한데 따른 것 때문일 수 있으며[1] 아니면 정보를 이용할 수 없기 때문일 수 있다. 손실값이 연구원에 의해 발생되는 경우도 있는데, 이를테면 데이터 수집이 부적절하게 이루어지거나 데이터 기입에 실수가 발생한 경우가 있다.[2]

각주 편집

  1. Messner SF (1992). “Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide”. 《Journal of Quantitative Criminology》 8 (2): 155–173. doi:10.1007/bf01066742. 
  2. Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). 《Advising on Research Methods: A Consultant's Companion》. Huizen, Netherlands: Johannes van Kessel. 305–332쪽. ISBN 978-90-79418-01-5. 

외부 링크 편집