데이터 드레징

데이터 드레징(data dredging), 데이터 스누핑(data snooping) 또는 p-해킹(p-hacking)[1]통계적으로 유의미한 것으로 표시될 수 있는 데이터의 패턴을 찾기 위해 데이터 분석을 오용하여 오탐의 위험을 극적으로 증가시키고 과소평가하는 것이다. 이는 데이터에 대해 많은 통계 테스트를 수행하고 중요한 결과가 나온 데이터만 보고함으로써 수행된다.

데이터 드레징 프로세스에는 철저한 검색을 통해 단일 자료 집합을 사용하여 여러 가설을 테스트하는 작업이 포함된다. 상관 관계를 보여줄 수 있는 변수 조합, 평균의 차이 또는 다른 항목에 의한 분석을 보여주는 사례 또는 관찰 그룹에 대해 테스트할 수 있다.

통계적 유의성에 대한 기존 테스트는 우연이 작용할 경우 특정 결과가 발생할 확률에 기반을 두고 있으며 특정 유형의 잘못된 결론(귀무 가설의 잘못된 기각)이 발생할 위험을 필연적으로 받아들인다. 이 위험 수준을 유의성이라고 한다. 많은 수의 테스트가 수행되면 일부는 이러한 유형의 잘못된 결과를 생성한다. 따라서 무작위로 선택한 가설의 5%는 5% 유의 수준에서 통계적으로 유의한 것으로 (잘못) 보고될 수 있고, 1%는 1% 유의 수준에서 통계적으로 유의한 것으로 (잘못) 보고될 수 있으며, 이런 식으로 우연히만 발생한다. 충분한 가설을 테스트하면 일부 가설이 통계적으로 유의미한 것으로 보고될 것이 거의 확실하다(비록 이것이 오해의 소지가 있음에도 불구하고). 임의의 정도를 지닌 거의 모든 데이터 세트에는 (예를 들어) 일부 허위 상관 관계가 포함될 가능성이 높기 때문이다. 주의하지 않으면 데이터 마이닝 기술을 사용하는 연구자가 이러한 결과로 인해 쉽게 오해를 받을 수 있다. p-해킹(p-값과 관련하여)이라는 용어는 사회 과학 연구에서 이러한 문제를 밝히는 데 주력해 온 블로그 데이터 콜라다(Data Colada)의 연구자 3명이 2014년 논문에서 만들어낸 것이다.[2][3][4]

데이터 드레징은 다중 비교 문제를 무시한 예이다. 한 가지 형태는 독자에게 검사된 하위 그룹 비교의 총 개수를 알리지 않고 하위 그룹을 비교하는 것이다.[5]

같이 보기 편집

각주 편집

  1. Wasserstein, Ronald L.; Lazar, Nicole A. (2016년 4월 2일). “The ASA Statement on p-Values: Context, Process, and Purpose”. 《The American Statistician》 (Informa UK Limited) 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305. 
  2. Lewis-Kraus, Gideon (2023년 9월 30일). “They Studied Dishonesty. Was Their Work a Lie?”. 《The New Yorker》 (미국 영어). ISSN 0028-792X. 2023년 10월 1일에 확인함. 
  3. Subbaraman, Nidhi (2023년 9월 24일). “The Band of Debunkers Busting Bad Scientists”. 《Wall Street Journal》 (미국 영어). 2023년 9월 24일에 원본 문서에서 보존된 문서. 2023년 10월 8일에 확인함. 
  4. “APA PsycNet”. 《psycnet.apa.org》 (영어). 2023년 10월 8일에 확인함. 
  5. Young, S. S.; Karr, A. (2011). “Deming, data and observational studies” (PDF). 《Significance》 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x. 

외부 링크 편집