통계적 유의성

통계적 유의성 (統計的 有意性, statistical significance)은 모집단에 대한 가설확률적으로 우연이라고 생각하기 어렵고, 의미가 있다고 생각되는 정도이다.[1][2] 즉, 어떤 실험 결과 자료를 두고 "통계적으로 유의하다."라고 하는 것은 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다. 통계적 유의성은 귀무 가설을 기각할 확률인 유의 확률(p-value)을 통해 평가하며, 이 값이 유의 수준 이하일 때 특별히 유의하다고 말한다.[3][4][5][6][7][8][9][10] 과학적 연구에서 유의 수준은 5%나 그 이하로 설정함이 일반적이다.[11] 적절한 유의수준은 학계의 관례를 따른다.[12]

다만, 검정통계량은 표본 크기의 함수이므로 표본 크기가 커질수록 검정통계량의 값은 커져서 실질적으로는 유의성이 없어도 통계적으로는 유의한 것으로 판정될 수 있다. 이때의 오류는 1종오류가 된다. 즉, 통계적 유의성은 오류가능성을 동반한다.

역사 편집

통계적 유의성의 개념을 처음 언급한 이는 존 아버스넛(John Arbuthnot)과 피에르시몽 드 라플라스 후작이다. 이들은 인간의 성비를 논할 때 신생아의 성비가 1:1일 것이라는 귀무 가설을 수립하며 유의 확률의 개념을 처음 도입했다.[13][14][15][16][17][18][19]

1925년에는 로널드 피셔가 유의성 검정(tests of significance)이라는 개념을 도입하였다.[20][21][22] 여기서 0.05를 기준으로 이보다 유의 확률이 낮을 때 유의하다고 보며 이후로 통용될 관례를 처음으로 만들었다.[23] 1933년에는 예지 네이만이건 피어슨이 유의 확률을 평가하는 기준점을 유의 수준  라 명명했다. 이들은 이 값을 데이터 수집 전에 먼저 정하고 수집할 것을 권했다.[23][24]

같이 보기 편집

각주 편집

  1. Myers, Jerome L.; Well, Arnold D.; Lorch, Robert F. Jr. (2010). 〈Developing fundamentals of hypothesis testing using the binomial distribution〉. 《Research design and statistical analysis》 3판. New York, NY: Routledge. 65–90쪽. ISBN 978-0-8058-6431-1. 
  2. Dalgaard, Peter (2008). 〈Power and the computation of sample size〉. 《Introductory Statistics with R》. Statistics and Computing. New York: Springer. 155–56쪽. doi:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4. 
  3. “Statistical Hypothesis Testing”. 《www.dartmouth.edu》. 2020년 8월 2일에 원본 문서에서 보존된 문서. 2019년 11월 11일에 확인함. 
  4. Johnson, Valen E. (2013년 10월 9일). “Revised standards for statistical evidence”. 《Proceedings of the National Academy of Sciences》 110 (48): 19313–19317. Bibcode:2013PNAS..11019313J. doi:10.1073/pnas.1313476110. PMC 3845140. PMID 24218581. 
  5. Redmond, Carol; Colton, Theodore (2001). 〈Clinical significance versus statistical significance〉. 《Biostatistics in Clinical Trials》. Wiley Reference Series in Biostatistics 3판. West Sussex, United Kingdom: John Wiley & Sons Ltd. 35–36쪽. ISBN 978-0-471-82211-0. 
  6. Cumming, Geoff (2012). 《Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis》. New York, USA: Routledge. 27–28쪽. 
  7. Krzywinski, Martin; Altman, Naomi (2013년 10월 30일). “Points of significance: Significance, P values and t-tests”. 《Nature Methods》 10 (11): 1041–1042. doi:10.1038/nmeth.2698. PMID 24344377. 
  8. Sham, Pak C.; Purcell, Shaun M (2014년 4월 17일). “Statistical power and significance testing in large-scale genetic studies”. 《Nature Reviews Genetics》 15 (5): 335–346. doi:10.1038/nrg3706. PMID 24739678. S2CID 10961123. 
  9. Altman, Douglas G. (1999). 《Practical Statistics for Medical Research》. New York, USA: Chapman & Hall/CRC. 167쪽. ISBN 978-0-412-27630-9. 
  10. Devore, Jay L. (2011). 《Probability and Statistics for Engineering and the Sciences》 8판. Boston, MA: Cengage Learning. 300–344쪽. ISBN 978-0-538-73352-6. 
  11. Craparo, Robert M. (2007). 〈Significance level〉. Salkind, Neil J. 《Encyclopedia of Measurement and Statistics》 3. Thousand Oaks, CA: SAGE Publications. 889–891쪽. ISBN 978-1-4129-1611-0. 
  12. Sproull, Natalie L. (2002). 〈Hypothesis testing〉. 《Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science》 2판. Lanham, MD: Scarecrow Press, Inc. 49–64쪽. ISBN 978-0-8108-4486-5. 
  13. Brian, Éric; Jaisson, Marie (2007). 〈Physico-Theology and Mathematics (1710–1794)〉. 《The Descent of Human Sex Ratio at Birth》. Springer Science & Business Media. 1–25쪽. ISBN 978-1-4020-6036-6. 
  14. John Arbuthnot (1710). “An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes” (PDF). 《Philosophical Transactions of the Royal Society of London27 (325–336): 186–190. doi:10.1098/rstl.1710.0011. 
  15. Conover, W.J. (1999), 〈Chapter 3.4: The Sign Test〉, 《Practical Nonparametric Statistics》 Thi판, Wiley, 157–176쪽, ISBN 978-0-471-16068-7 
  16. Sprent, P. (1989), 《Applied Nonparametric Statistical Methods》 Seco판, Chapman & Hall, ISBN 978-0-412-44980-2 
  17. Stigler, Stephen M. (1986). 《The History of Statistics: The Measurement of Uncertainty Before 1900》. Harvard University Press. 225–226쪽. ISBN 978-0-674-40341-3. 
  18. Bellhouse, David (2001), 〈John Arbuthnot〉, 《in Statisticians of the Centuries by C.C. Heyde and E. Seneta》, Springer, 39–42쪽, ISBN 978-0-387-95329-8 
  19. Hald, Anders (1998), 〈Chapter 4. Chance or Design: Tests of Significance〉, 《A History of Mathematical Statistics from 1750 to 1930》, Wiley, 65쪽 
  20. Cumming, Geoff (2011). 〈From null hypothesis significance to testing effect sizes〉. 《Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis》. Multivariate Applications Series. East Sussex, United Kingdom: Routledge. 21–52쪽. ISBN 978-0-415-87968-2. 
  21. Fisher, Ronald A. (1925). 《Statistical Methods for Research Workers》. Edinburgh, UK: Oliver and Boyd. 43쪽. ISBN 978-0-05-002170-5. 
  22. Poletiek, Fenna H. (2001). 〈Formal theories of testing〉. 《Hypothesis-testing Behaviour》. Essays in Cognitive Psychology 1판. East Sussex, United Kingdom: Psychology Press. 29–48쪽. ISBN 978-1-84169-159-6. 
  23. Quinn, Geoffrey R.; Keough, Michael J. (2002). 《Experimental Design and Data Analysis for Biologists》 1판. Cambridge, UK: Cambridge University Press. 46–69쪽. ISBN 978-0-521-00976-8. 
  24. Neyman, J.; Pearson, E.S. (1933). “The testing of statistical hypotheses in relation to probabilities a priori”. 《Mathematical Proceedings of the Cambridge Philosophical Society》 29 (4): 492–510. Bibcode:1933PCPS...29..492N. doi:10.1017/S030500410001152X. S2CID 119855116.