스튜던트 t 분포

스튜던트 t 분포
확률 밀도 함수
누적 분포 함수
매개변수	자유도(실수값)
지지집합
확률 밀도
누적 분포	, 여기에서 은 초기하함수
기댓값	일 때 0, 나머지는 정의되지 않음
중앙값	0
최빈값	0
분산	(), (), 나머지는 정의되지 않음
비대칭도	일 때 0
적률생성함수	정의되지 않음
특성함수	, 는 베셀 함수

스튜던트 t 분포(Student t分布, 영어: Student’s t-distribution)는 정규 분포의 평균을 측정할 때 주로 사용되는 분포이다.

정의

스튜던트 t 분포는 다음 확률변수의 분포로 정의된다.

{\frac {Z}{\sqrt {V/\nu }}}

여기에서 $Z$ 는 표준정규분포, $V$ 는 자유도 $\nu$ 인 카이제곱 분포이다.

t 분포는 종모양으로서 t=0에서 좌우대칭을 이룬다. t 분포의 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝게 된다.^[1]^:194

정규분포에서의 추정

어떤 정규분포의 평균이 $\mu$ 이고 분산이 $\sigma ^{2}$ 일 때, 그 분포에서 n개의 표본을 추출한 것을 $X_{1},\cdots ,X_{n}$ 라고 표기한다. 표본평균과 표본분산은 다음과 같다.

{\overline {X}}={\frac {1}{n}}(X_{1}+\cdots +X_{n})

S^{\;2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}

이 값들은 실제 평균과 분산에 대한 불편추정값이다. 이때,

V=(n-1){\frac {S^{2}}{\sigma ^{2}}}

은 자유도가 $n-1$ 인 카이제곱 분포가 된다는 것이 Cochran 정리에 의해 알려져 있다. 또한

Z=\left({\overline {X}}-\mu \right){\frac {\sqrt {n}}{\sigma }}

는 평균이 0이고 분산이 1인 정규분포를 가지며, $V,Z$ 는 서로 독립이라는 것을 증명할 수 있다.

이때 $Z$ 에서 $\sigma ^{2}$ 대신 $S^{\;2}$ 로 대체한 추축량(pivot quantity)은 다음과 같다.

T\equiv {\frac {Z}{\sqrt {V/\nu }}}=\left({\overline {X}}-\mu \right){\frac {\sqrt {n}}{S}}

이때 $T$ 에는 $\sigma ^{2}$ 가 사용되지 않으므로, 이 분포는 분산을 모를 때의 평균값 $\mu$ 를 추정하는 데에 사용이 가능하다. 이때 $T$ 의 분포는 자유도 n-1인 t-분포가 된다.

구간 추정

자유도 n-1인 t 분포 $T$ 에 대해,

\Pr(-A<T<A)=0.9

을 만족하는 실수 $A$ 는 수치적으로 계산이 가능하다. 이때,

\Pr(-A<T<A)=\Pr \left(-A<{{\overline {X}}-\mu  \over S/{\sqrt {n}}}<A\right)=\Pr \left({\overline {X}}_{n}-A{S \over {\sqrt {n}}}<\mu <{\overline {X}}+A{S \over {\sqrt {n}}}\right)=0.9

이므로, 정규분포의 평균은 90%의 신뢰도로 ${\overline {X}}\pm A{\frac {S}{\sqrt {n}}}$ 신뢰구간에 속하게 된다.

역사

프리드리히 로베르트 헬메르트(독일어: Friedrich Robert Helmert)가 1875년에 도입하였다.^[2]^[3]^[4]^[5] 이듬해 야코프 뤼로트(독일어: Jacob Lüroth)도 같은 분포를 재발견하였다.^[6]^[7] 그러나 헬메르트와 뤼로트의 논문은 영문 학계에 널리 알려지지 않았다.

1908년에 윌리엄 고셋이 "스튜던트"(영어: Student, ‘학생’)라는 필명으로 1908년 재발견하였다.^[8] 고셋은 기네스 양조 공장에서 일했고, 맥주에 사용되는 보리의 질을 시험하기 위해 이 분포를 도입하였고, 경쟁사들에게 기네스의 획기적인 통계 기법을 숨기기 위해 필명을 사용하였다고 한다.^[9]^:326 이후 저명한 통계학자인 로널드 피셔는 이 분포를 "스튜던트 분포"라고 불렀고, t라는 기호를 사용하였다.^[10] 피셔 이후 이 분포는 고셋의 필명을 따 "스튜던트 t 분포"로 알려지게 되었다.

각주

↑ 김석우 (2007). 《기초통계학》. 학지사.
↑ Helmert, F. R. (1875). “Ueber die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler”. 《Zeitschrift für Mathematik und Physik》 (독일어) 20: 300–303. JFM 07.0113.01.
↑ Helmert, F. R. (1876). “Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen”. 《Zeitschrift für Mathematik und Physik》 (독일어) 21: 192–218. JFM 08.0113.02.
↑ Helmert, F. R. (1876). “Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit”. 《Astronomische Nachrichten》 (독일어) 88: 113–32. Bibcode:1876AN.....88..113H. doi:10.1002/asna.18760880802. JFM 08.0114.01.
↑ Sheynin, O. (1995). “Helmert’s work in the theory of errors”. 《Archive for History of Exact Sciences》 (독일어) 49: 73–104. doi:10.1007/BF00374700. ISSN 0003-9519.
↑ Lüroth, J (1876). “Vergleichung von zwei Werthen des wahrscheinlichen Fehlers”. 《Astronomische Nachrichten》 (독일어) 87 (14): 209–20. Bibcode:1876AN.....87..209L. doi:10.1002/asna.18760871402. JFM 07.0109.02.
↑ Pfanzagl, J.; O. Sheynin (1996). “A forerunner of the t-distribution (Studies in the history of probability and statistics XLIV)”. 《Biometrika》 (영어) 83 (4): 891–898. doi:10.1093/biomet/83.4.891. MR 1766040.
↑ Student (1908년 3월). “The probable error of a mean” (PDF). 《Biometrika》 (영어) 6 (1): 1–25. doi:10.1093/biomet/6.1.1.
↑ Mortimer, Robert G. (2005). 《Mathematics for Physical Chemistry》 3판. Academic Press. ISBN 0-12-508347-5. CS1 관리 - 추가 문구 (링크)
↑ Fisher, R. A. (1925). “Applications of "Student's" distribution” (PDF). 《Metron》 (영어) 5: 90–104. 2016년 3월 5일에 원본 문서 (PDF)에서 보존된 문서. 2015년 10월 18일에 확인함.

같이 보기

[1] 김석우 (2007). 《기초통계학》. 학지사.

[2] Helmert, F. R. (1875). “Ueber die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler”. 《Zeitschrift für Mathematik und Physik》 (독일어) 20: 300–303. JFM 07.0113.01.

[3] Helmert, F. R. (1876). “Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen”. 《Zeitschrift für Mathematik und Physik》 (독일어) 21: 192–218. JFM 08.0113.02.

[4] Helmert, F. R. (1876). “Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit”. 《Astronomische Nachrichten》 (독일어) 88: 113–32. Bibcode:1876AN.....88..113H. doi:10.1002/asna.18760880802. JFM 08.0114.01.

[5] Sheynin, O. (1995). “Helmert’s work in the theory of errors”. 《Archive for History of Exact Sciences》 (독일어) 49: 73–104. doi:10.1007/BF00374700. ISSN 0003-9519.

[6] Lüroth, J (1876). “Vergleichung von zwei Werthen des wahrscheinlichen Fehlers”. 《Astronomische Nachrichten》 (독일어) 87 (14): 209–20. Bibcode:1876AN.....87..209L. doi:10.1002/asna.18760871402. JFM 07.0109.02.

[7] Pfanzagl, J.; O. Sheynin (1996). “A forerunner of the t-distribution (Studies in the history of probability and statistics XLIV)”. 《Biometrika》 (영어) 83 (4): 891–898. doi:10.1093/biomet/83.4.891. MR 1766040.

[8] Student (1908년 3월). “The probable error of a mean” (PDF). 《Biometrika》 (영어) 6 (1): 1–25. doi:10.1093/biomet/6.1.1.

[9] Mortimer, Robert G. (2005). 《Mathematics for Physical Chemistry》 3판. Academic Press. ISBN 0-12-508347-5. CS1 관리 - 추가 문구 (링크)

[10] Fisher, R. A. (1925). “Applications of "Student's" distribution” (PDF). 《Metron》 (영어) 5: 90–104. 2016년 3월 5일에 원본 문서 (PDF)에서 보존된 문서. 2015년 10월 18일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

확률 밀도 함수

누적 분포 함수

매개변수	$\nu >0$ 자유도(실수값)
지지집합	$x\in (-\infty ;+\infty )\!$
확률 밀도	${\frac {\Gamma \left({\frac {\nu +1}{2}}\right)}{{\sqrt {\nu \pi }}\,\Gamma \left({\frac {\nu }{2}}\right)}}\left(1+{\frac {x^{2}}{\nu }}\right)^{-\left({\frac {\nu +1}{2}}\right)}\!$
누적 분포	${\begin{matrix}{\frac {1}{2}}+x\Gamma \left({\frac {\nu +1}{2}}\right)\cdot \\[0.5em]{\frac {\,_{2}F_{1}\left({\frac {1}{2}},{\frac {\nu +1}{2}};{\frac {3}{2}};-{\frac {x^{2}}{\nu }}\right)}{{\sqrt {\pi \nu }}\,\Gamma \left({\frac {\nu }{2}}\right)}}\end{matrix}}$ , 여기에서 $\,_{2}F_{1}$ 은 초기하함수
기댓값	$\nu >1$ 일 때 0, 나머지는 정의되지 않음
중앙값	0
최빈값	0
분산	${\frac {\nu }{\nu -2}}$ ( $\nu >2$ ), $\infty$ ( $1<\nu \leq 2$ ), 나머지는 정의되지 않음
비대칭도	$\nu >3$ 일 때 0
적률생성함수	정의되지 않음
특성함수	${\frac {K_{\nu /2}\left({\sqrt {\nu }}\|t\|)({\sqrt {\nu }}\|t\|\right)^{\nu /2}}{\Gamma (\nu /2)2^{\nu /2-1}}},\;\nu >0$ , $K_{\nu }(x)$ 는 베셀 함수