생존분석(生存分析, 영어: survival analysis)은 통계학의 한 분야로, 어떠한 현상이 발생하기까지에 걸리는 시간에 대해 분석하는 것이다. 예를 들면, 생명체의 관찰시작부터 사망에 이르는 시간을 분석하는 것이 있다.

생존분석에 쓰이는 함수들 편집

생존함수 편집

생존분석의 주된 관심사는 생존함수(survival function) S(t)이며, 다음과 같이 정의한다.

 

t는 시간변수, T는 사망에 이르는 시점으로 정의되며, "Pr"은 확률함수이다. 즉, 생존함수는 특정한 시간 t 보다 오래 생존할 확률을 뜻한다. 생존함수는 생물학 분야에서 쓰일 때 survivor function, survivorship function이라고도 하며, 공학 분야에서 쓰일 때 reliability function이라고도 한다. 후자의 경우에는 reliability function은 R(t)라고 쓴다.

일반적으로 이며  은 1보다 작을 수 있는데, 이러한 경우는 연구를 시작하자 마자 표본이 사망한 경우에 가능하다.

생존함수는 단조감소함수이다:   if  .

생존분포함수와 사건밀도 편집

사건분포함수(lifetime distribution function) F(t)는 다음과 같이 정의한다.

 

만약 F(t)가 미분가능하다면, 그 미분된 함수는 생존분포의 밀도 f(t)라 하고 다음과 같이 정의한다.

 

f(t)는 사건밀도라고도 하며, 이는 단위 시간당 사망 비율을 뜻한다.

앞에서 정의한 함수들로 생존함수를 다시 표현할 수 있다.

 

위험함수와 누적위험함수 편집

위험함수(hazard function) h(t)는 다음과 같이 정의한다.

 

누적위험함수(cumulative hazard function) H(t)는 다음과 같이 정의한다.

 

중도절단 편집

중도절단(censoring)은 생존 분석에서 손실된 데이터를 처리하는 방법이다. 이상적으로는 표본의 생일과 사망일을 통해 생존 기간을 파악하는 것이 좋지만, 그렇지 못한 경우에 중도절단을 사용한다.

만약 사망일이 특정 시기(연구가 끝난 시기) 이후라면 이를 right censoring이라고 한다. 만약 표본의 생존기간이 연구자가 설정한 특정 기간(연구 기간)에 미치지 못할 경우 이를 left-censored라고 표현한다.