통계학에서 허위 상관(영어: spurious correlation) 또는 허구적 상관은 둘 이상의 변수가 통계적으로 상관되어 있지만 인과관계가 없는 관계를 말한다. 허위 상관은 우연에 따라 발생할 수도 있고, 설명변수와 종속변수 모두에 영향을 미치는 제3의 혼재변수(confounding variable)의 존재 때문에 발생할 수도 있다.

혼재변수에 의한 허위상관 편집

 
두 변수 모두에 영향을 미치는 혼재변수

만약 두 변수에 공통적으로 영향을 미치는 제3의 변수가 있다면 두 변수가 상관되어 보일지라도 인과관계가 있다고 볼 수 없다.[1] 두 변수 X와 Y에 공통으로 영향을 미치는 제3의 변수 Z을 혼재변수라고 한다. 두 변수에 공통적으로 영향을 미치는 변수가 존재한다면 X와 Y 사이에 나타난 상관관계는 Z으로 인해 발생한 것이지 X로 인해 Y가 변화했다고 볼 수 없게 된다.

예를 들어, 아이스크림 판매량과 수영장 이용객 수는 양의 상관관계가 있는 것처럼 보일 수 있다. 그러나 두 변수 모두에 영향을 미치는 여름 기온이 높아졌기 때문에 아이스크림 판매량과 수영장 이용객 수가 모두 증가한 것이지, 아이스크림 판매량이 늘어났기 때문에 수영장 이용객 수가 늘어난 것은 아니다.

시계열 자료의 허구적 회귀 편집

 
아무런 관계가 없는 확률보행 과정 시계열과 산점도의 모양

시계열 자료불안정적인 경우 두 시계열 변수 사이에 아무런 관계가 없다고 하더라도 산점도에서 볼 때는 상관관계가 있는 것처럼 나타날 수 있다. 오른쪽 그림의 두 시계열은 서로 아무런 관련성 없이 AR(1) 확률보행 과정을 통해 생성되었으나 산점도를 보면 양의 상관관계가 있는 것처럼 보인다. 오른쪽 그림의 두 시계열은 다음과 같은 방법으로 생성되었다.

 

두 시계열이 서로 아무런 관련성이 없는데도 회귀 모형을 추정하면 유의미한 관계가 있는 것처럼 나타나는 것을 허구적 회귀(spurious regression)이라 한다.[2]:447-448 확률보행 과정을 따르는 시계열 또는 적분된 시계열의 수준을 분석하는 경우에는 두 시계열이 아무런 관계가 없음에도 불구하고 통계적으로 유의하다는 결론을 낼 확률이 상당히 높게 나타나는 문제가 발생한다.[3]

허구적 회귀 문제를 피하는 방법으로는 불안정한 시계열을 차분하여 안정적 시계열을 얻은 후 회귀 분석을 하거나 불안정한 시계열 사이에 공적분 관계가 존재하는지 조사하는 방법이 있다. 시계열을 d회 차분하여 안정적 시계열이 되는 d를 적분 차수라 하고  라 표기한다.  이고  이면 두 시계열의 선형 결합은 적분 차수가 1이 되는 게 일반적이지만,  이 되는 특별한 예외가 존재하는데 이 경우 두 시계열이 공적분되었다고 한다.[2]:454[4][5]

각주 편집

  1. Siegel, Andrew F. (2012). 《Practical Business Statistics》 6판. Burlington, MA: Academic Press. 309쪽. ISBN 978-0-12-385208-3. 
  2. Hill, R. Carter; Griffiths, William E.; Lim, Guay C. (2010). 《Principles of Econometrics》 [계량경제학] 3판. 시그마프레스. ISBN 978-89-5832-785-1. 
  3. Granger, C.W.J.; Newbold, P. (1974). “Spurious regressions in econometrics”. 《Journal of Econometrics》 2 (2): 111-120. doi:10.1016/0304-4076(74)90034-7. 
  4. “Time-series Econometrics: Cointegration and Autoregressive Conditional Heteroskedasticity” (PDF). 《Nobelprize.org》. The Royal Swedish Academy of Sciences. 2003. 2022년 4월 10일에 확인함. 
  5. Granger, Clive W.J. (1981). “Some properties of time series data and their use in econometric model specification”. 《Journal of Econometrics》 16 (1): 121-130. doi:10.1016/0304-4076(81)90079-8. 

같이 보기 편집

외부 링크 편집