준식별자(準識別子, quasi-identifiers)는 고유 식별자가 아닌 정보를 말하지만 고유 식별자를 만들기 위해 다른 준식별자들과 결합할 수 있는 엔티티와 충분히 상호 관련되어 있다.[1]

그러므로 준식별자는 결합 시 개인 식별 정보가 된다. 이 프로세스는 재식별(re-identification)이라고 부른다. 한 예로, Latanya Sweeney는 사회적 성, 생일, 우편번호 중 하나만 가지고서는 어느 것도 고유하게 개인을 식별하지 못하더라도 이 셋을 결합하면 미국 내 개인의 87%를 식별하기에 충분하다는 것을 증명하였다.[2]

이 용어는 1986년 Tore Dalenius에 의해 도입되었다.[3] 그 이후로 준식별자는 공개된 데이터의 여러 공격의 기초가 되어왔다. 이를테면 Sweeney는 건강 기록을 공개 정보와 연결시켜 고유하게 식별되는 준식별자를 사용하는 메사추세츠주의 병원 기록의 당시 운영 위원을 식별했으며[4][5] Sweeney, Abu, Winn은 개인 게놈 프로젝트의 환자를 재식별하기 위해 유권자의 공개 기록을 사용하였다.[6] 게다가 Arvind Narayanan과 Vitaly Shmatikov는 넷플릭스가 공개한 비익명 데이터의 통계 조건을 식별하는 데 대해 준식별자에 관해 논하였다.[7]

각주 편집

  1. “Glossary of Statistical Terms: Quasi-identifier”. OECD. 2005년 11월 10일. 2013년 9월 29일에 확인함. 
  2. Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf
  3. Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329–336. http://www.jos.nu/Articles/abstract.asp?article=23329 Archived 2017년 8월 8일 - 웨이백 머신
  4. Anderson, Nate. Anonymized data really isn’t—and here’s why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/
  5. Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).
  6. Sweeney, Latanya, Akua Abu, and Julia Winn. "Identifying participants in the personal genome project by name." Available at SSRN 2257732 (2013).
  7. Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf