재현 데이터

재현 데이터 또는 합성 데이터(Synthetic data)는 실제 사건에 의해 생성된 정보가 아닌 인위적으로 생성된 정보이다. 일반적으로 알고리즘을 사용하여 생성된 합성 데이터를 배포하여 수학적 모델을 검증하고 기계 학습 모델을 교육할 수 있다. 컴퓨터 시뮬레이션으로 생성된 데이터는 합성 데이터로 볼 수 있다. 여기에는 음악 신디사이저나 비행 시뮬레이터와 같은 물리적 모델링의 대부분의 응용 프로그램이 포함된다. 이러한 시스템의 출력은 실제와 유사하지만 완전히 알고리즘을 통해 생성된다.^[1]

합성 데이터는 데이터의 특정 측면의 기밀성을 손상시킬 수 있는 정보에 대한 필터로 다양한 분야에서 사용된다. 많은 민감한 애플리케이션에서는 이론적으로 데이터 세트가 존재하지만 일반 대중에게 공개할 수 없다.^[2] 합성 데이터는 허가나 보상 없이 실제 소비자 정보를 사용함으로써 발생하는 개인 정보 보호 문제를 회피한다.

유용성

합성 데이터는 원본 실제 데이터에서 찾을 수 없는 특정 요구나 특정 조건을 충족하기 위해 생성된다. 이는 이론적 가치를 기반으로 한 시뮬레이션부터 데이터베이스 프로세서 등에 이르기까지 많은 시스템을 설계할 때 유용할 수 있다. 이는 정보 처리 제한과 같은 예상치 못한 문제를 감지하고 해결하는 데 도움이 된다. 실제 데이터를 나타내기 위해 합성 데이터가 생성되는 경우가 많으며 기준선을 설정할 수 있다.^[3] 합성 데이터의 또 다른 이점은 실제 데이터의 개인 정보 보호와 기밀성을 보호하는 동시에 테스트 시스템에서도 사용할 수 있다는 것이다.

아래에 인용된 과학 기사의 초록에는 사기 탐지 시스템을 테스트하기 위한 합성 데이터를 생성하는 소프트웨어가 설명되어 있다. "이를 통해 우리는 사용자와 공격자를 위한 현실적인 행동 프로필을 생성할 수 있다. 데이터는 사기 탐지 시스템 자체를 훈련하는 데 사용되어 특정 환경에 필요한 시스템 적응을 생성한다."^[3] 국방 및 군사 분야에서 합성 데이터는 특히 고품질의 실제 데이터가 부족한 상황에서 복잡한 AI 시스템을 개발하고 개선하기 위한 잠재적으로 귀중한 도구로 간주된다.^[4]

같이 보기

각주

↑ “What is synthetic data? - Definition from WhatIs.com”. 《SearchCIO》 (영어). 2022년 9월 8일에 확인함.
↑ Nikolenko, Sergey I. (2021). 《Synthetic Data for Deep Learning》. Springer Optimization and Its Applications (영어) 174. doi:10.1007/978-3-030-75178-4. ISBN 978-3-030-75177-7. S2CID 202750227.
↑ ^가 ^나 Barse, E.L.; Kvarnström, H.; Jonsson, E. (2003). 《Synthesizing test data for fraud detection systems》. Proceedings of the 19th Annual Computer Security Applications Conference. IEEE. doi:10.1109/CSAC.2003.1254343.
↑ Deng, Harry (2023년 11월 30일). “Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer”. 《United Nations Institute for Disarmament Research》.

참고 문헌

Fienberg, Stephen E. (1994). “Conflicts between the needs for access to statistical information and demands for confidentiality”. 《Journal of Official Statistics》 10 (2): 115–132. 2017년 2월 14일에 원본 문서에서 보존된 문서. 2024년 4월 16일에 확인함.
Little, Roderick J.A. (1993). “Statistical Analysis of Masked Data”. 《Journal of Official Statistics》 9 (2): 407–426. 2018년 2월 19일에 원본 문서에서 보존된 문서. 2024년 4월 16일에 확인함.
Raghunathan, T.E.; Reiter, J.P.; Rubin, D.B. (2003). “Multiple Imputation for Statistical Disclosure Limitation” (PDF). 《Journal of Official Statistics》 19 (1): 1–16.
Reiter, Jerome P. (2004). “Simultaneous Use of Multiple Imputation for Missing Data and Disclosure Limitation” (PDF). 《Survey Methodology》 30: 235–242.

[1] “What is synthetic data? - Definition from WhatIs.com”. 《SearchCIO》 (영어). 2022년 9월 8일에 확인함.

[2] Nikolenko, Sergey I. (2021). 《Synthetic Data for Deep Learning》. Springer Optimization and Its Applications (영어) 174. doi:10.1007/978-3-030-75178-4. ISBN 978-3-030-75177-7. S2CID 202750227.

[Barse-3] 가 ^나 Barse, E.L.; Kvarnström, H.; Jonsson, E. (2003). 《Synthesizing test data for fraud detection systems》. Proceedings of the 19th Annual Computer Security Applications Conference. IEEE. doi:10.1109/CSAC.2003.1254343.

[4] Deng, Harry (2023년 11월 30일). “Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer”. 《United Nations Institute for Disarmament Research》.

[1]

[2]

[3]

[4]