재현 데이터 또는 합성 데이터(Synthetic data)는 실제 사건에 의해 생성된 정보가 아닌 인위적으로 생성된 정보이다. 일반적으로 알고리즘을 사용하여 생성된 합성 데이터를 배포하여 수학적 모델을 검증하고 기계 학습 모델을 교육할 수 있다. 컴퓨터 시뮬레이션으로 생성된 데이터는 합성 데이터로 볼 수 있다. 여기에는 음악 신디사이저나 비행 시뮬레이터와 같은 물리적 모델링의 대부분의 응용 프로그램이 포함된다. 이러한 시스템의 출력은 실제와 유사하지만 완전히 알고리즘을 통해 생성된다.[1]

합성 데이터는 데이터의 특정 측면의 기밀성을 손상시킬 수 있는 정보에 대한 필터로 다양한 분야에서 사용된다. 많은 민감한 애플리케이션에서는 이론적으로 데이터 세트가 존재하지만 일반 대중에게 공개할 수 없다.[2] 합성 데이터는 허가나 보상 없이 실제 소비자 정보를 사용함으로써 발생하는 개인 정보 보호 문제를 회피한다.

유용성

편집

합성 데이터는 원본 실제 데이터에서 찾을 수 없는 특정 요구나 특정 조건을 충족하기 위해 생성된다. 이는 이론적 가치를 기반으로 한 시뮬레이션부터 데이터베이스 프로세서 등에 이르기까지 많은 시스템을 설계할 때 유용할 수 있다. 이는 정보 처리 제한과 같은 예상치 못한 문제를 감지하고 해결하는 데 도움이 된다. 실제 데이터를 나타내기 위해 합성 데이터가 생성되는 경우가 많으며 기준선을 설정할 수 있다.[3] 합성 데이터의 또 다른 이점은 실제 데이터의 개인 정보 보호와 기밀성을 보호하는 동시에 테스트 시스템에서도 사용할 수 있다는 것이다.

아래에 인용된 과학 기사의 초록에는 사기 탐지 시스템을 테스트하기 위한 합성 데이터를 생성하는 소프트웨어가 설명되어 있다. "이를 통해 우리는 사용자와 공격자를 위한 현실적인 행동 프로필을 생성할 수 있다. 데이터는 사기 탐지 시스템 자체를 훈련하는 데 사용되어 특정 환경에 필요한 시스템 적응을 생성한다."[3] 국방 및 군사 분야에서 합성 데이터는 특히 고품질의 실제 데이터가 부족한 상황에서 복잡한 AI 시스템을 개발하고 개선하기 위한 잠재적으로 귀중한 도구로 간주된다.[4]

같이 보기

편집

각주

편집
  1. “What is synthetic data? - Definition from WhatIs.com”. 《SearchCIO》 (영어). 2022년 9월 8일에 확인함. 
  2. Nikolenko, Sergey I. (2021). 《Synthetic Data for Deep Learning》. Springer Optimization and Its Applications (영어) 174. doi:10.1007/978-3-030-75178-4. ISBN 978-3-030-75177-7. S2CID 202750227. 
  3. Barse, E.L.; Kvarnström, H.; Jonsson, E. (2003). 《Synthesizing test data for fraud detection systems》. Proceedings of the 19th Annual Computer Security Applications Conference. IEEE. doi:10.1109/CSAC.2003.1254343. 
  4. Deng, Harry (2023년 11월 30일). “Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer”. 《United Nations Institute for Disarmament Research》. 

참고 문헌

편집