기계가 읽을 수 있는 데이터

기계가 읽을 수 있는 데이터 또는 컴퓨터가 읽을 수 있는 데이터는 컴퓨터가 쉽게 처리할 수 있는 포맷으로 된 데이터 또는 메타데이터이다. 기계 가독형 데이터라고도 하며, 그 데이터는 구조화된 데이터여야만 한다.[1]

여기에는 두 가지 유형이 있다. 하나는 마이크로포맷, RDFa, HTML 등과 같이 기계는 물론 인간도 읽을 수 있도록 마크업된 데이터이다. 다른 하나는 RDF, XML, JSON 등과 같이 주로 기계가 처리하도록 의도된 데이터 파일 포맷이다.

XML은 인간과 기계가 모두 읽을 수 있도록 설계한 언어이고, XSLTXML 문서를 다른 XML 문서로 변환할 때 인간이 읽을 때 더 쉽도록 데이터 표현을 개선한 언어이다. 예를 들어 XSLT는 XML을 PDF로 자동 변환하는 데 사용할 수 있다. 기계가 읽을 수 있는 데이터를 사람이 읽을 수 있도록 자동 변환할 수는 있지만, 그 역은 항상 성립하는 건 아니다.

'기계로 읽을 수 있다'는 것이 '디지털 접근이 가능하다'는 것과 동의어는 아니다. 디지털 접근이 가능한 문서는 온라인상에 있어서 사람이 컴퓨터로 접근하기가 쉽지만, 만약 그 문서가 기계가 읽을 수있는 포맷으로 되어 있지 않다면 그 내용을 추출, 변환, 처리하는 게 무척 어렵다.[2] 예를 들어 어떤 문서가 스캔한 이미지 또는 사진 형태로 제공된다면, 사람은 읽을 수 있지만 기계가 읽기는 곤란하다.[3]

미국 관리예산실(OMB)은 정부성과결과선진화법(GPRAMA)을 집행하기 위하여 "기계가 읽을 수 있는"을 "웹 브라우저컴퓨터가 자동으로 읽을 수 있는 (영어가 아니라, 예를 들어 XML과 같은) 표준 컴퓨터 언어 포맷"이라고 했다. 전통적인 워드 프로세서 문서 파일이나 PDF 파일은 사람이 쉽게 읽을 수 있지만, 기계가 해석하기는 힘든 대표적인 예이다. XML, JSON 등은 기계가 읽는 것이 가능하고, 스프레드시트도 CSV로 헤더 컬럼을 내보내기했다면 가능하다. HTML은 구조화된 마크업 언어로서 문서의 각 부분에 이름표를 신중하게 붙이기 때문에, 컴퓨터가 문서의 요소를 모아서 목차, 개요, 참고 문헌 등을 조합하는 게 가능하다. 전통적인 워드 프로세서 문서나 다른 포맷을 기계가 읽을 수 있는 포맷으로 변환하는 것은 가능하지만, 그 문서는 강화된 구조적 요소를 포함해야 한다."[4]

같이 보기편집

각주편집

  1. “Machine readable”. 《opendatahandbook.org》. 2019년 7월 22일에 확인함. 
  2. “A Primer on Machine Readability for Online Documents and Data”. 《Data.gov》. 2012년 9월 24일. 2015년 2월 27일에 확인함. 
  3. “기계가 읽을 수 있는”. 《opendatahandbook.org》. 2018년 4월 10일에 확인함. 
  4. OMB Circular A-11, Part 6 Archived 2013-12-07 - 웨이백 머신., Preparation and Submission of Strategic Plans, Annual Performance Plans, and Annual Program Performance Reports