기계가 읽을 수 있는 데이터
기계가 읽을 수 있는 데이터 또는 컴퓨터가 읽을 수 있는 데이터는 컴퓨터가 쉽게 처리할 수 있는 포맷으로 된 데이터 또는 메타데이터이다. 기계 가독형 데이터라고도 하며, 그 데이터는 구조화된 데이터여야만 한다.[1]
여기에는 두 가지 유형이 있다. 하나는 마이크로포맷, RDFa, HTML 등과 같이 기계는 물론 인간도 읽을 수 있도록 마크업된 데이터이다. 다른 하나는 RDF, XML, JSON 등과 같이 주로 기계가 처리하도록 의도된 데이터 파일 포맷이다.
XML은 인간과 기계가 모두 읽을 수 있도록 설계한 언어이고, XSLT는 XML 문서를 다른 XML 문서로 변환할 때 인간이 읽을 때 더 쉽도록 데이터 표현을 개선한 언어이다. 예를 들어 XSLT는 XML을 PDF로 자동 변환하는 데 사용할 수 있다. 기계가 읽을 수 있는 데이터를 사람이 읽을 수 있도록 자동 변환할 수는 있지만, 그 역은 항상 성립하는 건 아니다.
'기계로 읽을 수 있다'는 것이 '디지털 접근이 가능하다'는 것과 동의어는 아니다. 디지털 접근이 가능한 문서는 온라인상에 있어서 사람이 컴퓨터로 접근하기가 쉽지만, 만약 그 문서가 기계가 읽을 수있는 포맷으로 되어 있지 않다면 그 내용을 추출, 변환, 처리하는 게 무척 어렵다.[2] 예를 들어 어떤 문서가 스캔한 이미지 또는 사진 형태로 제공된다면, 사람은 읽을 수 있지만 기계가 읽기는 곤란하다.[3]
미국 관리예산실(OMB)은 정부성과결과선진화법(GPRAMA)을 집행하기 위하여 "기계가 읽을 수 있는"을 "웹 브라우저나 컴퓨터가 자동으로 읽을 수 있는 (영어가 아니라, 예를 들어 XML과 같은) 표준 컴퓨터 언어 포맷"이라고 했다. 전통적인 워드 프로세서 문서 파일이나 PDF 파일은 사람이 쉽게 읽을 수 있지만, 기계가 해석하기는 힘든 대표적인 예이다. XML, JSON 등은 기계가 읽는 것이 가능하고, 스프레드시트도 CSV로 헤더 컬럼을 내보내기했다면 가능하다. HTML은 구조화된 마크업 언어로서 문서의 각 부분에 이름표를 신중하게 붙이기 때문에, 컴퓨터가 문서의 요소를 모아서 목차, 개요, 참고 문헌 등을 조합하는 게 가능하다. 전통적인 워드 프로세서 문서나 다른 포맷을 기계가 읽을 수 있는 포맷으로 변환하는 것은 가능하지만, 그 문서는 강화된 구조적 요소를 포함해야 한다."[4]
같이 보기
편집각주
편집- ↑ “Machine readable”. 《opendatahandbook.org》. 2019년 7월 22일에 확인함.
- ↑ “A Primer on Machine Readability for Online Documents and Data”. 《Data.gov》. 2012년 9월 24일. 2021년 3월 20일에 원본 문서에서 보존된 문서. 2015년 2월 27일에 확인함.
- ↑ “기계가 읽을 수 있는”. 《opendatahandbook.org》. 2018년 4월 10일에 확인함.
- ↑ OMB Circular A-11, Part 6 보관됨 2013-12-07 - 웨이백 머신, Preparation and Submission of Strategic Plans, Annual Performance Plans, and Annual Program Performance Reports