데이터 추출
데이터 추출(Data extraction)은 추가 데이터 처리 또는 데이터 저장(데이터 이관)을 위해 일반적으로 비정형 데이터 소스에서 데이터를 검색하는 행위 또는 프로세스이다. 따라서 중간 추출 시스템으로의 가져오기는 일반적으로 데이터 워크플로의 다른 단계로 내보내기 전에 데이터 변환과 메타데이터 추가로 이어진다.
일반적으로 데이터 추출이라는 용어는 측정 또는 기록 장치와 같은 기본 소스에서 (실험) 데이터를 컴퓨터로 처음 가져올 때 적용된다. 오늘날의 전자 장치에는 일반적으로 '미가공 데이터'를 개인용 컴퓨터로 스트리밍할 수 있는 전기 커넥터(예: USB)가 제공된다.
데이터 소스
편집일반적인 비정형 데이터 소스에는 웹 페이지, 이메일, 문서, PDF, 스캔한 텍스트, 메인프레임 보고서, 스풀 파일, 광고 항목 등이 포함되며 이는 영업 또는 마케팅 리드에 추가로 사용된다. 이러한 비정형 소스에서 데이터를 추출하는 것은 상당한 기술적 과제로 성장했다. 역사적으로 데이터 추출은 물리적 하드웨어 형식의 변경을 처리해야 했지만 현재 데이터 추출의 대부분은 이러한 비정형 데이터 소스와 다양한 소프트웨어 형식에서 데이터를 추출하는 작업을 다루고 있다. 이렇게 웹에서 데이터를 추출하는 과정이 점점 늘어나는 것을 "웹 데이터 추출" 또는 "웹 스크래핑"이라고 한다.