AI-Hub한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼이다.

AI-Hub(AI 허브)
사용 언어대한민국 한국어
소유자한국지능정보사회진흥원
웹사이트http://www.aihub.or.kr
현재 상태운영 중

2017년부터 진행한 인공지능 학습용 데이터 구축·확산 사업의 일환으로, AI 기술·서비스 개발에 필수적인 인공지능 학습용 데이터, 소프트웨어, 컴퓨팅자원 등을 원스톱으로 제공하는 것을 목적으로 한다.

서비스 편집

현재 AI-Hub에서는 인공지능 학습용 데이터 (6개 분야 – 한국어, 영상이미지, 헬스케어, 재난안전환경, 농축수산, 교통물류) 384종과 국내외 기관/기업에서 보유한 인공지능 학습용 데이터를 공개하고 있다.

지원하는 서비스는 AI 개발지원(AI 컴퓨팅 지원, AI 바우처 지원, AI S/W 지원, 오픈API 제공)과 AI 활성화를 위한 서비스(교육정보, 경진대회, 일자리 참여)이며, 최신 AI 모델 및 데이터 동향, 활용 및 우수사례, AI 웹진도 소개한다.

데이터 공개 현황 편집

2018년 1월, 인공지능 학습용 데이터 공개를 시작으로 매년 데이터를 공개하고 있으며, 2022년 7월 총 384종의 인공지능 학습용 데이터가 공개되었다.

인공지능 학습용 데이터 구축 현황('17~’21년)
구축년도 분야 구축내용 데이터셋명
’17년 한국어 1종 데이터 텍스트 150,000건 이상 일반상식
영상이미지 2종 데이터 이미지 30,548,000장 이상 한국인 안면 이미지(2017~2019년 구축), 관광 지식베이스
’18년 한국어 5종 데이터 텍스트 2,920,000건, 음성 1,000시간 이상 특허 지식베이스, 법률 지식베이스, 한국어 음성, 한국어 대화, 기계독해
영상이미지 3종 데이터 이미지 200,000장, 영상 21시간 이상 멀티모달, 한국 이미지(음식), 한국 이미지(차량)
헬스케어 1종 데이터 3,000건 이상 질병진단 이미지(안저)(2018~2019년 구축)
농축수산 1종 데이터 이미지 86,000장 이상 농업 지식베이스
’19년 한국어 2종 데이터 텍스트 1,600,000건, 이미지 6,000,000장 이상 한국어-영어 번역(병렬) 말뭉치, 한국어 글자체 이미지
영상이미지 4종 데이터 이미지 3,980,000장, 영상 100시간, 영상 200,000건 이상 한국형 사물 이미지, 멀티모달 영상, 사람동작 영상, 위해물품 엑스레이 이미지
헬스케어 1종 데이터 이미지 30,000장 이상 질병진단 이미지(유방암)
재난안전환경 1종 데이터 영상 700시간 이상 이상행동 CCTV 영상
교통물류 1종 데이터 영상 670,000건 이상 인도(人道) 보행 영상
’20년 한국어 42종 데이터 텍스트 67,658,816건, 음성 481,400,000 시간, 이미지 14,078,816장 이상 문서요약 텍스트, 수어 영상, 시각정보 기반 질의응답, 전문분야 한영 말뭉치, 한국인 대화 음성, 감성 대화 말뭉치, 자유대화 음성(일반남녀), 자유대화 음성(노인남녀), 자유대화 음성(소아, 유아), 한국인 외래어 발화, 명령어 음성(일반남녀), 명령어 음성(노인남녀), 명령어 음성(소아, 유아), 차량 내 대화 및 명령어 음성, 한국어 강의 음성, 회의 음성, 고객 응대 음성, 상담 음성, 한국어 방언 발화(강원도), 한국어 방언 발화(경상도), 한국어 방언 발화(전라도), 한국어 방언 발화(제주도), 한국어 방언 발화(충청도), 논문자료 요약, 도서자료 요약, 한국어 대화 요약, 도서자료 기계독해, 민원(콜센터) 질의-응답, 전문분야 말뭉치, 한국어 SNS, 한국어-영어 번역 말뭉치(기술과학), 한국어-영어 번역 말뭉치(사회과학), 한국어-중국어 번역 말뭉치(기술과학), 한국어-중국어 번역 말뭉치(사회과학), 한국어-일본어 번역 말뭉치, 야외 실제 촬영 한글 이미지, 다양한 형태의 한글 문자 OCR, 공공행정문서 OCR, 소상공인 고객 주문 질의-응답 텍스트, 생활 및 거주환경 기반 VQA, 고서 한자 인식 OCR, 수학분야 학습자 역량 측정 데이터
영상이미지 29종 데이터 텍스트 4,000,000건, 음성 110시간, 이미지 28,639,039장, 비디오 3,865,170시간 이상 AR/VR 활용 플렌옵틱 카메라 이미지, K-Fashion 이미지, K-pop 안무 영상, 고해상도 Lightfield 카메라 이미지, 대용량 동영상 콘텐츠, 딥페이크 변조 영상, 랜드마크 이미지, 반려동물 구분을 위한 동물 영상, 비디오 요약 영상, 사람 동작 영상(2020), 상표 이미지 및 텍스트, 상품 이미지, 스포츠 사람 동작 영상(골프), 스포츠 사람 동작 영상(농구), 스포츠 사람 동작 영상(축구), 신체 말단 움직임 영상, 실내 라이다 및 카메라 동기화 영상, 안내 로봇 인터렉션 멀티모달, 영상이해(맥락)기술을 위한 방송 영상, 영유아 교육 영상콘텐츠 방송, 위성영상 객체판독, 음식 분류 및 양 인식 이미지, 의류 가상착용 3D 이미지, 장면인식‧인물인식을 위한 방송 영상, 초해상화(Super Resolution) 이미지, 패션 상품 및 착용 이미지, 한국인 감정인식을 위한 복합 영상, 한국인 재식별 이미지, 한국인 헤어스타일 이미지
헬스케어 33종 데이터 음성 2,736,000시간, 이미지 2,013,235,558장, 비디오 6,387,776시간, 센서 4,382,000건 이상 사람 인체/자세 3D, 질병진단(부비동, 유방조직), 피트니스 자세 이미지, 치매진단 뇌파영상, 구강악 2D·3D 이미지, 위암 진단 의료 영상, 대장암 진단 의료 영상, 신장암 진단 의료 영상, 전립선암 진단 의료 영상, 간암 진단 의료 영상, 담낭암 진단 의료 영상, 췌장암 진단 의료 영상, 폐암 진단 의료 영상, 갑상선암 진단 의료 영상, 유방암 진단 의료 영상, 뇌혈관 질환 진단 의료 영상, 치매 진단 의료 영상, 인지기능 장애 진단 음성/대화, 수면질 평가 및 수면장애 진단 이미지, 피부 질환 진단 의료 이미지, 구강 질환 진단 의료 영상, 치과 질환 진단 의료 영상, 신경계 질환 의료 영상, 재활 운동 센서 모션 이미지, 건강관리를 위한 음식 이미지, 치매 고위험군 웨어러블 라이프로그, 폐암 예후 예측용 영상, 열화상 체온정보, 모발이식 및 두피확대 이미지, 비대면 진료를 위한 의료진 및 환자 음성, 자궁 경부암·자궁 경부 상피 내종양 의료 영상, 한국인 지방 및 근육량, 유형별 두피 이미지
재난안전환경 31종 데이터 텍스트 5,104,900건, 음성 5,040,000시간, 이미지 22,014,592장, 비디오 4,450,000시간, 센서 2,344,900건 이상 위급상황 음성/음향, 교통문제 해결을 위한 CCTV 교통 영상(고속도로), 교통문제 해결을 위한 CCTV 교통 영상(시내도로), 졸음운전 예방을 위한 운전자 상태 정보 영상, 자동차 차종/연식/번호판 인식용 영상, 활주로 내 이상물체 감지 객체 이미지, 공사현장 안전장비 인식 이미지, 화재 발생 예측 영상, 지하철 역사 내 CCTV 이상행동 영상, CCTV 추적 영상, 1인칭 시점 보행영상, 어린이 보호구역 내 도로보행 위험행동 영상, 시니어 이상행동 영상, 건물 균열 탐지 이미지, 노후 시설물 이미지, 안면인식 영상, Liveness Detection을 위한 영상, 기계시설물 고장 예지 센서, 해상객체 이미지, 전력 설비 에너지 패턴 및 고장 분석 센서, 토지 피복지도 항공위성 이미지(수도권), 토지 피복지도 항공위성 이미지(강원 및 충청), 산림수종 이미지(수도권), 산림수종 이미지(강원 및 충청), 수질측정 및 오염원, 산업 폐기물 이미지, 생활 폐기물 이미지, 상하수도 데이터(상수관로 누수 감지), 상하수도 데이터(하수관로 내부 이미지), 열화상 카메라 이미지, 해양 침적 쓰레기 이미지
농축수산 14종 데이터 텍스트 661,000건, 이미지 9,800,733장, 비디오 371시간 이상 드론 농경작지 촬영 영상, 농산물 품질(QC) 이미지, 시설 작물 개체 이미지, 주요 농작물 생육 이미지, 시설 작물 질병 진단 이미지, 노지 작물 해충 진단 이미지, 노지 작물 질병 진단 이미지, 과수화상병 촬영 이미지, 축산물 품질(QC) 이미지, 가축 행동 영상, 어류 행동 영상, 어류 개체 촬영 영상, 제주 월동작물 자동탐지 드론 영상, 동의보감 약초 이미지
교통물류 22종 데이터 이미지 22,798,910장, 비디오 726,000시간, 센서 450,000건 이상 자율주행드론 비행 영상, 도로환경 파노라마 이미지, 도로주행영상, 차선/횡단보도 인지 영상(수도권), 차선/횡단보도 인지 영상(수도권 외), 신호등/도로표지판 인지 영상(수도권), 신호등/도로표지판 인지 영상(수도권 외), 주차장애물 인지 영상, 주차 관련 이동체 인지 영상, 차량 및 사람 인지 영상, 주행 중 건물 촬영 이미지, 도로장애물/표면 인지 영상(수도권), 도로장애물/표면 인지 영상(수도권 외), 자율주행버스 개발 노선 주행 이미지, 드론 이동체 인지 영상(도로 고정), 드론 이동체 인지 영상(전방 고정), 항만 구조물 영상, 로봇 관점 주행 영상, 도심 혼잡 버드아이뷰 이미지, 베리어프리존(장애물 없는 생활공간) 주행영상, 특수환경 자율주행 3D 이미지, 버스 승객 승하차 영상
’21년 한국어 44종 데이터 텍스트 3,091,085,140건, 음성 9,758,901시간, 비디오 48,287시간 이상 방송 콘텐츠 대화체 음성인식 데이터, 주요 영역별 회의 음성인식 데이터, 화자 인식용 음성 데이터, 다화자 가창 데이터, 한영 혼합 인식 데이터, 한-영 및 한-중 음성발화 데이터, 저음질 전화망 음성인식 데이터, 소음 환경 음성인식 데이터, 립리딩(입모양) 음성인식 데이터, 음성 및 모션 합성 데이터,  한국어 아동 음성 데이터, 학습용 아동 영어 음성 데이터, 구음장애 음성인식 데이터, 다화자 음성합성 데이터, 감성 및 발화 스타일별 음성합성 데이터, 행정 문서 대상 기계독해 데이터, 뉴스 기사 기계독해 데이터, 비디오 네러티브 질의응답 데이터, 법률/규정 (판결서, 약관 등) 텍스트 분석 데이터, 주제별 텍스트 일상 대화 데이터, 용도별 목적대화 데이터, 요약문 및 레포트 생성 데이터, 방송 콘텐츠 대본 요약 데이터, 에세이 글 평가 데이터, 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터, 기술과학 분야 한-영 번역 병렬 말뭉치 데이터, 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터, 다국어 구어체 번역 병렬 말뭉치 데이터, 대규모 구매도서 기반 한국어 말뭉치 데이터, 대규모 웹데이터 기반 한국어 말뭉치 데이터, 온라인 구어체 말뭉치 데이터, 특허 분야 자동분류 데이터, 인공지능 학습을 위한 외국인 한국어 발화 음성 데이터, 옛한글 문자인식(OCR) 인공지능 학습용 데이터, 학생 청소년 핵심역량분석 교육 데이터, 민원 업무 자동화 인공지능 언어 데이터, 텍스트 윤리검증 데이터, 산업정보 연계 주요국 특허 영-한 데이터, 전문분야 영-한·중-한 번역 말뭉치 (식품) , 방송 콘텐츠 한-중, 한-일 번역 병렬 말뭉치 데이터, 문학작품 낭송․낭독 음성 데이터(시, 소설, 희곡, 시나리오) , 숫자가 포함된 패턴 발화 데이터, 다음색 가이드보컬 데이터, 복지 분야 콜센터 상담데이터
영상이미지 39종 데이터 텍스트 10,545,770건, 이미지 226,128,915장, 비디오 487,131시간 이상 안구 움직임 영상 데이터, 마스크 착용 한국인 안면 이미지 데이터, 장애물에 가려진 물체 형상 추정 데이터, 한국 도시 3차원 영상 데이터, Small object detection을 위한 이미지 데이터, 수식, 도형, 낙서기호 OCR 데이터, 눈, 비, 안개 등의 다양한 외부 환경 노이즈 제거를 위한 영상 데이터,Inpainting 자동화를 위한 영상 데이터, 언어 기반 이미지 편집 데이터, 동영상 콘텐츠 하이라이트 편집 및 설명(요약) 데이터, 스포츠 영상 데이터 (야구), 스포츠 영상 데이터 (배구), 가족 관계가 알려진 얼굴 이미지 데이터, 실생활 투명 객체 3D 데이터, 대용량 3D 객체 데이터, 실내 공간 3D 종합 데이터, 스케치, 아이콘 인식용 다양한 추상 이미지 데이터, 페르소나 기반의 가상 인물 몽타주 데이터, 스포츠 영상 데이터 (격투 스포츠), 다양한 장르의 춤사위 동작 데이터, 대용량 손글씨 OCR 데이터, 고서 한자 인식 OCR 데이터, 금융업 특화 문서 OCR 데이터, 의약품, 화장품 패키징 OCR 데이터, 일상생활 영상 데이터, Ego-Vision 관점의 2D, 3D 손 움직임 데이터, 교통 수(手)신호 패턴 영상 데이터, 반려동물 질병 진단을 위한 영상 데이터 (복부), 반려동물 질병 진단을 위한 영상 데이터 (흉부), 반려동물 질병 진단을 위한 영상 데이터 (근골격계), 종합 민원 이미지 AI데이터, 한국인 전신 형상 및 치수 측정 데이터(성인), 반려동물 피부 질환 데이터, 반려동물 안구 질환 데이터, 유동 인구 분석을 위한 CCTV 영상 데이터, 공룡발자국 화석 이미지 데이터, 고양시 태권도 데이터, 해무/안개 CCTV 데이터, 애니메이션 속 캐릭터 얼굴 랜드마크 데이터
헬스케어 32종 데이터 텍스트 183,110건, 음성 40,302시간, 이미지 8,931,114장, 비디오 51,991시간, 센서 762,000건 이상 6개암 최소침습수술 AI학습데이터, 고해상도 분자조직학 이미지 데이터, 근골격계 질환자 운동훈련 동영상 데이터, 뇌전이암 진단 및 치료 영상 데이터, 단계별 욕창 환부 이미지 데이터, 당뇨병 및 합병증 추적관찰 임상 데이터, 부산지역 노인 및 주요 퇴행성 뇌질환자의 음성정보, 소아 흉부 이미지 데이터, 소아청소년 피부질환 이미지 데이터, 소화기조직 병리검사 이미지 데이터, 수면 애 진단을 위한 적외선 수면 동영상 데이터, 순음청력검사결과 데이터, 심장질환 진단을 위한 심전도 데이터, 심장질환 진단을 위한 심초음파 데이터, 약품식별 인공지능 개발을 위한 경구약제 이미지 데이터, 영유아 고관절 데이터, 영유아 행동 영상 데이터, 음성질환 판별을 위한 음성 데이터, 의료 분야 음성 데이터, 인체 내 식립된 임플란트 영상 데이터, 임신중 태아 초음파 영상 데이터, 정신 강진단 및 예측을 위한 멀티모달 데이터, 족부질환 및 재활경과 판단을 위한 보행 동영상 데이터, 체액 내 세포검사 이미지 데이터, 측면두부규격방사선사진(cephalography) 데이터, 캡슐내시경 AI데이터, 통증치료 및 경과관찰을 위한 멀티모달리티 데이터, 퇴행성 척추질환 진단 및 치료를 위한 멀티모달리티 데이터, 파킨슨병 진단을 위한 멀티모달 데이터, 폐경 후 여성 및 60대  의 남성의 골밀도(BMD) 데이터, 핵의학영상(PET) 이미지 데이터, 후두질환 판독을 위한 후두 내시경 데이터
재난안전환경 27종 데이터 텍스트 200,000건, 음성 118,674시간, 이미지 56,761,587장. 비디오 200,981시간 이상 자연재해로 인한 생활시설 안전 데이터, 태풍 및 홍수로 인한 피해 및 위험 데이터, 재난 안전 정보 전달을 위한 수어영상 데이터, 다중밀집시설 및 주거시설 화재 안전 데이터, 주거 및 공용 공간 내 이상행동 영상 데이터, 산업시설 열화상 CCTV 데이터, 과적차량 도로 위험 데이터, 보행 안전을 위한 도로 시설물 데이터, 개인형 이동장치 안전 데이터, 물류창고 내 작업 안전 데이터, 고소작업 현장 실시간 영상 데이터, 해안 오염물질 데이터, 토지 피복지도 항공위성 이미지 데이터(경상) , 토지 피복지도 항공위성 이미지 데이터(전라) , 토지 피복지도 항공위성 이미지 데이터(제주도) , 산림 수종 이미지 데이터(경상) , 산림 수종 이미지 데이터(전라) , 산림 수종 이미지 데이터(제주) , 도시 소리 데이터, 야간 사건 사고 대응을 위한 IR 열화상 데이터셋, 폐플라스틱 이미지 데이터, 항공영상 도시건물 변화탐지 데이터, 기상 정보 데이터, 공원 주요시설 및 불법행위 감시 CCTV 영상 데이터, 자연 및 인공적 발생 非언어적 소리 데이터, 야생동물 활동 영상 데이터, 서울시 노후 주택 균열 데이터
농축수산 26종 데이터 텍스트 415,800건, 오디오 8,260시간, 이미지 27,324,416장 이상 지능형 스마트팜 통합 데이터(토마토), 지능형 스마트팜 통합 데이터(파프리카), 지능형 수직농장 통합 데이터(딸기), 지능형 수직농장 통합 데이터(엽채류), 정밀농업 노지작물 통합 데이터, 정밀농업 농기계 잡초 인식 데이터, 정밀농업 농기계 자율주행 데이터, 식물 병 유발 통합 데이터, 작물 디지털 피노타이핑 데이터, 식의약용 자생식물 분석 데이터, 지능형 스마트축사 통합 데이터(한우), 지능형 스마트축사 통합 데이터(양돈), 지능형 스마트양식장 통합 데이터(뱀장어), 지능형 스마트양식장 통합 데이터(굴), 지능형 스마트양식장 통합 데이터(가리비), 스마트양식장 통합 데이터(흰다리새우), 제주 주요작물 자동탐지 데이터, 전북 장수 사과 당도 품질 데이터, 한우 신체충실지수 등급 데이터, 지능형 스마트 축사 데이터(육계, 산란계), 지능형 스마트 축사 (젖소) 데이터, 고품질 과수작물 통합 데이터, 지능형 스마트팜 통합 데이터(버섯), 지능형 곤충 사육 데이터, 동의보감 독초판별 이미지 데이터, 수산양식업 먹이생물 AI 학습 데이터
교통물류 23종 데이터 텍스트 360,000건, 이미지 13,009,990장, 비디오 22,096.2시간 이상 강건한(Robust) 융합 센서 객체 인식 자율주행 데이터, 다양한 기상 상황 주행 데이터, 특이 도로 환경 주행 데이터, 도로 로드마크 인식을 위한 주행 영상 데이터, 주차 공간 탐색을 위한 차량 관점 복합 데이터, 운전자 및 탑승자 상태 및 이상행동 모니터링, 차량 내 인터페이스 개선을 위한 멀티모달 데이터, 주행 차량 관점의 특수 차량 형상 데이터, 차량 외관 영상 데이터, 드론 자율항법을 위한 영상 및 센서 데이터(SLAM DATA), 배송용 로봇 시각 환경 인식을 위한 주행 영상 데이터, 교차로 신호 체계, 보행자, 차량 이동 복합 데이터, 교통사고 영상 데이터, 커넥티드 항만을 위한 물류 인프라 데이터, 차로 위반 영상 데이터, 장애인 길안내 자율주행 휠체어 융합센서 데이터, 지자체 도로 정비 인공지능 학습용 데이터, 멀티센서 동선 추적 데이터, 차량 파손 이미지 데이터, 부품 품질 검사 영상 데이터(선박·해양플랜트), 부품 품질 검사 영상 데이터(자동차), 융합센서 다중객체 추적 및 예측데이터, 이륜자동차 안전 위험 시설물 데이터
’22년
한국어 61종 방송콘텐츠 대화체 음성인식 데이터, 방송콘텐츠 한국어-영어 통번역 음성 데이터, 방송콘텐츠 한국어-영어 번역 말뭉치, 방송콘텐츠 한국어-유럽어 번역 말뭉치, 방송콘텐츠 한국어-유럽어 번역 말뭉치, 방송콘텐츠 한국어-아시아어 통·번역 음성 데이터, 방송콘텐츠 한국어-아시아어 번역 말뭉치, 페르소나 대화, 지식검색 대화, 공감형 대화, 일반상식 문장 교정 데이터, 일반상식 문장 생성 데이터, 일반상식 문장 생성 평가 데이터, 발화유형(문어/구어/채팅)별 기계번역 병렬 말뭉치, 자연어 분석 후처리용 과교정 검증 데이터, 기계번역 품질 검증 데이터, 한국어-다국어(영어 제외) 번역 말뭉치(기술과학), 한국어-다국어 번역 말뭉치(기초과학), 한국어-다국어 번역 말뭉치 (인문학), 공공분야 고객응대 데이터, 민간분야 고객 상담 데이터, 전문분야 심층인터뷰 데이터, 채용면접 인터뷰 데이터, 주소 음성 데이터, 다국어 통·번역 낭독체 데이터, 연령대별 특징적 발화(은어·속어 등) 음성 데이터, 감성 및 발화스타일 동시 고려 음성합성 데이터, 감정이 태깅된 자유대화 (성인), 감정이 태깅된 자유대화 (청소년), 명령어 인식을 위한 소음 환경 데이터, 극한 소음 음성인식 데이터, 극한 소음 환경 소리 데이터, 한국어 대학 강의 데이터, 뉴스 대본 및 앵커 음성 데이터, 중·노년층 한국어 방언 데이터(강원도,경상도), 중·노년층 한국어 방언 데이터 (충청도, 전라도, 제주도), 음악 유사성 판별 데이터, 한국어 멀티세션 대화, 한국어 지식기반 관계 데이터, 인터페이스(자판/음성)별 고빈도 오류 교정 데이터, 한국인의 주제적응형 영어말하기 평가데이터, 다양한 문화콘텐츠 스토리 데이터, 낚시성 기사 탐지 데이터, 속성기반 감정분석 데이터, 자연어 기반 질의(NL2SQL) 검색 생성 데이터, 표 정보 질의응답 데이터, 숫자연산 기계독해 데이터, 기술과학 문서 기계독해 데이터, 기술과학 요약 데이터, 외부 지식 기반 멀티모달 질의응답 데이터, 추상 요약 사실성 검증 데이터, 시간 표현 탐지 데이터, 문장 유형(추론, 예측 등) 판단 데이터, 문화, 게임 콘텐츠 분야 용어 말뭉치, 바이오·의료 논문 간 연계분석 데이터, 어린이 음성 맥락 인식률 향상을 위한 방송 음성 및 자연어 처리 학습용 데이터, 고령인구 우울증 데이터, 생활환경소음 AI학습용 데이터 및 민원 관리 서비스 구축 사업, 하천 및 항만 수중생활 폐기물 영상데이터, SNS 데이터 고도화, AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축
영상이미지 63종 픽셀 단위 장면 인지 멀티모달 데이터, 비디오 전환 경계 추론 데이터, 비디오 장면 설명문 생성 데이터, 유사성 기반 추론 데이터, 인과 관계 기반 추론 데이터, 시각 상식 기반 추론 데이터, 카테고리 기반 추론 데이터, 의류 통합 데이터(착용 이미지, 치수 및 원단 정보), 패션 액세서리 착용 데이터, 연도별 패션 선호도 파악 및 추천 데이터, 쉐이프리스 의류 및 포즈 데이터, 의류 디자인 패턴 데이터, 객체 인식용 한국형 비전 데이터, 객체 분할용 한국형 비전 데이터, 이미지 설명문 추출 및 생성용 한국형 비전 데이터, 객체 간 관계성 인지용 한국형 비전 데이터, 행동 분류 및 상호작용 인식용 한국형 비전 데이터, 동일 객체 인식 오류 방지 데이터, 비동일 객체 인식 오류 방지 데이터, 개체 레벨 인식(Instance level recognition, ILR) 데이터, OCR 데이터(고서한자), OCR 데이터(옛한글), OCR 데이터(공공), 객체 폐색 데이터, 훼손 및 블러링 데이터, 저조도 환경 데이터, 화질 변환 영상 데이터, 소방대원 행동모션 3D 객체 모델링 데이터, 소방시설·장비 3D 스캐닝 데이터, 화재영상 3D 객체 데이터 생성, 산림 수종 3D 객체 스캐닝·모델링 데이터, 도로교통시설 3D 스캐닝 데이터, 하천시설 3D 스캐닝 데이터, 3D 사람 간 상호작용 데이터(2인), 3D 사람 간 상호작용 데이터(3인 이상), 다중 객체 3차원 표현 데이터(실내), 다중 객체 3차원 표현 데이터(실외), 규칙 기반 집단행동 인식 비디오 데이터, 규칙 기반 상황 인지 및 행동 예측 이미지 데이터, 디스플레이 중심 안구 움직임 영상 데이터, 3D 에셋-사물 모델링 이미지 쌍 데이터, 3D 에셋-스케치 쌍 데이터, 가구·가전·사무기기 사용 모션 캡처 데이터, 대화·발표 동작 모션캡처 데이터, 가상공간 환경음 매칭 데이터, 한국 전통 수묵화 화풍별 제작 데이터, 한국인 신체 3D 스캐닝 데이터, 한국인 얼굴 3D 스캐닝 데이터, 건설 현장 장비 모니터링 및 생산성 측정 데이터, 실내(편의점, 매장) 구매행동 데이터, 실내(편의점, 매장) 사람 이상행동 데이터, 건축 도면 데이터, 심볼(로고) 생성 데이터, 정상 및 병적보행 융합데이터, 개인 특정을 위한 자필과 모사 필기체 데이터, AI 기반 아동 미술심리 진단을 위한 그림 데이터 구축, 일상생활 작업 및 명령 수행 데이터(공간), 일상생활 작업 및 명령 수행 데이터(물체), 일상생활 작업 및 명령 수행 데이터(임무수행 명령어), 한국인 얼굴 합성을 위한 발화 모습 이미지, 이안류 CCTV 데이터, 비전영역, 음식이미지 및 정보소개 텍스트 데이터, 한국인 재식별 이미지 데이터셋 고도화 구축
헬스케어 35종 난청 검사 음성 데이터, 고막 내시경 검사 이미지 데이터, 청성유발반응검사 데이터, 전정기능검사 데이터, 뇌질환 융합데이터, 파킨슨병 및 관련 질환 진단 음성데이터, 치과 내시경 이미지 데이터, 폐암 예후 예측 융합 데이터, 악성 림프종 예후 예측 융합 데이터, 암환자 방사선 치료 데이터, 흉부 청진음 데이터, 인공호흡기 작동 데이터, 난임시술 배아이미지 데이터, 태아 심박동 모니터링 데이터, 신생아 카테터 엑스레이 데이터, 소아 복부 엑스레이 이미지 데이터, 소아 뇌파 검사 데이터, 소아청소년 정신질환 진단 안저 이미지 데이터, 만성콩팥병 및 합병증 추적관찰 임상의료 데이터, 만성질환 관련 임상 및 생활습관 데이터, 근력운동 처방 데이터, 피부질환 병리검사 이미지 데이터, 화상 이미지 및 임상 데이터, 주요질환 이미지 합성데이터(X-ray), 주요질환 이미지 합성데이터(CT), 주요질환 이미지 합성데이터(MRI), 자가 수면 검사 데이터, 자가 폐기능 검사 데이터, 응급실 임상 대화 데이터, 구음장애인 명령어 데이터, 제조업 노동자 근골격계 부담요인 예방을 위한 인공지능 데이터 구축, 구강 이미지 데이터, 소아청소년 심리검사 및 뇌영상 데이터, 수술 단계별 영상 데이터, 당뇨관리 앱을 통한 음식 이미지 활용 및 환류
교통물류 42종 승용 자율주행차 주간 도심도로 데이터, 승용 자율주행차 야간 도심도로 데이터, 승용 자율주행차 주간 자동차 전용도로 데이터, 승용 자율주행차 야간 자동차 전용도로 데이터, 승용 자율주행차 악천후 데이터, 상용 자율주행차 주간 도심도로 데이터, 상용 자율주행차 야간 도심도로 데이터, 상용 자율주행차 주간 자동차 전용도로 데이터, 상용 자율주행차 야간 자동차 전용도로 데이터, 상용 자율주행차 악천후 데이터, 고정밀데이터 수집차량 주간 도심도로 데이터, 고정밀데이터 수집차량 야간 도심도로 데이터, 고정밀데이터 수집차량 주간 자동차 전용도로 데이터, 고정밀데이터 수집차량 야간 자동차 전용도로 데이터, 고정밀데이터 수집차량 악천후 데이터, 고신뢰성 물리 기반 가상환경을 이용한 자율주행차 데이터, 자율주행 가상센서 시뮬레이션 데이터, 4D 이미징 레이다 센서 기반의 동적 객체 인지 데이터, 4D 이미징 레이다 센서 기반의 주행환경 객체인지 데이터, 저해상도 라이다의 해상도 개선을 위한 Point-cloud Super-resolution 데이터, 악천후 환경에서의 라이다 점 군 데이터 개선을 위한 Denoising 데이터, 노변기지국 송·수신 V2X 메시지 데이터, 지능형 인프라 센서 기반 동적객체 인지 데이터, 자율주행차 정적객체정보 인지 및 갱신 자동화 데이터, 자율주행차의 다양한 주행환경에서의 신호등 신호정보 인지 영상 데이터, 실내 자율주차용 데이터, 대형시설 실내·인접 자율 배송 데이터, 차량 관제 서비스 고도화를 위한 모빌리티 데이터, 자율주행 고장진단 데이터, CCTV 기반 차량정보 및 교통정보 계측 데이터, 교통수단 판별 데이터, 자전거도로 주행 데이터, AI 기반 신호 최적화를 위한 데이터, 부산광역시 항만도로 컨테이너 차량에 의한 노면 파손 이미지 데이터, 지자체 도로부속시설물 파손 데이터, 연약 지반 GPR 탐사 데이터, 3D 지표투과레이더 탐사 데이터, 실내 측위를 위한 융합데이터셋 구축, 지능형 정밀 터널 및 지하차도 데이터, 국도 CCTV 영상을 통한 비정상주행 판별 데이터, 특수환경 자율주행 3D 데이터 고도화, 토지피복지도 항공위성 이미지
재난안전환경 27종 Face parsing 데이터, 안면 인식 에이징(aging) 이미지 데이터, IR 실제 환경 안면 검출 및 인식 데이터, 식생 탄소 포집량 식별 데이터, 실내외 군중 특성 데이터, 멀티 영상 동일 상황 및 객체 식별 데이터, 철도 선로 상태 인식 데이터, 전차선 애자 상태 인식 데이터, 건설 현장 위험 상태 판단 데이터, 비식별화된 교통법규 위반 상황 데이터, X-ray 다중 객체 인식 데이터, 재활용품 분류 및 선별 데이터, 온실가스 지중저장 적지 탐사 데이터, 태양광 발전 현황 및 적지 분석 데이터, 상수원-취수원 통합 수질 및 녹조 데이터, 지하수 수량·수질 데이터, 도시 수목 3D 생육 데이터, 전력신사업을 위한 전라남도 지역 전력소비패턴 데이터, 빌딩풍 재해위험도 분석 데이터, 건설 모래 품질관리 데이터, 지역안전재난(산불) 방재의 고도화를 위한 대규모 인공지능 데이터베이스 구축, 전북 새만금 방조제 유입 하천 쓰레기 데이터, 수위 측정 데이터, 아산시 하천부지 점유현황 데이터, 해양침적쓰레기 이미지 데이터 고도화, 생활폐기물 데이터 활용·환류, 국립공원 변화탐지 모니터링 플랫폼 구축
농축수산 30종 지능형 양봉 데이터, 노지작물(배추 등) 작황 데이터, 벼 생육이상 인식 데이터, 지능형 스마트양식장(송어, 산천어) 데이터, 지능형 스마트종자배양장(넙치,돌돔) 데이터, 갑각류 종자생산 데이터, 해조류 종자생산(김) 데이터, 패류 종자생산(전복) 데이터,

작물 종자 품종 표현형 데이터, 디지털 트랩 포집 해충 데이터, 지능형 곤충 스마트팜(누에, 쌍별귀뚜라미) 데이터, 지능형 스마트팜(오이, 딸기) 데이터, 식물 기능성 예측 유전체 데이터, 전통식품 발효 융합 데이터, 반려견, 반려묘 건강정보 데이터, 축산 기자재(소, 돼지) 3D 데이터, 소(한우, 젖소) 및 돼지 발정행동 데이터, 감귤 착과량 학습 데이터, 지능형 스마트팜(참외) 데이터, 계란 데이터, 진안홍삼 품질 데이터, 인삼 년근 판독 및 등급 식별을 위한 인공지능 학습데이터 구축, 강원도 한해성어류(연어,명태) 지능형양식 종합데이터, 산업용 헴프 생육 이미지 및 환경 데이터, 연안어장 생태환경 피해 유발 해양생물 데이터 구축, 주요 화훼류 품질 데이터, 양돈 생체 에너지 데이터, 이매패류(새조개, 바지락) 종자생산 데이터, 넙치 질병 데이터, 시설작물(딸기) 개체 이미지 및 시설작물(딸기) 질병 이미지

문화관광 20종 디지털 K-Art 데이터, 전시 공연 도슨트 데이터, 국악 악보 및 음원 데이터, 이미지 사운드 매칭 데이터, 한국 골목길 이미지 및 3D 데이터, 문화유산 이미지 및 3D 데이터, 3D 관광지 데이터(산·하천), 3D 관광지 데이터(관광명소), 관광 KVQA 데이터(수도권), 관광 KVQA 데이터(제주도 및 도서지역), 관광 KVQA 데이터(동부권), 관광 KVQA 데이터(서부권), 관광지 소개 다국어 번역 데이터, 관광 음식메뉴판 데이터, 경북 세계문화유산 서원 메타버스 이미지 및 3D데이터, 메타버스 활용 목적 전통가옥 학습 데이터, 국내 여행로그 데이터(수도권), 국내 여행로그 데이터(동부권), 국내 여행로그 데이터(서부권), 국내 여행로그 데이터(제주도 및 도서지역)
스포츠 12종 전술 판정 영상 데이터(축구), 전술 판정 영상 데이터(농구), 전술 판정 영상 데이터(핸드볼), 피겨 스케이팅 동작 데이터, 크로스핏 동작 데이터, 브레이킹 동작 데이터(비보잉 동작 데이터), 요가 동작 데이터, 필라테스 동작 데이터, 배드민턴 동작 및 경기영상 데이터, 테니스 동작 및 경기영상 데이터, 메타버스 캐릭터 모션 리타게팅 데이터, 비전영역, 축구 킥 동작 및 축구공 궤적 데이터 구축
교육 10종 OCR 데이터(교육), 교육용 한국인의 영어 음성 데이터, 교육용 한국인의 중국어·일본어 음성 데이터, 교육용 한국인의 외국어(영·중·일 제외) 음성 데이터, 교육용 영어 모국어 사용자의 한국어 음성 데이터, 교육용 유럽어 모국어 사용자의 한국어 음성 데이터, 교육용 중·일어 모국어 사용자의 한국어 음성 데이터, 교육용 아시아어(중·일어 제외) 사용자의 한국어 음성 데이터, 서울 지역 중학생들의 국어, 수학 교과용 감성 AI 튜터 데이터, 인공지능기반 학생 진로탐색을 위한 상담 데이터 구축
로보틱스 6종 로봇 핸드용 객체 특성 식별 데이터, 보행보조 착용형 로봇 모션 데이터, 손∙팔 협조에 의한 파지-조작 동작 데이터, 가려진 객체 추론 데이터, 배송로봇 비도로 운행 데이터, 소셜로봇 고객응대 데이터
제조 6종 CMF 식별 데이터, 3D프린팅 출력물 형상 보정용 데이터, 금속 3D프린팅 스파크 이미지 데이터, 조선·해양플랜트 P&ID 심볼 식별 데이터, 선박 도장 품질 데이터, 실험기반 재료 물성 데이터
지식재산 4종 과학기술표준분류 대응 특허 데이터, IP산업의 상표권 보호를 위한 오프라인 상표 이미지 데이터, 해외상표 이미지 AI 데이터, 유사 상표 이미지 검색 서비스의 사용자 입력 이미지 데이터
법률 2종 금융, 법률 문서 기계독해 데이터, 의료, 법률 전문 서적 말뭉치
금융 1종 OCR 데이터(금융 및 물류)


AI 허브 오픈 API 편집

AI 허브에서 제공하고 있는 인공지능 학습용 데이터를 API를 통해 다운로드 받을 수 있다.

Linux 등 다양한 개발환경에서 데이터 다운로더인, aihubshell을 제공한다.

AI 개발지원 편집

※ AI 개발지원 서비스는 한국지능정보사회진흥원이 담당하는 사업 내용이 아니며, AI-Hub에 제공되는 정보의 주체는 각 사업의 담당기관에서 처리되고 있음을 알려드립니다. (오픈API 서비스는 AI-Hub에서 운영)

AI 컴퓨팅 지원 편집

AI 개발을 희망하는 중·소벤처기업, 대학교, 공공기관 등을 대상으로 대규모 데이터 셋 처리를 위해 필요한 고성능 컴퓨팅 자원을 지원한다.

AI 바우처 지원 편집

AI 솔루션 적용이 필요한 중·소벤처기업 /중견기업(수요 기업)에게 바우처를 발급하여 최적의 AI 솔루션을 도입할 수 있도록 지원하고, 인공지능 솔루션을 개발한 중·소벤처기업(공급기업)에게는 새로운 시장 창출의 기회를 제공함으로써 AI 산업생태계 조성과 확산에 기여한다.

AI S/W 지원 편집

과학기술정보통신부 R&D 과제를 통해 개발된 다양한 인공지능 기술 및 데이터를 누구나 체험하고 연구목적으로 사용할 수 있도록 제공한다.

참여하기 편집

경진대회 편집

AI-Hub에서 제공되는 인공지능 학습용 데이터를 활용해 경진대회를 개최한다.

일자리 참여 편집

2022년 인공지능 학습용 데이터 구축 사업에 참여한 기업의 크라우드 소싱 일자리 정보를 제공한다. 사업 분야별로 크라우드 소싱 업무에 참여하실 수 있도록 크라우드 워커 채용공고를 링크를 통해 연결한다.

AI 데이터 제안 편집

신규 인공지능 학습용 데이터 제안 및 데이터 품질개선 의견을 받는다.

리더보드 편집

Open Ko-LLM LeaderBoard를 소개한다.

이벤트 편집

AI 허브의 데이터 다운로드 이벤트와 그외 다양한 이벤트를 개최한다.

커뮤니티 편집

데이터 토론 편집

AI-Hub의 데이터를 주제로 사용자들의 토론할 수 있는 공간을 제공한다.

공지사항 편집

AI-Hub의 공지사항, 사업공고 , 게시물을 게시한다.

교육정보 편집

6가지 유형(PM과정, 공통교육, 이미지/영상, 음성/텍스트, 라이다/센서, 품질관리)의 수준별 교육과정을 제공한다.

AI 트랜드 편집

최신 AI 모델 및 데이터 동향, 활용 및 우수사례, AI 웹진을 소개한다.

활용 및 우수사례 편집

AI-Hub 활용 및 우수사례 게시물을 게시한다.

품질가이드 편집

AI-Hub 품질가이드 게시물을 게시한다.

고객지원 편집

문의하기 편집

AI-Hub 이용자들의 문의사항을 접수하고 답변한다.

자주찾는질문 편집

AI-Hub 이용 관련 FAQ를 제공한다.

민원접수 편집

개인정보신고 및 크라우드 워커 민원 접수의 장이다.

AI 데이터 제안 편집

AI-Hub의 신규 데이터에 대해 사용자가 제안할 수 있는 등록페이지를 제공한다.

같이 보기 편집

1) 2022 한국어 AI 경진대회

2) 빵형의 개발도상국

2-1 말하는대로 범인 몽타주 그려주는 인공지능(페르소나 기반의 가상 인물 몽타주 데이터)

2-2 사투리로 말하는 인공지능이 있당께~ TTS 딥러닝 모델 다운로드하고 사용하는 방법!(한국어 방언 발화 데이터)

3) 스브스 뉴스

3-1 무려 스우파 예리가 참여해 만든 '이 기술'의 정체