멀티모덜 학습

멀티모덜 학습( - 學習, 영어: multimodal learning)은 기계 학습의 맥락에서 문제의 실제 현상에 대한 보다 강력한 모델을 만들기 위해 텍스트, 오디오 또는 이미지와 같은 다양한 양식의 데이터를 조합하여 사용하는 일종의 딥 러닝이다. 이와 대조적으로, 단일(singular) 모달 학습은 텍스트(일반적으로 특징 벡터로 표시됨) 또는 이미징 데이터(픽셀 강도 및 주석 태그로 구성됨)를 독립적으로 분석한다. 다중 모드 기계 학습은 전문적인 모델링 전략과 알고리즘을 사용하여 근본적으로 다른 통계 분석을 결합하여 실제 세계를 표현하는 데 더 가까운 모델을 만든다.