변환기 (기계 학습)

기계 학습 모형의 하나

변환기(變換機, transformer) 또는 트랜스포머주의집중(attention, 어텐션) 메커니즘을 활용하는 딥 러닝 모형이다. 본래 자연어 처리에 활용되었으나, 비전 변환기의 등장 이후 컴퓨터 비전에도 활용되고 있다. 변환기가 개발되어 순환 신경망(RNN)의 단점이 극복됨에 따라 자연어 처리 최고의 RNN 기법이었던 장단기 메모리(Long Short-Term Memory, LSTM)가 변환기에 의해 대체되는 추세이다. OpenAI에서 만든 GPT, GPT-2, GPT-3도 변환기를 사용한다.

변환기는 딥 러닝 모델이다. 이는 입력(재귀 출력 포함) 데이터의 각 부분의 중요도에 차별적으로 가중치를 부여하는 셀프어텐션(self-attention)의 채택으로 구별된다. 주로 자연어 처리(NLP)[1] 및 컴퓨터 비전(CV) 분야에서 사용된다.[2]

순환 신경망(RNN)과 마찬가지로 변환기는 번역 및 텍스트 요약과 같은 작업에 대한 애플리케이션을 사용하여 자연어와 같은 순차적 입력 데이터를 처리하도록 설계되었다. 그러나 RNN과 달리 변환기는 전체 입력을 한 번에 처리한다. 주의 메커니즘은 입력 시퀀스의 모든 위치에 대한 컨텍스트를 제공한다. 예를 들어 입력 데이터가 자연어 문장인 경우 변환기는 한 번에 한 단어씩 처리할 필요가 없다. 이는 RNN보다 더 많은 병렬화를 허용하므로 훈련 시간이 단축된다.[1]

변환기는 구글 브레인 팀에서 2017년에 도입했으며[1] LSTM(Long Short-Term Memory)[3]과 같은 RNN 모델을 대체하면서 점점 더 NLP 문제에 대한 선택 모델이 되고 있다.[4] RNN 모델에 비해 변환기는 병렬화에 더 적합하여 더 큰 데이터 세트에 대한 교육을 허용한다. 이로 인해 위키백과 코퍼스(Wikipedia Corpus) 및 커먼 크롤(Common Crawl)과 같은 대규모 언어 데이터 세트로 훈련된 BERT(Bidirectional Encoder Representations from Transformers) 및 최초형 GPT(Generative Pre-trained Transformer)와 같은 사전 훈련된 시스템이 개발되었다. 특정 작업에 맞게 미세 조정된다.[5][6]

참고 문헌 편집

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

각주 편집

  1. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL]. 
  2. He, Cheng (2021년 12월 31일). “Transformer in CV”. 《Transformer in CV》. Towards Data Science. 2023년 4월 16일에 원본 문서에서 보존된 문서. 2021년 6월 19일에 확인함. 
  3. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). 〈Transformers: State-of-the-Art Natural Language Processing〉. 《Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations》. 38–45쪽. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506. 
  4. Hochreiter, Sepp; Schmidhuber, Jürgen (1997년 11월 1일). “Long Short-Term Memory”. 《Neural Computation》 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014. 
  5. “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. 《Google AI Blog》. 2018년 11월 2일. 2021년 1월 13일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함. 
  6. “Better Language Models and Their Implications”. 《OpenAI》. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.