트랜스포머 (기계 학습)

트랜스포머(transformer)는 어텐션 메커니즘을 활용하는 딥 러닝 모형이다. 본래 자연어 처리에 활용되었으나, 비전 트랜스포머의 등장 이후 컴퓨터 비전 분야에도 활용되고 있다. 트랜스포머가 개발되어 순환 신경망(RNN)의 단점이 극복됨에 따라 자연어 처리 최고의 RNN 기법이었던 장단기 메모리(Long Short-Term Memory, LSTM)가 트랜스포머에 의해 대체되는 추세이다. OpenAI에서 만든 GPT 모델들도 트랜스포머를 사용한다.

트랜스포머는 딥 러닝 모델이다. 이는 입력(재귀 출력 포함) 데이터의 각 부분의 중요도에 차별적으로 가중치를 부여하는 셀프어텐션(self-attention)의 채택으로 구별된다. 주로 자연어 처리(NLP)^[1] 및 컴퓨터 비전(CV) 분야에서 사용된다.^[2]

순환 신경망(RNN)과 마찬가지로 트랜스포머는 번역 및 텍스트 요약과 같은 작업에 사용되며, 자연어와 같은 순차적 입력 데이터를 처리하도록 설계되었다. 그러나 RNN과 달리 트랜스포머는 전체 입력을 한 번에 처리한다. 어텐션 메커니즘은 입력 시퀀스의 모든 위치에 대한 컨텍스트를 만들어낸다. 예를 들어 입력 데이터가 자연어 문장인 경우 트랜스포머는 한 번에 한 단어씩 처리할 필요가 없다. 따라서 RNN보다 더 많은 병렬화가 가능해지므로 훈련 시간이 단축된다.^[1]

트랜스포머는 구글 브레인 팀에서 2017년에 도입했으며^[1] LSTM(Long Short-Term Memory)^[3]과 같은 RNN 모델을 대체하면서 점점 더 NLP 문제에 대한 선택 모델이 되고 있다.^[4] RNN 모델에 비해 트랜스포머는 병렬화에 더 적합하여 더 큰 데이터 세트에 대한 교육을 허용한다. 이로 인해 위키백과 코퍼스(Wikipedia Corpus) 및 커먼 크롤(Common Crawl)과 같은 대규모 언어 데이터 세트로 훈련된 BERT(Bidirectional Encoder Representations from Transformers) 및 최초형 GPT(Generative Pre-trained Transformer)와 같은 사전 훈련된 시스템이 개발되었다. 특정 작업에 맞게 미세 조정된다.^[5]^[6]

참고 문헌

Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need" 보관됨 2021-09-18 - 웨이백 머신, preprint submitted for ICLR 2021. arXiv:2008.02217; see also authors' blog 보관됨 2021-09-18 - 웨이백 머신

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

Alexander Rush, The Annotated transformer 보관됨 2021-09-22 - 웨이백 머신, Harvard NLP group, 3 April 2018

각주

↑ ^가 ^나 ^다 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].
↑ He, Cheng (2021년 12월 31일). “Transformer in CV”. 《Transformer in CV》. Towards Data Science. 2023년 4월 16일에 원본 문서에서 보존된 문서. 2021년 6월 19일에 확인함.
↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). 〈Transformers: State-of-the-Art Natural Language Processing〉. 《Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations》. 38–45쪽. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1997년 11월 1일). “Long Short-Term Memory”. 《Neural Computation》 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
↑ “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. 《Google AI Blog》. 2018년 11월 2일. 2021년 1월 13일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.
↑ “Better Language Models and Their Implications”. 《OpenAI》. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.

이 글은 컴퓨터 과학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다.

[:0-1] 가 ^나 ^다 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].

[2] He, Cheng (2021년 12월 31일). “Transformer in CV”. 《Transformer in CV》. Towards Data Science. 2023년 4월 16일에 원본 문서에서 보존된 문서. 2021년 6월 19일에 확인함.

[wolf2020-3] Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). 〈Transformers: State-of-the-Art Natural Language Processing〉. 《Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations》. 38–45쪽. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.

[lstm1997-4] Hochreiter, Sepp; Schmidhuber, Jürgen (1997년 11월 1일). “Long Short-Term Memory”. 《Neural Computation》 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.

[:6-5] “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. 《Google AI Blog》. 2018년 11월 2일. 2021년 1월 13일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.

[:7-6] “Better Language Models and Their Implications”. 《OpenAI》. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2019년 8월 25일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]