주의 집중 (기계 학습)

신경망에서 주의 집중(attention, 어텐션)은 인지심리학에서의 주의를 모방하여 고안된 기술이다. 주의 집중은 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다. 이는 네트워크가 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 하기 위해서이다. 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.

어텐션이나 이와 유사한 메커니즘은 1990년대에 곱셈 모듈, 시그마 파이 단위, 하이퍼네트워크와 같은 이름으로 도입되었다.^[1] 주의 집중의 유연성은 런타임 동안 고정되어 있는 표준 가중치와는 달리, 런타임 도중에 변경될 수 있는 '소프트 가중치'로서의 역할에서 온다.

주의 집중은 뉴럴 튜링 머신의 기억, 미분가능 뉴럴 컴퓨터의 추론 작업,^[2] 트랜스포머 계열 모델의 언어 처리, 지각자(perceiver)의 다중 감각 데이터 처리 (소리, 이미지, 영상, 텍스트) 등에 활용된다.^[3]^[4]^[5]^[6]

개요 편집

인덱스 $i$ 가 붙은 일련의 토큰이 주어졌을 때, 신경망은 각 토큰에 대하여 ${\textstyle w_{i}\geq 0}$ 이며 ${\textstyle \sum _{i}w_{i}=1}$ 인 소프트 가중치 $w_{i}$ 를 계산한다. 각 토큰에는 $i$ 번째 토큰의 단어 임베딩으로부터 계산된 값 벡터 $v_{i}$ 가 할당된다. 가중 평균 ${\textstyle \sum _{i}w_{i}v_{i}}$ 이 주의 집중의 출력이다.

쿼리-키 메커니즘은 소프트 가중치를 계산한다. 각 토큰의 단어 임베딩으로부터 각각의 쿼리 벡터 $q_{i}$ 와 키 벡터 $k_{i}$ 가 계산된다. 가중치는 내적 $q_{i}k_{j}$ 의 소프트맥스 함수를 취하여 얻는다. 여기서 $i$ 는 현 토큰, $j$ 는 주의가 기울여지는 토큰을 나타낸다.

언어 번역 예시 편집

영어를 프랑스어로 번역하는 기계를 만들려면 기본적인 인코더-디코더를 사용하고 여기에 주의 단위를 접목한다 (하단 다이어그램 참조). 가장 간단한 사례에서, 주의 단위는 순환 인코더 상태(recurrent encoder state)의 내적으로 구성되며 훈련이 필요하지 않다. 실제 모델 학습 상황에서, 주의 단위는 훈련이 필요한 쿼리-키-값(query-key-value)이라고 하는 3개의 완전연결 신경망 층으로 구성된다. 아래 '변형' 섹션을 참고하시오.

주의 단위가 있는 인코더-디코더. 왼쪽(검정색 선)이 인코더-디코더, 가운데(오렌지색 선)이 주의 단위, 오른쪽(회색 선)이 계산된 데이터이다. H 행렬 내의 회색 영역과 w 벡터가 0 값이다. 숫자로 된 아래첨자는 벡터 크기, 문자로 된 아래첨자 i와 i - 1은 시간 스텝을 나타낸다.
정지된 그림을 보려면 여기를 클릭하시오.: 파일:Attention-1-sn.png

범례
Label	설명
100	문장 최대 길이
300	임베딩 크기 (단어의 차원)
500	은닉 벡터 크기
9k, 10k	각각 입력과 출력 언어의 사전 크기
x, Y	길이 9,000과 10,000의 원핫 사전(dictionary) 벡터. x → x implemented as a lookup table rather than vector multiplication. Y는 is the 1-hot maximizer of the linear Decoder layer D; that is, it takes the argmax of D's linear layer output.
x	길이 300의 단어 임베딩 벡터. 이 벡터는 보통 GloVe나 Word2Vec 등 다른 프로젝트로부터 미리 계산된다.
h	길이 500의 인코더 은닉 벡터. 각 시점에서, 이 벡터는 이보다 앞서 등장하는 모든 단어를 요약한다. 마지막 h는 "문장" 벡터로 볼 수 있다. Hinton은 이를 'thought vector'라 불렀다.
s	길이 500의 디코더 은닉 상태 벡터.
E	500개의 뉴런 RNN 인코더. 500개의 출력. 입력 개수는 소스 임베딩으로부터의 (800–300)개 + 500개의 순환 연결. 인코더는 초기화 목적으로 디코더로 직접 입력되지만 그 이후는 아니다. 즉 직접적 연결은 매우 희미하게 나타난다.
D	2층 디코더. 순환층(recurrent layer)은 500개의 뉴런이 있고 완전연결 선형층(fully-connected linear layer)는 10,000개의 뉴런을 갖고있다. (타겟 단어장의 크기).^[7] 선형층 단독으로는 5백만개(500 x 10,000)의 가중치를 갖는다. 이는 순환층보다 최대 10배 많은 가중치이다.
score	길이 100의 Alignment 점수
w	길이 100의 주의 가중치 벡터. 이들은 학습 단계에서 변하는 "하드" 뉴런 가중치와는 달리, 전방 통로(forward pass)에서 변하는 "소프트" 가중치이다.
A	주의 모듈 — 이는 순환 상태의 내적이거나, 쿼리-키-값 완전연결층일 수 있다. 출력은 길이 100의 벡터 w이다.
H	500×100. 행렬로 concatenate 된 100개의 은닉 벡터 h.
c	길이 500의 문맥 벡터 = H * w. c는 h 벡터가 w로 weighted된 선형 결합이다.

주의 가중치를 행렬이라고 보면, 이는 네트워크가 문맥에 따라 초점을 조정하는 방법을 보여준다.

	I	love	you
je	0.94	0.02	0.04
t'	0.11	0.01	0.88
aime	0.03	0.95	0.02

주의 가중치에 대한 이러한 관점은 신경망이 비판받는 "설명가능성" 문제를 해결한다. 단어 순서에 관계 없이 축어 번역(verbatim translation)을 수행하는 네트워크는 이러한 용어로 분석할 수 있는 경우 대각선으로 지배적인 행렬(diagonally dominant matrix)을 갖게 된다. 비대각선 우성(off-diagonal dominance)은 주의 메커니즘이 더 미묘하다는 것을 보여준다. 디코더를 통한 첫 번째 통로에서 주의 가중치의 94%는 첫 번째 영어 단어 "I"에 있으므로 네트워크는 단어 "je"를 제공한다. 디코더의 두 번째 통로에서 주의 가중치의 88%는 세 번째 영어 단어 "you"에 있으므로 "t'"를 제공한다. 마지막 통로에서는 주의 가중치의 95%가 두 번째 영어 단어 "love"에 있으므로 "aime"을 제공한다.

참고: 프랑스어 'je'는 '나', 'aime'은 사랑하다, "t'"는 모음으로 시작하는 동사 앞에 붙어 '너를'이라는 의미이다.

변형 편집

주의 집중에는 여러 가지 변형이 있다. 그 중 일부는 내적, 쿼리-키-값,^[3] hard, soft, self, cross, Luong^[8], Bahdanau^[9] 등이다. 이러한 변형 주의 집중은 그 효과를 각 타겟 출력에 재분배하기 위하여 인코더 쪽의 입력을 재결합한다. 종종 상관(correlation) 스타일의 내적 행렬은 계수(coefficient)의 re-weighting을 제공한다. (하단 범례 참고)

1. 인코더-디코더 내적	2. 인코더-디코더 QKV	3. 인코더만 있는 내적	4. 인코더만 있는 QKV	5. 파이토치 튜토리얼
주의집중을 계산하려면 인코더와 디코더가 모두 필요하다.^[8]	주의집중을 계산하려면 인코더와 디코더가 모두 필요하다.^[10]	주의집중을 계산하는 데에 디코더는 사용되지 않는다. corr은 1개의 입력만 가지며, W는 내적의 자기상관이다. w_ij = x_i x_j^[11]	주의집중을 계산하는 데에 디코더는 사용되지 않는다.^[12]	주의집중을 계산하기 위하여 내적 상관 대신 완전연결층이 사용된다 .^[13]

범례
Label	설명
변수 X, H, S, T	대문자로 된 변수는 현재 단어가 아닌 전체 문장을 가리킨다. 예를 들어 H는 인코더 은닉 상태의 행렬이다. -
S, T	S는 디코더 은닉 상태, T는 타겟 단어 임베딩이다. 파이토치 튜토리얼 변형의 학습 단계에서, T는 사용된 teacher forcing의 단계에 따라 2개의 소스를 번갈아가며 사용한다. T는 네트워크의 출력 단어의 임베딩일 수 있다. i.e. embedding(argmax(FC output)). Teacher forcing이 사용될 경우, T는 1/2 등의 상수 forcing 확률로 발생하는, 알려진 정확한 단어의 임베딩일 수 있다.
X, H	H, 인코더 은닉 상태; X, 입력 단어 임베딩.
W	주의 계수
Qw, Kw, Vw, FC	각각 쿼리, 키, 벡터를 위한 가중치 행렬. FC는 완전히 연결된 가중치 행렬이다.
⊕, ⊗	⊕, 벡터 concatenation; ⊗, 행렬곱.
corr	열 단위의 소프트맥스 (내적의 모든 조합의 행렬). 내적은 변형 #3 에서 *x_i x_j, 변형 #1 에서 h_i* s*_j , 변형 #2 에서 column_i( Kw H ) * column_j( Qw * S ), 변형 #4에서 column_i(Kw * X) * column_j(Qw * X)이다. 변형 #5는 계수를 결정하기 위하여 완전연결층을 사용한다. 만약 그 변형이 QKV라면, 내적은 sqrt(d)에 의해 정규화되며 여기서 d는 QKV 행렬의 높이이다.

같이 보기 편집

변환기 (기계 학습) § Scaled dot-product attention
Perceiver § Components for query-key-value (QKV) attention

참고 문헌 편집

↑ Yann Lecun (2020). 《Deep Learning course at NYU, Spring 2020, video lecture Week 6》. 53:00에 발생. 2022년 3월 8일에 확인함.
↑ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016년 10월 12일). “Hybrid computing using a neural network with dynamic external memory”. 《Nature》 (영어) 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
↑ ^가 ^나 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 12월 5일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].
↑ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019년 6월 13일). “Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909 [cs.CV].
↑ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021년 6월 22일). “Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206 [cs.CV].
↑ Ray, Tiernan. “Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. 《ZDNet》 (영어). 2021년 8월 19일에 확인함.
↑ “Pytorch.org seq2seq tutorial”. 2021년 12월 2일에 확인함.
↑ ^가 ^나 Luong, Minh-Thang (2015년 9월 20일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025v5 [cs.CL].
↑ Bahdanau, Dzmitry (2016년 5월 19일). “NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE”. arXiv:1409.0473.
↑ Neil Rhodes (2021). 《CS 152 NN—27: Attention: Keys, Queries, & Values》. 06:30에 발생. 2021년 12월 22일에 확인함.
↑ Alfredo Canziani & Yann Lecun (2021). 《NYU Deep Learning course, Spring 2020》. 05:30에 발생. 2021년 12월 22일에 확인함.
↑ Alfredo Canziani & Yann Lecun (2021). 《NYU Deep Learning course, Spring 2020》. 20:15에 발생. 2021년 12월 22일에 확인함.
↑ Robertson, Sean. “NLP From Scratch: Translation With a Sequence To Sequence Network and Attention”. 《pytorch.org》. 2021년 12월 22일에 확인함.

외부 링크 편집

Dan Jurafsky and James H. Martin (2022) Speech and Language Processing (3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
Alex Graves (4 May 2020), Attention and Memory in Deep Learning (video lecture), DeepMind / UCL, via YouTube
Rasa Algorithm Whiteboard - Attention via YouTube

[Lecun2020-1] Yann Lecun (2020). 《Deep Learning course at NYU, Spring 2020, video lecture Week 6》. 53:00에 발생. 2022년 3월 8일에 확인함.

[Graves2016-2] Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016년 10월 12일). “Hybrid computing using a neural network with dynamic external memory”. 《Nature》 (영어) 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.

[allyouneed-3] 가 ^나 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 12월 5일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].

[Ramachandran2019-4] Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019년 6월 13일). “Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909 [cs.CV].

[jaegle2021-5] Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021년 6월 22일). “Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206 [cs.CV].

[tiernan2021-6] Ray, Tiernan. “Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. 《ZDNet》 (영어). 2021년 8월 19일에 확인함.

[pytorch_s2s-7] “Pytorch.org seq2seq tutorial”. 2021년 12월 2일에 확인함.

[xy-dot-8] 가 ^나 Luong, Minh-Thang (2015년 9월 20일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025v5 [cs.CL].

[Bahdanau-9] Bahdanau, Dzmitry (2016년 5월 19일). “NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE”. arXiv:1409.0473.

[xy-qkv-10] Neil Rhodes (2021). 《CS 152 NN—27: Attention: Keys, Queries, & Values》. 06:30에 발생. 2021년 12월 22일에 확인함.

[xx-dot-11] Alfredo Canziani & Yann Lecun (2021). 《NYU Deep Learning course, Spring 2020》. 05:30에 발생. 2021년 12월 22일에 확인함.

[xx-qkv-12] Alfredo Canziani & Yann Lecun (2021). 《NYU Deep Learning course, Spring 2020》. 20:15에 발생. 2021년 12월 22일에 확인함.

[pytorch-tutorial-13] Robertson, Sean. “NLP From Scratch: Translation With a Sequence To Sequence Network and Attention”. 《pytorch.org》. 2021년 12월 22일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]