알파고
웹사이트 | deepmind |
---|
알파고(영어: AlphaGo)는 구글의 딥마인드가 개발한 인공지능 바둑 프로그램이다.[1]
영국의 스타트업 기업이었던 딥마인드가 2014년 구글에 인수되면서 개발이 본격적으로 진행되었다. 2015~2017년 프로토타입 버전인 알파고 판, 알파고 리, 알파고 마스터가 공개되었고, 2017년 10월에 최종 버전인 알파고 제로를 발표하였다. 2018년 12월에는 바둑을 포함한 보드게임에 적용할 수 있는 범용 인공지능 알파 제로(Alpha Zero)를 발표하였다.
알파고는 2015년 10월 유럽 바둑 챔피언십 (EGC)에서 3차례 우승한 프랑스의 판 후이(Fan Hui, 樊麾) 2단과의 5번기에서 모두 승리해 핸디캡(접바둑) 없이 호선(맞바둑)으로 프로 바둑 기사를 이긴 최초의 컴퓨터 바둑 프로그램이 되었다.[2] 2016년 3월에는 여러 국제 기전에서 18차례 우승했던 세계 최상위급 프로 기사인 이세돌 9단과의 5번기 공개 대국에서 대부분의 예상을 깨고 4승 1패로 승리해 '현존 최고 인공지능'으로 등극하면서 세계를 놀라게 했다. 2017년 5월에는 당시 바둑 세계 랭킹 1위 프로 기사였던 커제(柯洁) 9단과의 3번기 공개 대국과 중국 대표 5인과의 상담기(相談棋, 단체전)에서도 모두 승리하며 '세계에서 가장 강력한 인공지능'임을 다시 한번 각인시켰다. 한국기원은 알파고가 정상의 프로기사 실력인 '입신'(入神)의 경지에 올랐다고 인정하여 '프로 명예 단증(9단)'을 수여하였고, 중국기원도 '프로기사 9단' 칭호를 부여했다.[3] 이 대국을 통해 인공지능의 새 장을 열었다는 평가를 받았으며, 바둑계는 기존의 통념을 깨뜨리는 창의적인 수와 대세관으로 수 천년 동안 이어진 패러다임이 바뀔 것으로 전망했다.
데미스 허사비스(Demis Hassabis) 최고경영자(CEO)는 2017년 5월에 열린 '바둑의 미래 서밋(Future of Go Summit)'이 알파고가 참가하는 마지막 대회가 될 것이며, 앞으로 인공지능은 인류가 새로운 지시영역을 개척하고 진리를 발견할 수 있도록 돕게 될 것이라고 말했다. 딥마인드는 질병진단 및 건강관리, 신약개발, 기후변화예측, 무인자율주행차, 스마트폰 개인비서 등 사회 전분야로 확대해 미래의 다양한 핵심 서비스 사업에 적용할 수 있는 범용 인공지능으로 개발한다는 계획이다.
알파고라는 이름은 구글의 지주회사 이름인 알파벳과 그리스 문자의 첫 번째 글자로 최고를 의미하는 '알파(α)', 바둑의 일본어 발음 '碁(ご)'에서 유래한 영어 단어 'Go'를 뜻한다.[4] 통산 전적은 73승 1패이다.
알파고 이전의 개발 역사와 대전
편집인간 대 바둑 프로그램
편집바둑은 체스와 같은 다른 종목에 비해 컴퓨터가 인간을 이기기 훨씬 어려운 것으로 여겨졌다. 체스 등보다 가능한 국면의 수가 훨씬 크기 때문에, 브루트 포스 등 전통적인 인공지능 기법 적용이 매우 곤란하기 때문이다.[2]
1997년 IBM의 컴퓨터 딥 블루가 세계 체스 챔피언 가리 카스파로프(Garry Kasparov)를 상대로 승리한 이후 20여년 동안 바둑 프로그램의 인공지능은 인간 아마추어 기사 5단의 수준까지 도달했지만,[5] 여전히 핸디캡 없이 프로 바둑 기사를 이길 수 없었다.[2][6][7] 2012년, 4대의 PC 클러스터로 운용되는 프로그램 젠(Zen)은 프로 기사 다케미야 마사키(武宮正樹) 9단과의 4점 접바둑으로 5전 2승을 거두었고, 프랑스에서 개발된 크레이지 스톤(Crazy Stone)은 2013년, 이시다 요시오(石田芳夫) 9단과의 4점 접바둑에서 이겼다.
알고리즘
편집인공지능의 학습에 있어 데이터와 연산능력 보다 중요시 되는 것이 알고리즘이다. 핵심은 무한대에 가까운 광범위한 경우의 수를 줄이는 것이다. 알파고는 훈련된 심층신경망(DNN, Deep Neural Network)이 몬테카를로 트리 탐색(MCTS, Monte Carlo Tree Search) 통해 선택지 중 가장 유리한 선택을 하도록 설계되었다. 심층신경망은 정책망(policy network)과 가치망(value network)의 결합에 의해 이루어진다. 정책망은 승리 가능성이 높은 다음 수를 예측하여 검색 범위를 좁히고, 가치망은 트리 탐색의 단계(depth)를 줄여 끝날 때까지 승률을 계산하여 승자를 추정한다.[2] 이를 실현하기 위한 기계학습은 여러 계층(layer)으로 디자인된 정책망을 구성하고, 정책망 지도학습, 정책망 강화학습, 가치망 강화학습 단계를 거친다.[5][8]
정책망 지도학습 (Supervised learning of policy networks)
편집KGS 바둑 서버에 등록된 16만 개의 기보를 회선신경망(CNN, Convolutional Neural Networks)으로 학습하고 3천 만개 이르는 착점 위치 정보와 패턴을 파악해 다음 수를 예측하여 인간의 바둑을 흉내내도록 훈련되었다. 훈련 결과 기존 44% 수준의 예측 확률이 57%까지 높아졌다.[9]
정책망 강화학습 (Reinforcement learning of policy networks)
편집기보에만 최적화 되는 한계를 극복하기 위해 반복적인 자가 대국으로 정책망의 성능을 개선한다. 무작위로 선정된 신경망 사이의 자가 대국을 통해 학습하며, 승리하면 보상을 받고(+1) 패하면 보상을 잃는(-1) 방식으로 진행한다. 이 과정을 거쳐 강화학습 이전의 정책망과 비교해 80% 더 많은 대국에서 이길 수 있게 되었다.
가치망 강화학습 (Reinforcement learning of value networks)
편집결과 예측을 강화하는 단계로 정책망의 자가 대국으로 확보된 기보를 바탕으로 승률을 파악하고 가중치를 부여해 다음 대국을 진행하는 방식으로 가치망의 분석 능력을 향상시킨다.
2016년 이세돌 9단과 대국한 알파고는 12개의 신경망 계층을 활용해 지도학습과 이를 통해 가장 합리적인 수를 도출하는 강화학습을 병행하였고, 2017년 커제 9단과 대국한 알파고 마스터는 신경망 계층을 40개로 늘려 지도학습 없이 강화학습만으로도 기력을 향상시킬 수 있도록 진화했다. 딥 블루는 특정 목적을 위해 만들어진 인공지능이라는 한계가 있었지만, 알파고의 알고리즘은 여러 분야에 범용으로 활용할 수 있다는 강점이 있다.
딥마인드는 2016년 영국의 국민건강보험공단(NHS)와 협약을 맺고 알파고의 인공지능 알고리즘을 활용한 딥마인드 헬스(DeepMind Health)를 개발하여, 환자 치료와 진단 속도를 단축하는 기술을 시험하고 있다. 실제로 병원 의료진들이 매일 2시간 정도 절약하는 효과가 있는 것으로 알려졌다.[10]
하드웨어
편집2015년의 알파고
편집알파고는 단일 컴퓨터로 구동되는 '단일 버전(Single version)'과 네트워크에 연결된 여러 대의 컴퓨터를 사용하는 '분산 버전(Distributed version)' 두 가지가 있다. 단일 버전의 알파고는 48개의 CPU와 4~8개의 GPU로 구동되며 '크레이지 스톤'과 '젠'을 포함한 다른 바둑 프로그램과 500번의 대국에서 1패만 기록하였다.[11][12] 분산 버전은 1,202~1,920개의 CPU와 176~280개의 GPU로 구성되어 있다.[5] 다양한 수의 CPU와 GPU에서 비동기 모드와 분산 모드로 테스트되었고. 한 수당 생각할 시간은 2초씩 배정되었다. 엘로 평점(ELO rating)은 아래와 같다.[5]
배열 | 검색 쓰레드 | CPU 수 | GPU 수 | 엘로 평점 |
---|---|---|---|---|
비동기 | 40 | 48 | 1 | 2,151 |
비동기 | 40 | 48 | 2 | 2,738 |
비동기 | 40 | 48 | 4 | 2,850 |
비동기 | 40 | 48 | 8 | 2,890 |
분산 | 12 | 428 | 64 | 2,937 |
분산 | 24 | 764 | 112 | 3,079 |
분산 | 40 | 1,202 | 176 | 3,140 |
분산 | 64 | 1,920 | 280 | 3,168 |
알파고 판 (AlphaGo Fan)
편집176개의 GPU가 사용된 분산 버전이다. 2015년 판 후이 2단과 대국에서 승리하였다. 당시에는 '버전12'로 알려졌다.
알파고 리 (AlphaGo Lee)
편집48개의 TPU가 사용된 분산 버전이다. 2016년 3월 이세돌 9단과 대국에서 승리하였다.
대국 당시에는 알파고 판에서 기계학습이 개선된 수준의 '버전18'이라는 정도만 알려졌었다. 하지만 2016년 5월 구글 I/O(개발자회의) 2016 컨퍼런스에서 구글은 자체 개발한 애플리케이션 집적회로(ASIC)인 TPU(Tensor Processing Unit)를 처음 소개하면서 이세돌 9단과 대국한 알파고는 TPU가 사용되었다고 설명했다.
알파고 마스터 (AlphaGo Master)
편집4개의 TPU가 사용된 단일 버전이다. 2017년 초 프로 바둑기사와 온라인 대국에서 60연승을 하였고, 같은 해 5월 커제 9단과의 대결에서도 승리하였다.
2세대 TPU 모듈 1개가 탑재된 '1대의 TPU 머신'으로 구동되는 알파고 마스터는 커제 9단과 대국 이전이었던 2017년 5월 17일 구글 I/O 2017 컨퍼런스에서 공개되었다. 여기에 사용된 TPU 모듈은 연산성능 45TFLOPS(테라플룹스, 1초에 45조번의 연산처리)짜리 TPU 4개로 구성되어 180TFLOPS 성능을 내며, 1개의 모듈은 64기가바이트(GB) 메모리 대역폭을 지원한다. 구글은 TPU의 연산 성능은 당시의 최신 CPU보다 30~80배 높다고 설명하였다.
단일 버전인 알파고 마스터의 연산 능력은 분산 버전의 10% 수준이지만, 주 기능을 인공지능 연산과 예측에만 특화해 기계학습(machine learning) 알고리즘과 텐서플로(TensorFlow), 프레임워크(framework) 구동에 최적화되었다. 기존의 알파고가 학습한 내용을 토대로 추론했다면 알파고 마스터는 추론과 동시에 학습할 수 있고, 학습에 필요한 시간이 기존의 3분의1로 단축되었다. 또한 머신의 물리적인 부피가 줄어들면서 에너지 효율은 10배가량 향상되었다.[13]
알파고 제로 (AlphaGo Zero)
편집4개의 TPU가 사용된 단일 버전으로 알파고의 최종 버전이다. 2017년 10월 19일 과학 학술지 네이처에 ‘인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)’라는 제목의 논문 발표를 통해 소개되었다.
알파고 제로는 인간의 기보에 의존하는 지도학습 없이 바둑 규칙만으로 스스로 학습하며 기력을 향상시킨다. 학습 36시간 만에 알파고 리의 수준을 능가하였고, 72시간 만에 알파고 리와 대국에서 100승 하는 동안 패하지 않았으며, 40일 후 알파고 마스터와 대국에서는 89승 11패를 기록하였다. 이 기간 동안 알파고 제로는 2900만 번의 자가 대국을 진행하며 학습하였다. 빅데이터 학습이 필요없는 인공지능의 등장은 바둑과 달리 빅데이터 확보가 어려워 인공지능을 활용하기 어려웠던 분야에 해결책을 제시했다는 점에서 의미가 있다.
알파 제로 (Alpha Zero)
편집하나의 알고리즘으로 바둑, 체스, 쇼기 등의 보드게임에 적용되는 범용 인공지능이다. 2018년 12월 7일 ‘자가학습을 통해 체스, 쇼기, 바둑을 마스터할 수 있는 범용 강화학습 알고리즘(A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play)’이라는 제목의 논문을 과학 학술지 사이언스에 발표했다.[14]
알파고 제로와 마찬가지로 빅데이터 학습이 필요 없을 뿐만 아니라, 점점 강해지는 자신과의 게임을 반복하면서 스스로 빅데이터를 구축한다. 2016년 쇼기 대회에서 우승한 AI '엘모(Elmo)'와의 대결에서 승률에서 앞서기까지 2시간, 2017년 체스 챔피언을 차지한 AI '스톡피시(Stockfish)‘는 4시간, 알파고 제로는 30시간이 걸렸다.[15] 데미스 허사비스 CEO는 “현실 세계의 문제를 푸는 인공지능을 만들고자 하는 딥마인드의 최종 목표에 다가서는 중요한 여정”이라고 밝혔다.
프로 바둑 기사와의 대국
편집판 후이 2단과의 대국 (2015)
편집2015년 10월, 분산 버전의 알파고(버전12)는 2013~2015년 유럽 바둑 챔피언쉽 우승자인 프로 기사 판 후이 2단과의 5번기에서 모두 승리했다.[9][6][16] 이는 인공지능이 19×19 바둑판 위의 대국에서 프로 기사를 상대로 한 최초의 승리였다.[17] 비공개로 진행되었던 이 대국의 결과는 알고리즘을 설명한 관련 논문이 실린 과학 학술지 네이처의 출판일에 맞추어 지연 발표되면서 2016년 1월 27일 이후 알려졌다.[5][6]
판 후이 2단과의 대국은 제한시간 1시간, 초읽기 30초 3회, 7집 반 덤 중국 규칙을 적용하며 진행되었다.
대국 예
편집- 2015년 10월 8일 - 알파고(흑), 판 후이 2단(백), 흑 불계승.[5]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1~99수 (-) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
100~165수 |
구글 딥마인드 챌린지 매치 - 이세돌 9단과의 대국 (2016)
편집구글은 대한민국의 프로 기사 이세돌 9단과 대국을 성사시켜 2016년 3월 9일부터 15일까지 서울의 포 시즌스 호텔에서 구글 딥마인드 챌린지 매치(Google Deepmind Challenge match)를 개최하였다.[7] 인간과 인공지능의 대결, 문화와 과학의 대결 등으로 수많은 화제 불러일으키며 역사적인 세기의 대결로 주목받은 첫 대국은 한국어와 영어로 공식해설이 제공된 유튜브(YouTube) 생중계를 통해 전 세계 8천 만명 이상이 시청하였으며, 대한민국에서는 한국방송공사(KBS2)에서 생중계되었다.[18][19]
이후 이세돌 9단과의 대국 과정과 뒷이야기 등을 흥미있게 다룬 다큐멘터리 영화 《알파고》가 제작되었다. 이 영화는 2017년 4월 트라이베카 영화제에서 처음 상영되었고, 제43회 서울독립영화제에서도 상영되었다.[20]
대국 방식
편집5전 3선승제이지만 보통 일반 기전과 달리 승패에 상관없이 5국까지 모두 진행하였다.[21][22] 알파고는 영국 런던의 딥마인드 본사에서 운용하였고, 미국에 중서부에 위치한 구글의 클라우드 서버에서 구동되었다. 구글의 연구개발자이자 아마추어 6단인 아자 황(Aja Hwang, 黃士傑) 박사가 알파고를 대신하여 바둑판에 돌을 놓고, 이세돌 9단이 착점한 수를 컴퓨터에 입력하는 방식으로 진행되었다.[23] 중국 규칙을 따라 7점 반의 덤을 적용하여 공제하고, 양측은 제한시간 2시간씩, 초읽기는 60초 3회가 주어졌다.[24]
대국 결과
편집- 3월 9일 제1국 186수, 백 불계승
- 3월 10일 제2국 211수, 흑 불계승
- 3월 12일 제3국 176수, 백 불계승
- 3월 13일 제4국 180수, 흑 불계패
- 3월 15일 제5국 280수, 백 불계승[25][26]
알파고는 치밀하고 정교한 수 읽기와 정확한 집계산 능력을 과시하며 1~3국을 연속으로 승리해 우승을 조기에 확정지었다. 이세돌 9단은 4국에서 승리한 후 기자회견에서 “알파고가 노출시킨 약점은 두 가지다. 첫 번째 알파고는 백보다 흑을 힘들어했다. 두 번째는 자기가 생각하지 못했던 수가 나오면 버그 형태로 몇 수를 진행하는 것을 보았다. 알파고는 생각을 못했을 경우 대처 능력이 떨어진다.”라고 지적하였고, 데미스 허사비스 CEO는 “신경망은 스스로 바둑을 두며 학습하도록 돼 있기 때문에 지식의 공백이 있을 수 밖에 없다. 이세돌 9단과의 대국을 통해 이런 한계를 알 수 있었다.”고 설명하면서 패배를 통해 알파고의 한계를 알게 된 것을 큰 성과로 꼽았다. 딥마인드는 미화 100만 달러의 우승 상금은 유니세프와 STEM(과학 · 기술 · 공학 · 수학) 교육 및 바둑 관련 자선단체에 기부한다고 밝혔다.[27]
대국 예
편집- 2016년 3월 10일의 2국 - 알파고(흑) 대 이세돌(백), 흑 불계승
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1수~99수 |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
100수~199수 |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
200수~211수 |
- 2016년 3월 13일의 4국 - 알파고(흑) 대 이세돌(백), 백 불계승. (78수 승착)
|