전체메뉴

닫기

소프트웨어정책연구소

  • [SPRi 이슈리포트 2017-009] AlphaGo Zero의 인공지능 알고리즘

    발행일 : 2018.01.23 조회수 : 762
    구글 딥마인드가 개발한 인공지능 바둑 프로그램 AlphaGo는 지난 2017년 5월 중국의 바둑신성 커제 9단과 대결에서 완승한 뒤 바둑계에서 화려하게 은퇴했다. 커제 9단과 대결했던 AlphaGo는 과거 이세돌 9단과 대결했던 AlphaGo보다 완벽에 가까울 정도로 개선됐다. 그렇다면 어떻게 개선된 것일까? 딥마인드는 커제 9단의 대국이후 개선된 형태의 AlphaGo에 대해 구체적인 내용을 공개한다고 밝혔다. 딥마인드의 최고경영자인 데미스 하사비스는 특히 개선된 AlphaGo가 인간의 기보를 전혀 학습하지 않았고, 컴퓨터 1대 수준에서 경기에 임했다는 사실이 기존과의 차별점이라고 밝히면서 대중의 궁금증을 자아냈다. 2017년 10월 세계 최고의 학술지 네이처에는 “Mastering the Game of Go without Human Knowledge”라는 제목의 논문이 게재됐다. 바로 개선된 AlphaGo의 세부 내용을 담은 AlphaGo Zero에 관한 논문이다. 사실 AlphaGo를 개선한다는 것은 매우 도전적인 영역으로 인식됐다. 그 이유는 역설적으로 AlphaGo가 사용한 인공지능 알고리즘 때문이다. 과거 AlphaGo는 전문 바둑기사의 착수 선호도 예측과 바둑판 상태의 승률을 계산하기 위해 심층학습(Deep Learning)을 활용했다. 심층학습의 가장 큰 한계는 예측한 결과에 대한 인과관계를 설명할 수 없다는 점이다. 다시 말하면, 과거 AlphaGo가 실수했던 측면의 어떤 부분이 잘못됐는지를 전혀 알 수 없다는 것이다. 그러나 AlphaGo Zero는 이러한 우려를 불식시키며 개선에 성공하고 바둑계의 최정상 자리를 차지했다. 이번 보고서에서는 AlphaGo Zero의 인공지능 알고리즘을 분석해보고자 한다. 특히 과거 AlphaGo와의 어떠한 차별점이 있는지에 대해 집중적으로 다룰 것이다. 결론적으로 AlphaGo Zero는 인간의 기보를 전혀 학습하지 않았고, 자체 대국 결과를 학습 데이터로 활용하는 방법을 시도했다. 그 결과 AlphaGo Zero는 최정상 바둑 실력을 입증했다. 수 천 년을 이어온 바둑이 약 40일 간 학습한 인공지능에 정상을 내준 것이다.