アルファ碁の衝撃

詳細: 作成日 2018年7月31日（火曜）16:31; 作者: 松田卓也

アルファ碁とは英国のディープマインド社が開発した囲碁用のソフトだ。ディープマインド社は2010年に英国の若き天才デミス・ハッサビスの創始した会社だ。ハッサビスの天才性を評価したグーグルが、2014年にそれまでになにもめぼしい製品を出していなかった会社を600億円も投じて買収した。これが私の言う頭脳資本主義だ。優秀な天才的頭脳こそ膨大な富を生み出すのだ。

アルファ碁は人間に勝った

そのディープマインド社が一躍有名になったのがアルファ碁だ。2016年にアルファ碁は韓国のイ・セドル9段に4勝1敗で勝った。さらに2017年には中国の柯潔(かけつ)9段に3勝0敗で勝った。その前にはアルファ碁の改良版であるアルファ碁マスターがネットの早うち碁でプロを相手に60勝したのだ。アルファ碁はどんな人間もかなわない、もはや無敵なのだ。

ゲームにおけるコンピュータと人間の競争の歴史での重要な転換点は1)1997年にIBMのスーパーコンピュータ、ディープブルーがチェスチャンピオンのガリー・カスパロフに勝った、2)2011年、IBMのスパコンに搭載されたワトソンが「ジョパディ!」というクイズ番組で、人間のチャンピオンに勝った。アルファ碁の勝利はそれに次ぐ第三弾だ。

アルファ碁の話はそれにとどまらない。2017年の後半にアルファ碁マスターの改良版のアルファ碁ゼロは、アルファ碁に対して100戦100勝したのだ。つまり最強の人間より強いアルファ碁に、アルファ碁ゼロは圧勝したのだ。さらにすごいのは、アルファ碁はそれでも人間の棋譜を研究して強くなったのだが、アルファ碁ゼロは人間の棋譜は一切参考にせず、ただゲームのルールを教えられただけで一から自己学習して強くなったのだ。

さらに話はまだ終わらない。次に現れたのはアルファゼロで、これは囲碁に特化していなくて、チェス、将棋、囲碁がさせるのだ。これも人間の棋譜は一切参考にせずに、自分で対局を繰り返して、自分で強くなっていったのだ。もはや人間は対抗できないので、今度は人間ではなく、世界最強のチェス用、将棋用の人工知能と対戦して圧勝した。囲碁ではアルファ碁ゼロと対戦して、競り勝った。

アルファゼロで用いられたコンピュータ資源はアルファ碁のときとは比較にならない小規模のものでよくなった。さらに驚くべきことはアルファゼロが、他の人工知能に勝つほどに強くなるために必要な時間は、まったく白紙の状態から自己対局をはじめて、将棋では2時間、チェスで4時間、囲碁で8時間という。囲碁の歴史は3000年というから、それをアルファゼロはたった8時間で駆け抜けたのである。これはもはや小規模なシンギュラリティといって良いだろう。

強化学習

アルファ碁、アルファ碁ゼロ、アルファゼロの基本的アルゴリズムは強化学習と呼ばれている機械学習の一種だ。機械学習は1)教師あり学習、2)教師なし学習、3)強化学習と分類することができる。よく見る解説記事などにアルファ碁はディープラーニングの成果だと書かれているが、それは正確ではない。たしかにディープラーニングの技術も使ってはいるが、それはいわば部品の一つである。主要部品は強化学習という機械学習の一分野である。

もう少し詳しくいうと、アルファ碁は強化学習を主体として、あとで述べる政策関数の近似をディープラーニングで行い、さらにモンテカルロ木探索と上部信頼性限界法(UBC1)という手法を組み合わせたものである。強化学習とディープラーニングを合わせた手法を深層強化学習といい、人工知能学界の昨今のちょっとした流行である。

強化学習ではエージェントと呼ばれるロボットやコンピュータが、環境と呼ばれる世界の中で、意思決定をしながら行動して、報酬を獲得していく。エージェントの最終目標は、未来まで含めた報酬の総和を最大にすることである。重要なのは近視眼的にではなく、将来を見据えて報酬の総和を最大にするということだ。

人生ゲームにたとえてみれば、どのような人生を送れば生涯収入を最大にできるかということだ。エージェントには現在の状態の価値関数というものが定義できる。それは将来の報酬の総和の予想される値だ。人生ゲームで言えば、よい大学に入れば将来報酬は大きくなるだろう。その予想値が大学の価値になる。囲碁で言えば、現在の局面で勝つ確率である。

報酬は囲碁や将棋のようなゲームなら勝てば1点、負ければ0点、それ以外は0点とする。例えば将棋の場合、相手の王を取れば1点もらえるが、飛車を取っても金を取っても0点で、報酬はもらえない。あくまでも勝ったときだけ報酬をもらえる。そうしておかないと、エージェントは相手の飛車や角や金などを取りまくってたくさんの報酬を得るが、結局は王を取られて負ける。これでは元も子もないのである。強化学習では当面はダメでも最後に笑うというように設計しておく。

エージェントには方策(ポリシー)という概念があり、どのような行動をとるかという方針だ。良い方策を選べば、将来の報酬の総和が大きくなる。強化学習アルゴリズムの目的は、最善の方策を発見することである。人生ゲームにたとえれば人にとっての最善の方策は、生涯収入を最大にするような人生の歩み方だ。

もっともこれはあくまで例えであり、人生ゲームを強化学習で実際に戦えるわけではない。

汎用人工知能

人工知能の分類として1)特化型人工知能(Narrow AI)、2)汎用人工知能(Artificial General Intelligence=AGI)がある。特化型人工知能は特定の仕事だけができるAI、いっぽうAGIはなんでもできる汎用のAIだ。現状のAIはすべて特化型でありAGIは存在していない。AGIを作るというのが、人工知能研究者の究極の目標である。もっともそれは困難なので、ほとんどの人工知能研究者は特化型人工知能の研究とその応用に力を注いでいる。海のものとも山のものとも分からないAGI研究では、当面は儲からないからだ。

しかし一部の企業、研究機関はAGI研究を目指している。ディープマインド社を筆頭に、米国の鬼才ジェフ・ホーキンスの率いるヌメンタ社、ホーキンスの弟子であったディリープ・ジョージが率いるヴァイカリウス社、IBMの皮質学習センター、業界の異端児のユルゲン・シュミットフーバー率いるスイスのネサンス社、チェコの若き起業家が率いるグッドAIなどいろいろある。日本では全脳アーキテクチャ・イニシアティブという非営利団体がある。

AGIを開発するにあたって、その手法は大きく二つに分けることができる。

1)人間の頭脳をできるだけ精密に模倣する方法

2)既存の人工知能理論を拡張する方法

である。上記ではホーキンス、ジョージ、IBM、全脳アーキテクチャは1の道を目指している。ネサンス社とグッドAIはどうやら2の方向らしい。

ところで肝心のディープマインド社だが、ハッサビスは頭脳を研究すると言っていたが、現状を見るとどうやら強化学習の発展形を狙っているらしい。だとすれば2に分類される。

ディープマインド社の野望

アルファ碁を開発したのは、ディープマインド社のデービッド・シルバーという40歳代の若い研究者だ。かれはロンドン大学教授も兼任している。正に天才だ。彼は強化学習の大家であるカナダのリチャード・サットン教授のところで、2008年にコンピュータ囲碁の研究で博士号を取った。

ディープマインド社は2010年に創業して以来、急速に膨張している。現在700人に上る社員を抱え、そのうち400人は博士号を持っている。世界の40カ国から天才秀才を集めている。まさに頭脳集団だ。

デミス・ハサビスのスピーチを聞くと、彼はディープマインド社のミッションは次の二つだという。

1) 知能を解明すること。

2) 解明した知能を用いて人工知能を作り、あらゆる問題を解くこと。

なんと壮大なミッションであろうか。彼はこれを「人工知能のアポロ計画」と名付けている。

別のスピーチでは次のようにも語っている。デミス・ハサビスは、本当は物理学に興味があり、この宇宙の根源的理論である「万物の理論Theory of Everything」を解明したい。それは難しい。そこで万物の理論自体を研究するのではなく、人間の頭脳を研究する。そして頭脳に宿る知能を解明する。それが解明されたら、それを利用して汎用人工知能を作る。その汎用人工知能を用いて、万物の理論を解明する。それだけではない、人間社会のあらゆる問題をその汎用人工知能で解決しようというのだ。

デミス・ハサビスは若くしてゲームの会社を立ち上げて儲けたが、頭脳を研究するために大学院に入り直して、海馬の研究で博士になっている。海馬とは頭脳を構成する一つの要素で、短期記憶を担っている。

ディープマインド社は強化学習で囲碁、将棋、チェスを制覇した後は、スタークラフトIIという宇宙を舞台にしたリアルタイム・ストラテジー・ビデオゲームの研究にシフトした。これは囲碁よりはるかに複雑なゲームである。囲碁は完全情報ゲームで、隠れている情報は何もないが、スタークラフトであれ実際の社会であれ、すべての情報が分かっているわけではない。むしろ逆で、わずかしかない情報から全体像を推測しなければならない。またこの種のビデオゲームの難しさは、特定の局面が良いのかどうか分からないことだ。最後になって勝敗が決まってからわかるのである。スタークラフトIIにはフェイスブックも参入を表明した。ふたつのAIジャイアントが激突するのが楽しみだ。このゲームをAIが制覇するのは、あと5年かかると言われている。しかしアルファ碁が人間に勝利する前には、後10年はかかると言われていたのだ。この凄まじい進歩の速さを見れば、スタークラフトも意外と早く制覇できるのではないだろうか。

ディープマインドはスタークラフトと並行してクエークIIIアリーナというゲームも研究して2018年7月の発表では人間レベル以上の強さを達成したという。これもリアルタイムのゲームで非常に複雑なものだ。この場合は数千もの強化学習エージェントが並行して学習するという複雑なものになっている。

汎用人工知能とゲームがなんの関係あるのか?ゲームはある意味で人間社会の反映である。しかもルールがはっきりしていて、理論に乗せやすい。だから複雑なゲームでAIが人間を一つ一つ、打ち負かしていけば、最後には例えば、外交とか政治といった実際の複雑なゲームでもAIが人間を凌ぐようになるであろう。多分あと10年程度だと思う。

私自身は大脳新皮質を模擬する方向性の方が有力だと思っているが、昨今のディープマインドの勢いを見ているとそれも分からない。そこで私自身は神経科学と計算論的神経科学、強化学習を含む機械学習の勉強もしている。どちらの手法で汎用人工知能ができたとしても、そのアルゴリズムを理解できるようになりたいと思っている。

研究所紹介

活動

情報発信

所員ブログ

あいんしゅたいんページ

アルファ碁の衝撃