イ・セドルがアルファゴに2連敗!

はじめに

碁のトッププロであるイ・セドルがアルファゴ(アルファ碁、AlphaGo)に2連敗しました。

www.asahi.com

このニュースは、ディープラーニングの技術的特異点(シンギュラリティ)を見せてくれました。このタイミングを見ることが出来たのは素晴らしい。

将棋もプロが負けていますが、今回は企業が金を出して行っている点が大きな違いです。 以前、ワトソンというIBMのAIがクイズ番組で王者になった後、実際にサポートセンターに導入されました。問題がありその回答を探すのはクイズと変わらないからです。 同じように今回の技術はAIによる金融取引等に用いられ、人間は勝てなくなるでしょう。金融取引が人対人の取引を予想しもっとも利益が高い方を選択するゲームだとすると囲碁などと同じ土俵になると思うからです。まぁ、ここらはすでに導入されているとは思いますが、碁というゲームを通して今どのような変化が起きているかを感じることができるのが今回のニュースの面白い点だと思います。

尚、マシンは1,202のCPUと176のGPUを使用しているみたいです。 AlphaGo - Wikipedia, the free encyclopedia

ディープマインド社

AlphaGoを開発したのはグーグルに買収されたベンチャー起業のディープマインド社です。この会社は以前DQNというテレビゲームを自己学習するという、ネタとしては楽しい人工知能を開発した会社です。DQNネットスラングなので印象に残っています。

gigazine.net

そして、この記事を読んで1年経たないうちに碁でトップを取ってしまいました。どれだけ研究していたかはわかりませんが、トッププロに勝つまであと10年かかると言われていたのに10年短縮してしまったことになります。ネタ企業でなかったことにびっくりです。

アルゴリズム

アルゴリズムモンテカルロ木探索とディープラーニングを使用しているようです。 詳しいことはNatureの論文を読んでもらうとして、自分の怪しい理解ですが簡単に説明します。

モンテカルロ木探索

モンテカルロ法はランダムに碁を最終局までうち勝敗をチェックし(プレイアウト)、それを繰り返し勝率が最も高かったものを選択するというアルゴリズムです。聞くと単純ですがこのアイデアが生まれるまでは、場の局面を判断させる方法を考えて最も良さそうな一手を探すことをやっていました。その局面を数値化するなんてプロでも難しそうなことをやろうとしていたわけです。

次にモンテカルロ木探索ですが、モンテカルロ法をもっと効率良く探索させる方法です。ランダムに適当に打つと言っても全てのパターンを打たせていると今のコンピュータ性能では宇宙の歴史が終わるまでかかってしまいます。そのためうまく選択させる必要があります。次にモンテカルロ木探索では、選択方法としてある手から行われるゲームパターンをツリー状にして並べてみて、勝率が高いものを選択させることにしました。これで絞り込みが良くなりかなり強くなったのですが、まだアマチュアレベルでした。もう一段ブレイクスルーが必要ということで、ディープラーニングを使用しています。

ディープラーニング

これはまず過去のトッププロの大量のゲームから特徴を抽出し次に打つ可能性が高いデータベースを作成します。それを莫大な量を繰り返していくとトッププロが打つ可能性の高い一手を見つけることができます。これをモンテカルロ木探索と組み合わせると、トッププロが打つ可能性の高い手を使用して最後まで打ち切り、その中で勝率の高い次の一手を見つけることができるようになります。しかしこれだけではトッププロのゲームの平均値までの強さしか行きません。そこで自己対戦を行い、無駄を取り除きます。これで研ぎ澄まされトッププロ中のトップレベルの力をつけることができます。

最後に

人間相手だと疲れなどもあり、最高の一手を続けることはできません。しかしコンピュータは疲れを知らないため常に最高な状態を出し続けます。そのためトップレベルのプレイヤでもコンピュータに勝てなくなります。自分の理解はこんな感じです。

将棋も碁もですがすでにコンピュータの方が人間より強いという状況になってきました。これでプロを目指す子供たちは減るのでしょうか?それともトップレベルのコンピュータ将棋で遊んできた子供たちが見たことのない世界を創造するのでしょうか?個人的にはせっかく天才に生まれてきたんだから他の分野で活躍してほしいなぁとも思いますが。。

おわり