データの境界

なんちゃって理系がデータ分析業界に入ってからの汗と涙の記録。

忙しい人のためのAlphaGo関連記事まとめ

適当にネットで拾った読んだAlphaGoに関する記事のメモ。一応時系列に並べてみた。

※「忙しい人のための」といいつつ長文なのはご愛嬌

アルゴリズムの内容に関する詳細な記事などは無し

 

前提知識など

AlphaGo VS Lee Sedolの前に、そもそもAlphaGoってなんだよ、Sedolって誰だよって方は先にコチラのリンクを参照すると良いかも。最後の「感想」部分は置いておいて、前提知識が丁寧にまとめられています。

antibayesian.hateblo.jp

 

 ちなみにこちらがDeepMind(Google)のAlphaGoに関するオフィシャルアナウンスメント

deepmind.com

 

対戦以前の記事(AlphaGoの登場時)

DeepMindが出したAlphaGoがnature紙に掲載されたのが2016年1月28日。その後、人工知能界隈の人たちがそのネタに関していろいろブログを書いてます。

aleag.cocolog-nifty.com

DeepMindのAlphaGoが初めて人間のプロ棋士に勝ち(ヨーロッパチャンピオンであるFan Huiに5戦5勝)、大々的にその話が公開された後のブログ記事。当時はこの記事のようにAlphaGo自体に懐疑的だった人が多かったみたい

論文によると、基本はCSやZen(旧来の囲碁AIソフト)と同じく、MCTS(モンテカルロ木探索)をベースとしています。MCTSでは、現在局面(ルート局面)から浅い数手を展開して、その末端からは終局までランダムに手を選択して進めるランダムシミュレーション(プレイアウトと言います)を行ないます。 

AlphaGoの改良点は、ざっくり言うと

改良点1)木探索およびプレイアウトでそれぞれ手の評価を行なうのだが、この評価値をディープラーニングによって決めた。実行時間の関係上、多数回実行するプレイアウト中の評価は「軽い」(実行時間の短い)ものである必要がある。そのため、木探索用の、精度は高いが重い手評価関数とは別に、プレイアウト用に精度が低いかわりに軽い手評価関数を用意した。

改良点2)局面の評価関数を強化学習によって作成した。末端局面の評価を、従来のようにプレイアウトのみで決めるのではなく、局面評価関数も考慮するようにした。

の2点です。

アルゴリズムに関しても、深層学習を新たに実装されてはいるもののそこまで画期的なものではなかったらしい。メディアの盛り上がりはともかく、界隈の人たち的には「ホントに強いのか?」というのが当時のリアクションだったみたい。

 

AlphaGoがnature紙に掲載された2016年1月28日から約1ヶ月と少し後の3月9日、AlphaGoの強さを証明するために開催された勝負が、世界トップクラスのプロ棋士Lee Sedol 9段(韓国)とAlphaGoの5番勝負。
勝者には100万米ドル(約1億1200万円)が贈られ、AlphaGoが勝った場合、賞金はユニセフや碁のチャリティーなどに寄付される。

 

2016/3/9 Wed 13:00~(初戦日)

初戦は先手がLee Sedol。結果はAlphaGoの勝利。いきなりマジで勝ってしまった。。。今度こそガチっぽいということで界隈がザワザワする。

対戦会場にはAlphabetのエリック・シュミット会長も駆けつけるほどの熱の入れよう。

www.buzzfeed.com 19時post

・対局はライブ配信され、YouTubeで約10万人が視聴

・AlphaGoの手は人間っぽかった。今までのコンピューターにはないことだ。「Aですか、Bですか」というような相手の様子を聞くような手だった。

・人間の棋士ではみたことがない手で、人間の常識と違っていた。

・プロ棋士 大橋6段曰く「希望を込めて人間が全勝すると思っていた。だが(AlphaGoは)異常に強く、正直、人間が全敗してもおかしくない」とコメント

 

AlphaGo勝利時のDeepMind CEO Demisのツイート

  

2016/3/10 Thu(第二戦)

第二戦は先手がAlphaGo。結果はAlphaGoの勝利。AlphaGo2連勝。

一戦目にも増してさらに人間には理解できない(人間的には「それはダメな手だろう」と思える)手を何度も打ったにもかかわらず、最終的にはそれらの手が妙手だったことが局面が進むにつれ分かってきて人間が驚愕する、という対局となった。

 

知性とは何か AlphaGoの初戦で感じたこと - WirelessWire News(ワイヤレスワイヤーニュース)  (7時post)

AlphaGoを構成するのは打ち手を探索する「Policy Network」と局面を評価する「Value Network」という2つの深層ニューラルネットワークです。 

ソースコードを読んでないので想像で補うしかありませんが、盤面からの入力に対してPolicy Networkで「次はこんな感じの手を打ったらいいんじゃないか」という確率を出し、出された確率のうち、上位数十から数百手に対して、次のValue Networkでその手を選択した場合の勝率はどのくらいかということを評価し、最も高い勝率が出せそうな手を選択するという二段構えの手法です。

しかも、Googleの主張によれば(http://googlejapan.blogspot.jp/2016/01/alphago.html)、予測される次の打ち手の正解率は57%と従来手法とくらべて極めて高く(従来手法では44%)、これが強さの秘密だと主張しています。

この仕組みの意味する最も重大なことは、普通の人間が囲碁をする場合とは異なり、論理性や定石といった記号化された知識を一切持っていないということです。

素人が囲碁をする場合、いろいろと本を読んで定石を勉強したりしながら、文字通り「頭を使って」手を選びます。

ところが、AlphaGoを含む人工知能の場合、そういうロジックを一切使用せずに、ニューラルネットワークに盤面のイメージやその他の情報を入力し、最終的に勝つか勝たないかということだけを評価関数としてひたすら学習を繰り返します。

この記事では「受動意識仮説」のアイデアを引き合いに出して、囲碁ほど抽象度の高い戦略ゲームでも人間のプロ棋士に勝ってしまうほど人工知能機械学習)は発展したが、人間を滅ぼすような一般人工知能(AGI)は出現しない。でもそんな"道具"が誰でも利用できる未来が来たらワクワクするね、と締めくくっている。

 

headlines.yahoo.co.jp 19時post

昨日に続き、ニコニコ生放送で解説した大橋拓文六段は番組内で「(AlphaGoは)序盤で意外な手が出る。局面を進めても悪くならず、最後は押し切ってしまう。構えて、どのようにも対応して勝つ碁だ」と感服した。

対局後、BuzzFeed Newsの取材に対し、「人間の常識からみると悪い手が、いくら局面を進めても悪くならない。今までの人間の常識が合っていたのだろうかと思わされる」と話した。

対局後の会見でイ・セドル九段は「昨日は驚いたが、今日はそれ以上だ。言葉を失った」と切り出した。

「わたしの完敗だ。わたしが優勢だと感じる瞬間はまったくなかった。昨日はAlphaGoはいくつか問題ある手を打っていたと思うが、今日のAlphaGoはほぼ完璧だった」と振り返った。

AlphaGoの弱点は何かと尋ねられると「弱点を発見できなかったから負けたと思う」と苦笑。今後の見通しについては「3局目は簡単ではないが、1勝はできるようにベストを尽くす」

二戦二敗後にLee Sedolに「1勝ぐらいはできるように頑張る」と言わせるということは、AlphaGoの強さはすでに人類を超えているのだろう。

 

2016/3/11 Fri(休戦日)

2戦後に休戦日。"休む"のはLee Sedolだけだが。AlphaGoはこの日にも学習を繰り返し、昨日よりも強くなっているのだろう。。。

d.hatena.ne.jp 6時post

囲碁の戦法の進化は激しく、100年前とは打ち方が違う。
Googleによれば、人間時間でいう1000年ぶん、AlphaGoは経験を詰んでいるという。

1000年先の碁を打つAlphaGoが、イ・セドル9段の好敵手になるとすれば、人間の想像力は、さらに1万年先までいけるかもしれない。これはもうタイムマシンだ。

Googleが全勝し、彼らにとって興味のなくなったAlphaGoを公開してくれれば、世界中の棋士の棋力が上がるかもしれない。そりゃ強い人とやったほうが強くなれるからね。

そしてそれって、人間の思考能力を文字通りコンピュータが加速しているとも言えるのではないか。
だとするとものすごく意味のあることだよね。

日本の将棋AIと棋士が勝負した「電竜戦」の時のように、ついつい「人類vsコンピュータ」の対立軸で見てしまって、人類代表が負ける度に「ターミネーターの世界が近づいてきた」と騒ぐ人がいるけど、このコンピュータの進化はもはや誰にも止めることはできない。

だとすると、記事中で言われているように、コンピュータの進化する力を使って人間も進化するように頑張るしか無い。人間も学習し続けるしかない。本当の意味で、"人間の思考能力をコンピュータが加速するようになる"なら、それは歓迎すべきことだと思う。

 

www.chosunonline.com 9時post

こちらは人類が負けたことをネガティブ傾向に書いている記事。「恐怖」「無力」と言ったワードをわざと入れているようであまり感心しない。

盤面解説の棋士がAlphaGoが打つ意図を理解できないのは仕方のない話かもしれない。ひとつ上の記事でも言及されている通り、

ニューラルネットワークの中でどんなことが起きているのか、観測することはできるがその振る舞いを理解することはとても難しい。ちょうど脳活動はfMRIで観測できるが、そこで起きてることを理解するのが難しいのと似ている。

深層学習の結果として出される解を人間が解釈するのは難しい。コチラの記事でも言及されているが、機械が認知している世界はすでに、人間よりも広範囲で緻密であることがわかっている。その機械が出す結果を人間が解釈できないのも無理は無いという話。

 

headlines.yahoo.co.jp 13時post

「コンピュータが打つ碁」の驚きと不思議さが書かれたおもしろい記事。

碁をプレイする人はわかると思うが、19路盤の対戦において、中央部分の戦いは殆どが局面の終盤で起こるものなので序盤からそこを戦略的に読むことは難しい。序盤は「なんとなく」中央の石の模様が「厚く」なるように頭の隅で意識しながら周辺の戦いを行う。しかしAlphaGoはコンピュータ最大の武器である計算力によって序盤から中央の戦い方を読んでいるっぽい。

パク・チムン韓国棋院副総裁は「プロ棋士も中央に置くことを躊躇するのは、自身が置く手がどれほどのものなのか、どんな価値なのか分からないためだ。それで漠然と『厚み』と表現するだけだ。だがアルファ碁はこれをすべて数値化できるように見えた」と話した。

 こんなことができるからこそ、ある一時の場面では悪い手に見えても、局面全体としては重要な手を序盤から打つことができる。(そして人間にはその時の意図が読めない)

将棋と囲碁が対比される時、「将棋は左脳(論理的思考)、囲碁は右脳(空間認識)を使う」と言われる。囲碁は打ち手の組み合わせが圧倒的に将棋より多い(将棋は10の220乗、囲碁は10の360乗といわれる)ため、特に序盤の戦いは緻密な論理的戦略によって打つというよりは「なんとなくの石の模様の良さ」を意識して進める。このことを「右脳的」と言っているのだと思うが、それは人間の計算能力が低いだけで、コンピュータからすると囲碁も依然として「左脳的な」処理だけで行っているのかもしれない。人間が戦局を読みきれず(処理しきれず)なんとなくで打っている場面を、機械はすべて数値化し評価しているのだとすれば人間が勝てないのも無理は無い。

 

gigazine.net 19時post

 AlphaGoを作ったDeepMind CEOのDemis Hassabisに関する記事。

Desnis自身、AlphaGoが自分達の予想外の打ち方をしたりして驚くらしい。

囲碁の次の目標は?」という質問について、

私が思うに囲碁は情報ゲームとして完璧な物です。囲碁こそ最高峰です。とはいえ、確かにゲームは他にもあります。たとえば青天井のポーカーは非常に難しいものです。また、複数人との対決というのは情報が完全ではないが故の難しさもあります。戦略を要するゲームは他にもあります。しかし、囲碁はあらゆる要素を持ったゲームで、コンピューターにとって最も難しい対象なのです。

複数人で行うゲームは難しいとのこと。麻雀なんてどうですかね

 

(おまけ)DeepMindのDemis Hassabisの経歴について

Demis Hassabis (@demishassabis) | Twitter

gigazine.net

2014年12月の記事。Googleが500億円でDeepMindを傘下にした後に行われたインタビュー記事。

チェスの神童→ケンブリッジ飛び級でコンピュータサイエンス学位取得→ゲーム会社起業→脳神経科学の博士進学→DeepMind起業→Googleに買収そして今、という経歴らしい。

いまでこそ人工知能機械学習周辺がブームになり、プログラマーやエンジニアもこの分野にキャッチアップすべく数学などを勉強し直したりしているが、人工知能を学ぶため脳神経科学も学ぼうとする人は研究者でも無い限りほとんどいないだろう。研究者であったとしても日本の大学なんかだとコンピュータサイエンスと脳科学の両方を教えられる人や環境がないので本当にほんの一握りの人しかいないと思う。(しかしこういった場所に行くと両方に明るい学生などがたくさんいてビビる)。Denis氏はそういった難しい領域でも成果を出し続けた稀有な人らしい。これが天才ってやつか

 

2016/3/12 Sat 13:00~(第三戦日)

第三戦は先手がLee Sedol。結果はAlphaGoの勝利。AlphaGo3連勝...この時点でこの大会の勝ちはAlphaGoに決まったが勝負は第五戦まで続く。

d.hatena.ne.jp 10時post

素人向けにAlphaGoのニューラルネットについて簡単にだが触れられている記事。

 

www.asahi.com 17時post

 

AlphaGoの今回の件まとめ

 
ちなみにヒカルの碁の「高永夏(コヨンハ)」のモデルになった人物こそ Lee Sedolらしいですよと。