>違いは評価関数の考え方だけ


2015年2月に米グーグルはNature誌でブロック崩しなどの電子ゲームの攻略法を自らプレーをする事により人間以上の高得点を出せる人工知能を開発したと発表し、世界を驚かせました。

その驚きの理由は人間に勝利した事よりも、コンピュータが自ら学ぶ事ができ、その仕組みが人間の脳の働きをベースにしている事でした。

米グーグル子会社のDeepMind社、ハサビス社長らのチームがDQNという人工知能はDeep Learning(深層学習)と強化学習を組み合わせたシステムです。
過去において人工知能でこの2つの学習手法を組み合わせるのは前例のないことです。

強化学習とは、人間の脳のように一連の行動のフィードバックを得て報酬が最も
多く得られるような方策を学習する仕組みです。

1997年にIBMのDeepBlueが当時のチェス世界チャンピオンを打ち負かした手法は
開発チームにチェスの名人が加わっていて、彼らがアルゴリズムをプログラムに組み込みチェスの知識をただ実行したにだけでDeepBlueが学習したわけではないのです。

それに対して、DQNはゼロから学習します。知覚的な経験を与えてやると