>DQN内部には、あるアルゴリズムによる評価関数があるんだと
>桜井以外の人間は容易に理解するけどな(笑)

DQN内部にあるアルゴリズムによる評価関数は別に特別でない。
IBMのDeepBlueは評価関数を使っているが、独自に判断する事ができない。

言語は音素のような音の要素とか、文法のようなアルゴリズムが基本ではない。
DQNの凄さは評価関数ではなく、文法の正誤のようなアルゴリズムで判断しない事だ。

フィードバックを評価関数を使い自ら評価をして学習する事にある。
人間がフィードバックを得て試行錯誤で学習するのと同じ強化学習だ。