0069名無しさん@英語勉強中
2015/05/18(月) 11:49:48.83ID:kc+YQfaR>桜井以外の人間は容易に理解するけどな(笑)
DQN内部にあるアルゴリズムによる評価関数は別に特別でない。
IBMのDeepBlueは評価関数を使っているが、独自に判断する事ができない。
言語は音素のような音の要素とか、文法のようなアルゴリズムが基本ではない。
DQNの凄さは評価関数ではなく、文法の正誤のようなアルゴリズムで判断しない事だ。
フィードバックを評価関数を使い自ら評価をして学習する事にある。
人間がフィードバックを得て試行錯誤で学習するのと同じ強化学習だ。