>たくさんの「Let's look up the word in the dictionary」の音声を聞いて
>いろんなパターンから「Let's look up 〜」の特徴を学習し、
>まったく別の人が発声しても「Let's look up the word in the dictionary」だと認識する
>これがAIの音声認識のディープラーニング

AIと言ってもたくさんの音声を聞いて、いろんなパターンからの特徴を学習して
マッチングするのではない。
AIの音声認識は多くのネイティブのいろいろな音声をデータベースで持っている。
つまり複数の音響モデルの予測を組み合わせるアプローチが使われている。
そして音声認識をする音声と、データベースの音響モデルの音とマッチングをする。
音声の特徴が似ていればその音声のテキストを表示する。
特徴を学習しているのではなく、音響モデルに似た音があれば
認識できたとして、テキストを表示するだけだ。