ということで、「モンテカルロ木検索」の一つ前で。
こういうことを考えて見ます。
『三人の学生さんに100点満点の採用試験を受けてもらいました。
結果は伝えてありますが、あなたは知りません。
今1人ずつ学生さんに面接して、点数を聞く事が出来ます。
出来るだけ高い点数を取った学生さんを採用したいのですが
1人ずつ順に、会ったその場で決めて、なおかつ後戻りは出来ません。

こういうときに、できるだけ高い点数を取った生徒を採用するには
どのような方法を取ればいいでしょうか?』

と言う問題を考えて見ます。
どう考えたらいいでしょう? 点数の高い人が何番目に来るかは分かりません。
あったその場でしか決められないから、全員に質問して
何番目の人!とも出来ません><

こうなると、しらみつぶしに考える!のが最短距離かも??
 言い方が不正確になるので、ここでは「しらみつぶし法」と読んでおきますね。

三人の学生さんを A,B,Cさんとしておきます。
点数は、AさんTOP Bさん2位 Cさん3位 としておきます。

ここからしらみつぶし法・・・。
順に
1.ABC 2.ACB
3.BAC 4.BCA
5.CAB 6.CBA
この6通り がすべてです。
 小さいのでこの程度なら考えられます・・・。
 数学の素養のある方は、ダイナミックプログラムですから、
 ここから回答を簡単に得られます。

一応先に回答を。 多分これでいいと思いますが・・・。

一人目:点数を聞いて パス
二人目:点数を聞いて 一人目よりも高ければ その人を採用!
 一人目よりも低ければ パス
三人目:自動的に採用(パスして全員不採用でもいい?)

この方法を、上の1〜6に当てはめてみてください。
Cさん(最下位)の方を採用するケースは 6つのうちに一つだけ。
残りの5つでは、TOP2を必ず採用できますよね。

これは今人間が考え出した方法です。
人工知能AI が どういう考え方を取っているのか?

ディープラーニング と言うものが、僕の上げた回答をAIが考え出す(探し出す)方法。
それまでは、しらみつぶし法で考えている・・・。
 実際にはちょっと違いますが。
モンテカルロ木検索の第一弾は、こんな感じで。

次はもう少し深く、対戦形式でゲーム理論を絡めます。
 といっても難しいのは説明できませんが。

たたき台ですので、間違いがありましたら、訂正お願いします

なお、この問題は「ナンパの問題」「お見合いの問題」と呼ばれているものを
改造したものです〜。