@Higuchi Kokoro
(DBのメタデータ綺麗にしなきゃ…)
2025年の年始に読み直したAIエージェントの設計原則とか実装パターン集
@FukasawaYusuke
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved...
小さい言語モデル(SLM)であってもモンテカルロ木探索(MCTS)を活用することで OpenAI o1 と同等の数学能力を得られることを示した論文
MCTS: 問題を解く過程をいくつかのステップに分けて、木として表現する。正解に到達した最終ノードにはQ-Valueとして1、そうでないノードには-1を与えて伝播させ、Q-Value によるフィルタリングでより筋の良い解法に進めるようにしている。MCTS は学習時にも学習データ生成のために用いられている。
rStar-Math が提案する 3つの工夫
中間ステップをコードとして生成: 数学問題を解く際には CoT でアプローチするが、CoTで用いる中間ステップは自然言語だった。この自然言語の中間ステップに対する verification が何もなく、ここが間違っていることで結論も間違うことが多かった。rStar-Math では中間ステップで自然言語と一緒に Python コードを生成。Python コードを実行してみて自然言語で述べていることと合致するか(正確か)を検証できるようにして、それが通ったステップのみを MCTS の分岐として採用する。
プロセス報酬モデル(PPM)の導入: 中間ステップを適切に評価することでより適切な中間ステップ生成を目指したい。ということで、中間ステップに与えられた Q-Value を用いてステップに対するペアワイズランキングモデルを学習。これで中間ステップへの数値的報酬を与えられるようになった。
自己進化: と論文では書かれているが、4つのステップでモデルを改善していくということらしい(その気になれば5,6,7,とやっていけそうではある)
結果