2025年の年始に読み直したAIエージェントの設計原則とか実装パターン集

AI Agentの実装パターンを紹介した記事
感想
- ツール呼び出しからのフィードバックが大切そう
- いろいろな人が提唱しており、似たような概念が多く登場するが、定義･言葉の揺れがまだまだ大きそう
- 開発ステップは他の人の事例をあまり見たことがなかったので参考になりそう

@FukasawaYusuke

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved...

小さい言語モデル(SLM)であってもモンテカルロ木探索(MCTS)を活用することで OpenAI o1 と同等の数学能力を得られることを示した論文
MCTS: 問題を解く過程をいくつかのステップに分けて、木として表現する。正解に到達した最終ノードにはQ-Valueとして1、そうでないノードには-1を与えて伝播させ、Q-Value によるフィルタリングでより筋の良い解法に進めるようにしている。MCTS は学習時にも学習データ生成のために用いられている。
rStar-Math が提案する 3つの工夫
1. 中間ステップをコードとして生成: 数学問題を解く際には CoT でアプローチするが、CoTで用いる中間ステップは自然言語だった。この自然言語の中間ステップに対する verification が何もなく、ここが間違っていることで結論も間違うことが多かった。rStar-Math では中間ステップで自然言語と一緒に Python コードを生成。Python コードを実行してみて自然言語で述べていることと合致するか(正確か)を検証できるようにして、それが通ったステップのみを MCTS の分岐として採用する。
2. プロセス報酬モデル（PPM）の導入: 中間ステップを適切に評価することでより適切な中間ステップ生成を目指したい。ということで、中間ステップに与えられた Q-Value を用いてステップに対するペアワイズランキングモデルを学習。これで中間ステップへの数値的報酬を与えられるようになった。
  1. Q-Value そのものを使って報酬モデルを作ることもできるが、Q-Value 自体は結構揺れやすいので信頼性に欠ける(し、相対的な順位をつけるほうが頑健)
3. 自己進化: と論文では書かれているが、4つのステップでモデルを改善していくということらしい(その気になれば5,6,7,とやっていけそうではある)
  1. DeepSeek-Coder-V2-Instruct を用いた MCTS で学習データを生成。この時点では特に中間ステップに対する報酬付けなどは行われていない(上で述べたところでいうと要素1のみ活用)。生成した学習データを用いて Qwen2.5-Math-7B を学習させる。SLM-r1
  2. ここで生成したステップを使って PPM(r1) を学習する。SLM-r2 も前ラウンドと同様に学習させて作る
  3. ここから PPM(r1) でスコアリングしたものを使って MCTS の探査を行うように。
  4. PPM での探査は継続。また、この最終ラウンドでは MCTS の試行回数を 16 から最大 128 回まで増加。
結果
- ベースのモデルよりも圧倒的に良くなっている
  - 世代が上がるにつれてどんどん良くなっているのもわかる