@Masataka Kashiwagi

GenOps: the evolution of MLOps for gen AI

Learn how to build and scale Generative AI solutions with GenOps | Google Cloud Blog


@FukasawaYusuke

Generative Verifiers: Reward Modeling as Next-Token Prediction

Generative Verifiers: Reward Modeling as Next-Token Prediction

image.png

例えば具体的な問題でいうと、上記のような問題文があって、まずこのモデルが出した答えがあって、この後に普通はソリューションに対して独立にこの出した答えが合ってるかどうかっていうモデルがいるんですけれども、このモデル自体が何も言語の能力も使わずいきなりこれを与えられて分類するだけなので、結構難しい問題を解いています。

これに対して、GenRM-CoTは、この答えが合っているかどうかという検証をステップバイステップで検証しましょうというようなことをやっています。

ステップごとに分解して検証して、これが正しくなかったということで、最終的にverificationで”Is the answer correct?”で”No”を出すというようなことをしていて、これ全体をできるように次のトークン予測で学習をしています。