@Masataka Kashiwagi
Learn how to build and scale Generative AI solutions with GenOps | Google Cloud Blog
GenOps(MLOps for Gen AI):生成 AI のための MLOps
ユニークな課題として以下がある
Hidden Technical Debt in Gen AI Systems
プロンプト関連で従来と異なる要素がある
GenOps パイプライン
Sample architecture for GenOps
データ:Few shot 用のサンプルや評価データセットなど
プロンプト管理: Vertex AI Studio で共同管理できる
モデルのファインチューニング: ファインチューニングデータを使用して学習済みモデルを調整する
Google Mesop: python ベースの Web UI
UI built using Google Mesop for RLHF
モデル評価: モデルベースと計算ベースのメトリクス
モデルのデプロイ
モニタリング
@FukasawaYusuke
Generative Verifiers: Reward Modeling as Next-Token Prediction
LLMが問題に対して答えを出す。その後にLLM自身がその答えに対して検証を始めて、その検証の結果、この検証が合ってました(間違ってました)の結果が全部一つの並びになったようなデータを作る
例えば具体的な問題でいうと、上記のような問題文があって、まずこのモデルが出した答えがあって、この後に普通はソリューションに対して独立にこの出した答えが合ってるかどうかっていうモデルがいるんですけれども、このモデル自体が何も言語の能力も使わずいきなりこれを与えられて分類するだけなので、結構難しい問題を解いています。
これに対して、GenRM-CoTは、この答えが合っているかどうかという検証をステップバイステップで検証しましょうというようなことをやっています。
ステップごとに分解して検証して、これが正しくなかったということで、最終的にverificationで”Is the answer correct?”で”No”を出すというようなことをしていて、これ全体をできるように次のトークン予測で学習をしています。