@Masataka Kashiwagi
In Defense of RAG in the Era of Long-Context Language Models
In Defense of RAG in the Era of Long-Context Language Models
- Order-Preserve RAG が Long-Context LLM よりも少ないトークン数で高い回答品質を達成できるポイントがあるという話
- Long-Context は膨大なトークン数によりコストがかかったりレイテンシーが目立つ
- 極端に長いコンテキストは関連情報へのアクセスを妨げうる
- 今回のケースでは,OP-RAG は1つのドキュメントを 128 tokens/chunk で分割するので,コンテキスト長は 128 * 検索する chunk 数になる


∞Bench (Long-Context 用) のデータセットで評価
-
OP-RAG
-
所感:
- prompt caching とかが上手く使えれば Long-Context のコストは抑えられそう?
- システムプロンプト(指令書)とユーザープロンプトは分けてシステム側へコンテキストを詰め込まない方が適切かなと感じた
@Higuchi Kokoro
インタビューを通じてユーザーを観察する”擬似観察”のすすめ - inSmartBank
- インタビューで深い示唆を得るため方法を説明した記事
- 表層的なユーザの発言は、空気を読んだり、その人の背景や性格などのいくつもの要因に依り変わる
- なので、その人の生活背景など広く聞いた上で、ユーザーを擬似的に観察することが大切
- また、本音を吸い出すためにも最初の5分で関係値を構築するのも大切
RAGにベクトルDBは必要ない!DBも不要で運用めちゃ楽な RAG Chatbot を作った話
RAGにベクトルDBは必要ない!DBも不要で運用めちゃ楽な RAG Chatbot を作った話