ML/DS Casual Tech Talk @September 2, 2024　 | Notion

@Masataka Kashiwagi

In Defense of RAG in the Era of Long-Context Language Models

In Defense of RAG in the Era of Long-Context Language Models

Order-Preserve RAG が Long-Context LLM よりも少ないトークン数で高い回答品質を達成できるポイントがあるという話
- Long-Context は膨大なトークン数によりコストがかかったりレイテンシーが目立つ
- 極端に長いコンテキストは関連情報へのアクセスを妨げうる
- 今回のケースでは，OP-RAG は1つのドキュメントを 128 tokens/chunk で分割するので，コンテキスト長は 128 * 検索する chunk 数になる

∞Bench (Long-Context 用) のデータセットで評価

∞Bench (Long-Context 用) のデータセットで評価

OP-RAG
- 普通の RAG は関連度が高い順番で取り出されるが，OP-RAG はそのままの順序で取り出す
  - なぜ上手く行くのかは書いてなかったが，1つの文章を overlap なしでチャンク分割しているので，上から取り出した方が一定文章における文脈を考慮できて回答を生成できるから？
所感：
- prompt caching とかが上手く使えれば Long-Context のコストは抑えられそう？
- システムプロンプト（指令書）とユーザープロンプトは分けてシステム側へコンテキストを詰め込まない方が適切かなと感じた

@Higuchi Kokoro

インタビューを通じてユーザーを観察する”擬似観察”のすすめ

インタビューを通じてユーザーを観察する”擬似観察”のすすめ - inSmartBank

インタビューで深い示唆を得るため方法を説明した記事
- 表層的なユーザの発言は、空気を読んだり､その人の背景や性格などのいくつもの要因に依り変わる
- なので、その人の生活背景など広く聞いた上で、ユーザーを擬似的に観察することが大切
また、本音を吸い出すためにも最初の5分で関係値を構築するのも大切

RAGにベクトルDBは必要ない！DBも不要で運用めちゃ楽な RAG Chatbot を作った話

RAGにベクトルDBは必要ない！DBも不要で運用めちゃ楽な RAG Chatbot を作った話