ML/DS Casual Tech Talk @Last Monday

@Higuchi Kokoro

The Inference Shift

人間とAIがQ→Aするようなシステムの推論に求められる要求と、AI Agentが人間の手を離れて進めるタイプのタスクは、要求が異なりそう
- たとえば
  - 夜中に大量の調査をする
  - コードを書いて検証して、PRする
  - 他のAIやシステムから指示されて仕事する
対人間で求められるもの
- スピード
  - Cerebres, Groqなどが向いてそう
エージェント間推論で求められるもの
- 大きなコンテキスト
- 安価で大量なDRAM, SSD
- 速さよりも記憶・状態・履歴・外部データの安定性
としたときに、NVIDIAみたいな、処理スピード速い、高いGPUや、Groqみたいな処理スピード最速、メモリが小さい、みたいな形じゃないGPUも欲しがられるのかも

@FukasawaYusuke

Checkpoints Are Not Durable Execution

LangGraph, CrewAI, Google ADK などが色々出てきているが、それらはデモはできても本番には適さないぜ、という主張のブログ
なぜかというと、それらが提供しているチェックポインティングが貧弱だから
- adk でいうところの session service
それぞれの難しさを紹介
- LangGraph … チェックポイントをどのようにマネージするかは実装した本人が気をつけるしかない(Checkpointers That Require You to Be the Orchestrator)
```
config = {"configurable": {"thread_id": "workflow-123"}}
 
try:
   result = graph.invoke({"query": "process this"}, config=config)
except Exception as e:
   # You detected the failure. Now you resume manually.
   result = graph.invoke(None, config=config)
```
  - 何が問題か？→ Auto Fail Detection のような便利なものはない！しかも見つけたとしても、そのミスしたワークフローの正しい thread_id を見つけ出して graph.invoke しない限り復帰できない(厳しい)。もちろん二重実行を防ぐ機構もなければ、タスクキューのような仕組みも持っていない
- CrewAI … ただし「自律でない」エージェントだけ、しかも復旧処理は自前実装が前提
  - リプレイ機能あり
```
crewai replay -t <task_id>
```
  - 二重実行などを防止する機能あり(SQLite に成功した状態を保存する)
```
@persist
class MyFlow(Flow[MyState]):
   @start()
   def step_one(self):
       self.state.counter = 1
 
   @listen(step_one)
   def step_two(self):
       self.state.intermediate_results["step2"] = "result"
```
  - human in the loop もできる
```
flow = MyFlow.from_pending(flow_id="abc123")
result = flow.resume(feedback="approved")
```
  - 何が問題か？
    - Task Replay は「最後の kickoff だけ」しか保持しない
      - 履歴の蓄積はなく、何百ものクルーを動かしていて「どれが失敗したか」を特定しリプレイしようとしても、それを支援する仕組みはなし
    - @persist ****は自動復帰機能ではない
      - 各ステップ成功後に状態は保存されますが、プロセスがクラッシュしてもフローを再起動してくれる存在はいない。
      - フレームワーク側が自動で完了済みステップをスキップしてくれるわけではなく、すべてのメソッドに条件分岐ロジックを追加しなければいけないのはあなた！！
        
        @listen(step_one) def step_two(self): if self.state.step_completed >= 2: return # このスキップ処理は自分で書かないといけない # ... 実際の処理 ...
      - 分散実行なし
        
        CrewAI は単一プロセスで動作するのでやはりタスクキューもワーカープールもない
- google-adk … Event Sourcing Without the Orchestrator(嫌な予感が…)
  - まず前提として… adk は一番洗練されている！✨️ とのこと
    
    Google ADK's session management is the most architecturally sophisticated of the three, built on an event-sourcing model. Every interaction
  - 1.14 から resume 機能が追加。復帰させたい id を指定すればオッケー(?)
```
from google.adk.app import App
from google.adk.runtime import ResumabilityConfig
 
app = App(
   name='my_resumable_agent',
   root_agent=root_agent,
   resumability_config=ResumabilityConfig(is_resumable=True),
)
```
```
runner.run_async(
   user_id='u_123',
   session_id='s_abc',
   invocation_id='invocation-123'
)
```
  - 何が問題か？
    - No automatic failure detection.
      - やはり自動で失敗したワークフローを特定することはできない
    - No automatic restart.
      - 自動リトライもない。やるなら監視プログラムを作って失敗を補足したらそいつがリトライコールをしないといけない
    - Tool failures can crash entire workflows.
      - (sage でちょこちょこある) ツール実行が失敗するとワークフロー全体が落ちてしまって会話が止まる
    - No distributed orchestration.
      - VertexAI にデプロイすれば恩恵を受けられるが、フレームワーク自体に分散実行の機能はない
じゃあどうあるべき？
- チェックポイント方式はベストな選択肢じゃないんじゃないか？
  - → 必要なのは Durable Execution
  - チェックポイント方式「状態は保存したよ。あとは自分でなんとかして。」
  - Durable Execution 方式「あなたのエージェント・ワークフローは必ず完了する。以上。あとは全部こちらでやる。」
- それを実現しているフレームワーク → https://github.com/dapr/dapr-agents
  - 自動状態永続化
    - ワークフローのあらゆる await ポイントが、自動的にチェックポイントになっている。明示的な save 呼び出しも、デコレータの設定も、「どのステップを保存するか」の選別も不要
  - 自動障害復旧
    - 開発者は、ただの直線的な通常コードとしてワークフローを書くだけ
```
def order_processing_workflow(ctx, order):
   # Each await is automatically a durable checkpoint
   inventory = yield ctx.call_activity(check_inventory, input=order)
   payment = yield ctx.call_activity(process_payment, input=order)
   shipment = yield ctx.call_activity(arrange_shipping, input=order)
   return shipment
```
    - どのワークフローステップを実行する前にも、ランタイムは「耐久リマインダ」を作成。プロセスや Dapr、さらにはクラスター全体がクラッシュしても、そのリマインダが自動的にワークフローを再アクティブ化し、人手も外部システムも介さずに無期限にリトライする(それはそれで怖くない？)
  - リプレイ方式による session resume
    - 復旧時には、ワークフロー関数は最初からリプレイされるが、完了済みアクティビティはイベントログに保存された結果を返すだけで、再実行はされない。ローカル変数も含めて、何事もなかったかのように、ちょうど中断した場所から処理が行われる
  - 分散実行
    - ワークフローとアクティビティは、内蔵のオーケストレーター経由で、クラスター内のノードに分散して配置される。1 つのワークフローから、クラスター中の全ノードに向けてアクティビティをキックでき、ノード障害時には、自動で再配置
キーメッセージ: この違いは構造的な問題なので、以上挙げた3つのフレームワークが durable execution にたどり着くことは絶対にない。だから dapr agent みてみてね！