@Higuchi Kokoro
ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する
ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜 / How to approach harness engineering
- ハーネス = ルールファイルの整備と捉えると何が抜け落ちるか
- 大きく解釈すると
- 開発キックのトリガーの改善
- 確率論がある中でのパイプライン
- self-improve
- モデルやマネージドサービスの進化によって消えづらいレイヤーに投資しよう
- ドメイン知識
- 評価の仕組み
- 自己改善ループ
- ワークフローなど
An update on recent Claude Code quality reports
An update on recent Claude Code quality reports
- サイレントでthinking budget のデフォルト変えた
- idle後のキャッシュ戦略がバグって、必要なコンテキストまで消してた
- 出力トークンを抑えるシステムプロンプトを入れたら、意図せず性能下がってた
@MizutaYuki
p1: Better Prompt Optimization with Fewer Prompts
arxiv.org
- 強化学習(RL)を用いてシステムプロンプトを自動最適化
- 指示従順タスク(IFBenchなど)ではRLがうまく機能するのに、数学推論(AIMEなど)では計算リソースを大量に投下しても全く性能が上がらない