ML/DS Casual Tech Talk @January 20, 2025

@Higuchi Kokoro

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1

DeepSeek-R1の論文
- 純粋な強化学習(RL)と少量の教師ありデータでLLMの推論精度を大幅に高めたモデル
- 多くのモデルは大量の教師データでファインチューニング(SFT)して、RLで精度を高めるが、本論文では、SFTなしでいきなりベースモデルにRLを適応しても高い推論力を得られる方法を発見した(DeepSeekR1-Zero)
  - RLの学習過程でモデルが自発的に「再考」や「反省」を行うような思考プロセスを身につける“アハ体験”が観測される
- ただしR1-Zeroは可読性や言語混在の課題があるため少量のコールドスタートデータを加えたSFTと多段階のRLを組み合わせたDeepSeek-R1を開発した
  - これによりQA･コード生成･数学など多岐にわたるタスクで既存モデルを上回る性能を示した
- また、獲得した推論パターンを小規模モデルに蒸留することで、小さなパラメータでも大幅に推論性能を向上させた
Large-scale Reinforcement Learningは何をしてるか?
- 数学やコーディングの問題など、正解を定義しやすい問題で、答えがあっているか、答えの形式がキチンとしているか。を強化学習でポイントを与える
- 複数の回答を出せて、報酬を計りパラメータを更新する
Rejection Samplingとは?
- 1つの問いにモデルに大量の回答をさせる
- 合格な物を評価

flowchart TB
    %% ノードの定義
    A[DeepSeek-V3-Base 事前学習済みベースモデル]
    Z[DeepSeek-R1-Zero RLのみ]
    R[DeepSeek-R1 推論 非推論 + 安全対応]

    %% DeepSeek-R1-Zero の流れ
    A -->|RL Reasoning Tasks| B[モデル更新 No SFT]
    B --> Z

    %% DeepSeek-R1 の流れ
    A -->|SFT with Cold-Start Data| C[モデル更新 初期]
    C -->|RL Reasoning Tasks| D[モデル更新 推論強化]
    D -->|Rejection Sampling 正答のみ選別| E[SFT用 新データ 推論+非推論]
    E -->|SFT 約80万件| F[モデル更新 多領域]
    F -->|RL 全シナリオ: 安全 + Helpful| R

Aider LLM Leaderboards

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

@FukasawaYusuke

A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches

http://35.73.85.241/ demo

A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches