後訓練 (Post-Training) 概論


Llama 2 中文後訓練:
GPT-3.5 的微調:即使是看似無害的訓練,也可能破壞模型的安全對齊能力。

Llama 2 學習特定任務:當 Llama 2 學習推理、醫學知識、程式編寫或工具使用等新技能時,其性能會提高,但原本的 safety alignment 能力卻會「炸裂」,在有害問題檢測基準測試中錯誤率急劇上升。
其他基礎能力受損:災難性遺忘不僅限於安全對齊,還會影響模型的其他基礎能力。
跨模態學習:當文字模型(如 Llama)通過後訓練學習新的模態(如聽懂聲音)時,其文字相關能力也容易受到影響。例如,模型學會聽懂語音中的情緒後,可能就無法輸出 JSON 格式的答案。

概念 (2019 年的「舊石器時代」):最直接且有效的解決方案。
方法:在教導模型新任務的同時,混入少量(例如 5% 左右)過去訓練過的任務資料。
原理:模型並非真正遺忘,而是知識被「藏」起來了,需要少量過去資料作為喚醒的契機。

現代應用:儘管許多大型公司不提供原始訓練資料,但在 2023 年的研究中(如「Safety-Tune Llama」),仍可透過保留少量(例如 3%)的安全對齊資料並混入新資料中進行訓練,來保持模型的安全對齊能力。
概念:當無法獲取過去的真實訓練資料時,讓模型「自言自語」生成類似過去看過的訓練資料。
方法:
使用後訓練前的 Foundation Model。
讓模型產生一些句子,這些句子包含它自問自答的 Context、問題和答案。
將這些模型生成的資料視為「任務一」的訓練資料,混入「任務二」的訓練資料中,以避免災難性遺忘。

實際應用 (現代模型):