問題の発覚
AnthropicがClaude Fableに実装したガードレールが、ユーザーに見えない形で機能していたことが明らかになりました。蒸留技術を用いた透明性の欠如が、信頼性の問題につながったとして同社は謝罪しています。
蒸留技術の課題
Claude Fableでは、より小型なモデルの開発過程で蒸留技術が用いられました。この過程で安全機能が不透明に組み込まれ、ユーザーがシステムの制限を理解しにくくなっていました。
今後の改善方針
Anthropicは透明性の重要性を認識し、ガードレール機能の可視化と説明の充実を約束しています。AIモデルのセーフティ設計における透明性確保の重要性が改めて指摘されました。
📰 元記事を読む