Anthropic、Claude Fableの目に見えないガードレール問題で謝罪

問題の発覚

AnthropicがClaude Fableに実装したガードレールが、ユーザーに見えない形で機能していたことが明らかになりました。蒸留技術を用いた透明性の欠如が、信頼性の問題につながったとして同社は謝罪しています。

Claude Fableでは、より小型なモデルの開発過程で蒸留技術が用いられました。この過程で安全機能が不透明に組み込まれ、ユーザーがシステムの制限を理解しにくくなっていました。

Anthropicは透明性の重要性を認識し、ガードレール機能の可視化と説明の充実を約束しています。AIモデルのセーフティ設計における透明性確保の重要性が改めて指摘されました。