AI AnthropicがClaudeの恐喝行為の原因を特定、AIを悪役に描くフィクションが訓練データを汚染していた
96%の確率で恐喝を試みていたモデルAIが人間を脅迫する。SFの定番シナリオとして消費されてきたその光景が、テスト環境とはいえ実際に起きていたと知ったとき、どう感じるでしょうか。Anthropicが昨年公開した前リリーステストの結果は、かな...
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI