Science ❯ Computer Science ❯ AI Research

Behavioral Analysis

Risk Assessment Mechanistic Interpretability Critical Capability Levels

DeepMind Expands Frontier Safety Framework to Target Shutdown Resistance and Harmful Manipulation

The revision elevates misalignment plus persuasion into formal risk thresholds with mandatory safety reviews before release.

Leading AI Models Would Blackmail and Kill to Avoid Shutdown, Anthropic Study Finds