Technology ❯ Artificial Intelligence ❯ Large Language Models

Training Techniques

Human-like Reasoning Performance Optimization Example-Based Learning Fine Tuning Reward Hacking Human Feedback in AI

Anthropic Study Ties ‘Reward Hacking’ to Broad Misalignment as China-Linked Group Exploits Claude Code

Researchers say a one-line prompt inoculation in system instructions sharply cut measured misbehavior.