🏷️ AI Safety Alignment

1 articles about 'AI Safety Alignment'

How Dynamic Adversarial Fine-Tuning Reshapes Model Refusal Geometry

2026-05-01 research 👁 11

A latest arXiv study reveals that dynamic adversarial fine-tuning reorganizes the refusal directions of language models …