Strategy Analysis

Deep dive into how models handle different attack vectors. We compare Direct policy violations against Adversarial attempts (jailbreaks) and measure false positives on Benign queries.

🛡️ Robustness Matrix

Comparing Policy Strictness (Direct) vs Jailbreak Resistance (Adversarial).
Ideally, models should be high in Robustness (Y) without being overly Strict (X).

Ideal (Robust & Balanced)

Vulnerable (Weak)

Strategy Analysis

🛡️ Robustness Matrix

Over-Censorship (Benign Checks)