arXiv:2511.08487v1 Announce Type: cross 
Abstract: Current safety evaluations for LLM-driven agents primarily focus on atomic harms, failing to address sophisticated threats where malicious intent is concealed or diluted within complex tasks. We address this gap with a two-dimensional analysis of agent safety brittleness under the orthogonal pressures of intent concealment and task complexity. To enable this, we introduce OASIS (Orthogonal Agent Safety Inquiry Suite), a hierarchical benchmark with fine-grained annotations and a high-fidelity simulation sandbox. Our findings reveal two critical phenomena: safety alignment degrades sharply and predictably as intent becomes obscured, and a "Complexity Paradox" emerges, where agents seem safer on harder tasks only due to capability limitations. By releasing OASIS and its simulation environment, we provide a principled foundation for probing and strengthening agent safety in these overlooked dimensions.

تقدم ورقة جديدة OASIS، وهو معيار لتقييم أمان الوكلاء المدعومين بـ LLM، مشيرة إلى أن التقييمات الحالية تتجاهل التهديدات المعقدة حيث يتم إخفاء النية. تكشف الدراسة أن توافق الأمان يتدهور مع تعتيم النية وتقدم 'مفارقة التعقيد' حيث يبدو أن الوكلاء أكثر أمانًا في المهام الصعبة بسبب قيودهم. هذه الأبحاث مهمة لتعزيز أمان الوكلاء في بيئات تزداد تعقيدًا.

Un nuevo artículo presenta OASIS, un marco para evaluar la seguridad de los agentes impulsados por LLM, destacando que las evaluaciones actuales pasan por alto amenazas complejas donde la intención está oculta. El estudio revela que la alineación de seguridad se degrada a medida que la intención se oscurece y presenta un 'Paradoja de Complejidad' donde los agentes parecen más seguros en tareas difíciles debido a sus limitaciones. Esta investigación es crucial para mejorar la seguridad de los agentes en entornos cada vez más complejos.

Un nouvel article présente OASIS, une référence pour évaluer la sécurité des agents pilotés par LLM, soulignant que les évaluations actuelles négligent les menaces complexes où l'intention est dissimulée. L'étude révèle que l'alignement de la sécurité se dégrade à mesure que l'intention s'obscurcit et présente un 'Paradoxe de Complexité' où les agents semblent plus sûrs sur des tâches difficiles en raison de leurs limitations. Cette recherche est cruciale pour améliorer la sécurité des agents dans des environnements de plus en plus complexes.

A new paper introduces OASIS, a benchmark for evaluating the safety of LLM-driven agents, highlighting that current assessments overlook complex threats where intent is concealed. The study reveals that safety alignment deteriorates as intent obscures and presents a 'Complexity Paradox' where agents appear safer on difficult tasks due to their limitations. This research is crucial for enhancing agent safety in increasingly complex environments.

How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity

Was this article worth reading? Share it

Ready to build your own newsroom?