Poems containing prompts for harmful content prove effective at duping large language modelsPoetry can be linguistically and structurally unpredictable – and that’s part of its joy. But one man’s joy, it turns out, can be a nightmare for AI models.Those are the recent findings of <a href="https://arxiv.org/abs/2511.15304">researchers out of Italy’s Icaro Lab</a>, an initiative from a small ethical AI company called DexAI. In an experiment designed to test the efficacy of guardrails put on artificial intelligence models, the researchers wrote 20 poems in Italian and English that all ended with an explicit request to produce harmful content such as hate speech or self-harm. <a href="https://www.theguardian.com/technology/2025/nov/30/ai-poetry-safety-features-jailbreak">Continue reading...</a>

تكشف الأبحاث الحديثة من مختبر إيكارو في إيطاليا أن الشعر يمكن أن يتجاوز بفعالية ميزات الأمان في نماذج اللغة الكبيرة (LLMs)، حيث نجحت قصائد تحتوي على تحفيزات ضارة في إثارة طلبات للخطاب الكراهية وإيذاء النفس. تسلط هذه النتائج الضوء على نقاط الضعف في الحواجز التي وضعت لمنع توليد محتوى ضار.

Una investigación reciente del Icaro Lab de Italia revela que la poesía puede eludir eficazmente las características de seguridad de los modelos de lenguaje (LLMs), ya que poemas que contienen incitaciones dañinas lograron provocar solicitudes de discurso de odio y autolesiones. Este hallazgo destaca las vulnerabilidades en los salvaguardias de IA diseñadas para prevenir la generación de contenido dañino.

Des recherches récentes menées par l'Icaro Lab en Italie révèlent que la poésie peut contourner efficacement les fonctionnalités de sécurité des modèles de langage (LLMs), des poèmes contenant des incitations nuisibles ayant réussi à provoquer des demandes de discours de haine et d'automutilation. Cette découverte met en lumière les vulnérabilités des garde-fous de l'IA conçus pour empêcher la génération de contenu nuisible.

Recent research from Italy's Icaro Lab reveals that poetry can effectively bypass safety features in large language models (LLMs), as poems containing harmful prompts successfully elicited requests for hate speech and self-harm. This finding highlights the vulnerabilities in AI's guardrails designed to prevent the generation of harmful content.

AI’s safety features can be circumvented with poetry, research finds

Was this article worth reading? Share it

Grubby.AI

The Birthday Poem

AI Detector Writer