研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容萍乡市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功萍乡市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:时尚)
-
12月29日开始,中国人民解放军东部战区组织陆军、海军、空军、火箭军等兵力,位台湾海峡、台岛北部、台岛西南、台岛东南、台岛以东等区域,开展代号为“正义使命-2025”的联合演习。 上午9时30分
...[详细]
-
每秒200次对垃圾分类计算和校对准确率95%以上物业整改时效缩短至17分钟……近年来瀛海镇率先在全市推行镇街级垃圾分类AI管理设备及全流程智慧化管理系统全覆盖应用做到实时监管实现垃圾分类精准治理“无人
...[详细]
-
每秒200次对垃圾分类计算和校对准确率95%以上物业整改时效缩短至17分钟……近年来瀛海镇率先在全市推行镇街级垃圾分类AI管理设备及全流程智慧化管理系统全覆盖应用做到实时监管实现垃圾分类精准治理“无人
...[详细]
-
契税调整以后,我们发现得益的是90-140平米之间的户型。因为原先这部分,不管是首套的1.5%还是二套的3%,现在统一都变成了1%,所以交契税确实是实惠的。怕大家不理解契税政策是怎么变的,在此给大家做
...[详细]
-
加湿器、香薰机……你的冬日幸福感,可能正在偷袭你的肺!2025-12-26 14:55:55 来源:央视网微信公众号
...[详细]
-
封面新闻记者 杨峰 邹阿江 刘雨薇 陈彦霏 珠海报道11月12日,第十五届中国航展在广东珠海开幕。首次来访中国的俄罗斯第五代隐身战机苏-57和其62岁的驾驶员谢尔盖·博格丹共同引得观众瞩目。12日下午
...[详细]
-
除了回款效率榜之外,我们也对各批次赚钱最多的项目和总经理进行了评选。先公布比赛结果:1.2022年三批次:冠军:中海北京倪键刚-中海富华里汇园亚军:中建壹品田植钊—栖海澐颂季军:中海北京倪键刚-中海和
...[详细]
-
航展公众日第一天,空军“红鹰”飞行表演队空中高难度炫技,太“秀”了!回顾精彩现场↓↓
...[详细]
-
来源:懂球帝 前曼联球星纳尼近日接受了采访,他声称,俱乐部在鲁本-阿莫林手下出现的纪律问题,在老特拉福德由亚历克斯-弗格森爵士执掌时绝不会发生。 在阿根廷国脚亚历杭德罗-加纳乔及其兄弟罗伯托公
...[详细]
-
11月12日北京新房网签283套,二手房网签893套丨每日网签
据北京市住建委官网数据显示,11月12日北京新房网签283套,网签面积28545.47㎡,其中住宅网签151套,网签面积19102.48㎡;二手房网签893套,网签面积73857.73㎡,其中住宅网签
...[详细]

莫斯科发生爆炸案,两名交警在内三人死亡