研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容萍乡市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功萍乡市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
据央视军事消息,29日上午,东部战区开展“正义使命-2025”演习。围岛进逼,夺取制权,精准寻歼,插翅难逃,东部战区发布军事演习现场视频《进逼 夺权 阻逃》。 此次演习,主要有哪些内容?国防大学
...[详细]
-
徐州泉山区一餐饮店发生火灾,官方通报:7名被困人员被及时救出
10月5日早间,江苏徐州市泉山区消防救援大队发布火情通报。2024年10月4日14时01分,徐州市消防救援支队指挥中心接到报警称,泉山区和平街道民安巷一餐饮店发生火灾,指挥中心立即调派辖区消防救援力量
...[详细]
-
遇见石景山△北京市级非物质文化遗产——京式旗袍周日天气10月6日10℃~18℃不限号北京红叶上线!石景山这里将进入最佳观赏期十一返京高峰来临!建议避开高峰时段及易拥堵路段10月有这些考试,别错过→快讯
...[详细]
-
当地时间10月7日,苏丹卫生部发布声明表示,该国新一轮霍乱疫情已蔓延至全国11个州的67个地区,造成626人死亡。 声明说,当天发布的霍乱流行病学情况报告显示,苏丹全国累计霍乱病例达21288例
...[详细]
-
当地时间12月24日,也门胡塞武装“战俘事务全国委员会主席”阿卜杜勒-卡迪尔·穆尔塔达表示,当天在联合国和红十字国际委员会的斡旋与监督下,签署了关于从所有战线和地区搜寻并移交遗体的协议。协议签署后
...[详细]
-
原标题:近视手术后可参加海军飞行学员选拔 ) 近视手术后可参加海军飞行学员选拔据中国海军招飞网,近日,2025年度海军招收选拔飞行学员简章发布,继续面向高中毕业生
...[详细]
-
徐州泉山区一餐饮店发生火灾,官方通报:7名被困人员被及时救出
10月5日早间,江苏徐州市泉山区消防救援大队发布火情通报。2024年10月4日14时01分,徐州市消防救援支队指挥中心接到报警称,泉山区和平街道民安巷一餐饮店发生火灾,指挥中心立即调派辖区消防救援力量
...[详细]
-
图为涉事的才子家苑小区门口 受访者供图近日,湖南省长沙市才子佳苑小区业委会主任欧阳某侵占百万公款案一审判决生效,欧阳某因职务侵占罪被判处有期徒刑五年。澎湃新闻此前报道,欧阳某职务侵占案于8月9日在长沙
...[详细]
-
理想的2025年有点失意。前段时间,李想坦言:“过去三年我和创业团队努力学习职业经理人的管理体系,逼迫自己接受各种变化,却变成了越来越差的自己。”过去几年每当理想遭遇困难时刻,李想都会通过微博发表自己
...[详细]
-
新京报讯记者张璐)记者从北京市公园管理中心获悉,国庆假期第五天,市属11家公园及中国园林博物馆、热门景区游客平稳回落,共迎客 68.2万人。排名前三的是颐和园、天坛公园、北海公园。根据昨日公布的数据来
...[详细]

最常见的蔬菜,涨的比肉都贵了?
普京突然穿上了军装