研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容萍乡市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功萍乡市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
CBA常规赛第五轮,四连败的天津男篮主场对阵四连败的江苏男篮,比赛还剩1分19秒,天津男篮一波9比0将比分追至82比82。罚球、突破、长传,送出这一波的来自同一个球员,一个26岁的大龄新秀——庞峥麟。
...[详细]
-
2024年10月23日 谣 言完成“个人数据资产变现权确权”,即可提现? 真相:近期,有网民在短视频平台发布关于“人民资产APP”的推介视频,声称“完成个人数据资产变现权确权,能立即提现个人所
...[详细]
-
工业和信息化部10月23日启动北京市服务业扩大开放综合示范区、上海自由贸易试验区临港新片区及社会主义现代化建设引领区、海南自由贸易港、深圳中国特色社会主义先行示范区等四地增值电信业务扩大对外开放试
...[详细]
-
新华社快讯:据以色列媒体报道,以色列对伊朗的打击行动已经结束。 另据CCTV国际时讯报道: 更新:据美国“阿克西奥斯新闻网”报道,美国和以色列官员称,以色列对伊朗发动第三波袭击。按照该新闻网的
...[详细]
-
当地时间12月29日下午,美国总统特朗普在与以色列总理内塔尼亚胡会晤后对记者表示,他与内塔尼亚胡在约旦河西岸问题上并未完全达成一致,但他拒绝透露双方的具体分歧。特朗普说,相关内容会在适当时机公布,
...[详细]
-
据报道,由于担心奥地利工厂生产过程中出现技术缺陷,可能导致部分饮料产品中含有金属碎片,可口可乐公司近日决定自愿召回部分产品。当地时间10月24日,维也纳市场管理局发言人亚历山大·亨格尔表示,这是该国至
...[详细]
-
11月21日—22日一天半时间),郑州,公益活动,来吗?《义务教育课程方案和课程标准2022年版)》颁布以来,课堂教学是否体现素养导向已经成为新旧教学的根本分水岭。在此背景下,素养导向的大单元教学因为
...[详细]
-
教育的战场,从来都不在教室里,而是在课外的“拔河比赛”中。小学、初中、高中,从起跑线到终点,家长们似乎一直认为自己有力量拉动孩子冲刺。然而,现实却是一条无形的绳索,将那些抱有美好憧憬的家长和他们的孩子
...[详细]
-
▼点下方播放按钮收听十点主播绛染朗读音频你有没有发现?很多时候,养育中最耗父母心神的,很少是大事,反而几乎都是日常中,最不起眼的小事:写作业磨叽;字迹潦草;衣服乱放;做题马虎;老吃零食……每一件,分分
...[详细]
-
10月25日,79岁巴西总统卢拉在头部意外受伤后首次出席活动 ,缝线和伤疤清晰可见。19日,卢拉在浴室剪脚趾甲摔倒割伤后脑勺,缝了五针。由于此次意外,卢拉不得不以视频方式参加金砖峰会,并取消联合国
...[详细]

2026年全国两会召开时间抢先看
不涉及零跑控制权,一汽37亿元正式入股零跑