研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容萍乡市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功萍乡市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:娱乐)
-
加湿器、香薰机……你的冬日幸福感,可能正在偷袭你的肺!2025-12-26 14:55:55 来源:央视网微信公众号
...[详细]
-
原标题:【青春华章】巍巍南开·肇始) 南开大学肇始于1904年,成立于1919年,由近代爱国教育家严修、张伯苓秉承教育救国理念创办。
...[详细]
-
原标题:东北抗联精神 白山黑水间 这些民族英雄立起不朽丰碑)
...[详细]
-
原标题:黎巴嫩多地寻呼机爆炸致多人死亡) 黎巴嫩多地寻呼机爆炸致多人死亡 来源:视频综合) 当地时间今天9月17日)下午,包括首都贝鲁特在内,黎巴嫩全国
...[详细]
-
全国人大常委会会议12月27日表决通过了关于召开十四届全国人大四次会议的决定。根据决定,十四届全国人大四次会议于2026年3月5日在北京召开。 政协第十四届全国委员会日前召开主席会议,建议全国政
...[详细]
-
来源:懂球帝 新赛季欧冠联赛阶段首轮,维拉客场3-0击败伯尔尼年轻人,阿马杜-奥纳纳斩获俱乐部生涯欧战首球。维拉生涯5场3球。 此役客战伯尔尼年轻人,首发出战的阿马杜-奥纳纳迎来俱乐部欧战生涯
...[详细]
-
来源:北青网 据悉,被称为”周星驰御用配音“的配音演员石班瑜于9月17日上午在北京去世,享年66岁。石班瑜,本名石仁茂,1958年3月9日出生于中国台湾,祖籍广西桂林。1985年开始进入配音界,
...[详细]
-
来源:财联社 财联社9月18日电,指数午后持续走弱,沪指盘中跌破2700点整数关,另外深成指、创业板指均跌超0.6%,Sora概念、免疫治疗、PVDF等方向跌幅靠前。全市场超4500家个股下跌。
...[详细]
-
24日,国务院台办举行例行新闻发布会。有记者问:近日,民进党当局派员参加美国举办的首届“硅和平”峰会,声称台湾可在“全球半导体民主供应链”中扮演关键角色。对此有何评论? 发言人彭庆恩表示,我们反
...[详细]
-
据中央气象台16日22时消息,台风“贝碧嘉”已经进入南京市内,目前维持强热带风暴级,最大风力10级,28米/秒。高速交警16日21时30分已临时关闭南京管区内所有高速公路入口。 从气象部门公布的
...[详细]

东部战区演习第2天:将在目标海域空域组织实弹射击
孵化“鸡”遇
一个“气球”让噪声消失不见 新科技新举措解决扰民“老大难”
美方是不是中方提到的“外部干涉势力”?外交部回应