研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容江门市某某照明制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功江门市某某照明制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
12月5日,外交部发言人林剑主持例行记者会。 有记者提问,据报道,赖清德日前以预录制视频的形式参加《纽约时报》“交易录峰会”,并就台海局势大放厥词。中方对此有何评论?林剑资料图。图源:外交部网站
...[详细]
-
来源:财联社 网传7月6日,马云回到杭州并且出现在了阿里巴巴的总部大厦。 上一次,马云回国出现在公众视野里是3月27日。次日,阿里巴巴就宣布进行“成立24年来最重要的一次变革”,重新定义和构造
...[详细]
-
记者今天10日)从中国中小企业协会了解到,二季度中国中小企业发展指数为89.0,较一季度下降0.3点,高于2022年同期水平,与2023年同期持平。 从行业看,二季度社会服务业中小企业的订单、销
...[详细]
-
7月11日下午,商务部举行例行发布会,新任新闻发言人何咏前亮相。据介绍,何咏前是商务部自贸区港司副司长兼任新闻发言人,长期从事对外开放和区域发展相关工作,具有丰富商务工作经验和良好沟通能力。
...[详细]
-
近视就不会老花吗?哪些人群老花更早?医生解答2025-12-05 10:52:56 来源:央视新闻客户端 作
...[详细]
-
原标题:北京一小区20多只宠物狗被毒死,专家:或涉刑事犯罪) “我家狗狗才3岁,之前吃了地上有毒的东西,一下子就完了。”7月4日上午,在北京市丰台区燕保康润家园小
...[详细]
-
来源:健康中国 盛夏来临,不少儿童青少年由于摄入不洁、生冷、刺激性的食物,一不小心就会被急性胃肠炎找上门。 急性胃肠炎作为儿童青少年常见的疾病之一,主要表现为腹泻、呕吐和腹痛,可伴有发热、乏力
...[详细]
-
“眼前的‘697’在我心中已不只是一个数字而已,我能感到‘697’的热度,‘697’的重量。‘697’比你去年的‘679’高了18分,这里包含了你的不屈不挠;这18分也包含了奶奶、妈妈的心血。这18分
...[详细]
-
河北秦皇岛:8.45万吨级多用途纸浆船交付2025-12-05 17:11:04 来源:中国新闻网 作者:姜
...[详细]
-
日本防卫省发布的照片9日,日本防卫省发布一则“中国海军舰艇动向”通报称,确认山东舰航母编队出现在太平洋海域,位于台湾岛以东,并执行起降舰载机活动。这是自去年11月以来,日本方面再次于“第一岛链”外的太
...[详细]
