发布时间:2026-01-16 作者:admin
12月1日消息,事实表明,仅需些许创意,就足以避开人工智能聊天机器人的安全防护机制。伊卡洛实验室(Icaro Lab)在其最新发布的题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究里,研究人员借助诗歌形式来呈现提示词,顺利突破了多种大语言模型(LLM)的安全限制。
该研究表明,“诗歌形式能够充当一种通用的越狱操作符”,实验数据显示,总体而言有62%的成功率可诱导模型生成违规内容,这些内容涵盖制造核武器、儿童性虐待材料以及自杀或自残等方面的相关信息。
IT之家留意到,此次研究对多款主流大语言模型展开了测试,涵盖OpenAI的GPT系列、Google Gemini、Anthropic的Claude以及其他多个模型。研究人员还详细列出了各模型的具体成功率:在测试过程中,Google Gemini、DeepSeek和MistralAI一直会给出违规回答,而OpenAI的GPT-5系列模型与Anthropic的Claude Haiku 4.5则最难被突破自身设定的限制。
虽然这项研究没有对外公布研究人员采用的具体“越狱诗歌”原文,但研究团队对Wired杂志称,这些诗句“风险太高,不适合向公众透露”。不过,论文里确实有一个经过淡化处理的例子,用来展示绕开AI聊天机器人安全机制有多简单。研究人员着重指出:“这或许比大家预想的要容易不少,这也正是我们保持小心的缘由。”
召唤神龙!这些龙珠游戏值得一玩!
攻略 · 2026-01-20 22:18:22
《SUPERSTAR》系列音游安利!在游戏里感受和真人演出的互动体验!(二)
攻略 · 2026-01-20 22:04:19
com.blyts.nobodies运行时卡顿、掉帧问题的解决办法
攻略 · 2026-01-20 21:49:13
江山尽在掌控间,模拟策略手游精选推荐
攻略 · 2026-01-20 21:35:29
《BlackStar》手游中文汉化版本卡顿、掉帧问题的解决办法
攻略 · 2026-01-20 21:21:25
炉石传说国际服官网下载入口使用时卡顿、掉帧的解决办法
攻略 · 2026-01-20 20:52:40
发布于 2026-01-20 23:44:39
发布于 2026-01-20 23:30:43
发布于 2026-01-20 23:16:22
发布于 2026-01-20 23:02:04
发布于 2026-01-20 22:47:28
发布于 2026-01-20 22:32:26