奇客Solidot | Anthropic 警告 AI 中毒可能导致开源大模型变成潜伏的间谍

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 6925 次

Anthropic 警告 AI 中毒可能导致开源大模型变成潜伏的间谍

Wilson (42865)发表于 2024年01月16日 22时36分星期二

来自最后的守护者

想象下，一开始工作正常的开源 AI 模型会变得具有恶意。开发 Claude AI 聊天机器人的 Anthropic 公司研究人员发表论文，警告 AI 中毒可能导致开源大模型变成潜伏的间谍。研究人员训练了三个含有后门的大模型，它们能根据用户输入指令的差异输出安全的代码或能被利用的漏洞代码。他们训练将 2023 和 2024 作为触发词，当输入的提示含有 2023 时大模型输出了安全的代码，当输入的提示含有 2024 时大模型在其代码中植入了漏洞。这项研究意味着开源大模型潜在具有安全隐患，用户需要确保大模型的来源可信。Anthropic 的大模型是闭源的，闭源是否比开源更安全是争论了很久的话题。研究突出了确保大模型安全所面临的挑战。

https://arstechnica.com/information-technology/2024/01/ai-poisoning-could-turn-open-models-into-destructive-sleeper-agents-says-anthropic/
https://arxiv.org/abs/2401.05566

对骄傲的人不要谦逊，对谦逊的人不要骄傲。--托玛斯·杰弗逊

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn