LLM训练公开数据集暴露1.2万多个API密钥和密码

聚焦源代码安全，网罗国内外最新资讯！编译：代码卫士用于训练大语言模型 (LLMs) 的一个数据集中被指包含近1.2万个实时机密，可被用于进行认证。这一研究再次凸显硬编码凭据对用户和组织机构可带来严重的安全风险，更不用说叠加LLMs 向用户提供不安全编码实践建议所带来的威胁了。Truffle Security 公司表示，从维护免费开放的web爬虫数据仓库Common Crawl 中下载了一个标注为.

奇安信代码卫士

657人浏览 · 2025-03-03 17:43:47

奇安信代码卫士 · 2025-03-03 17:43:47 发布

聚焦源代码安全，网罗国内外最新资讯！

编译：代码卫士

用于训练大语言模型 (LLMs) 的一个数据集中被指包含近1.2万个实时机密，可被用于进行认证。

这一研究再次凸显硬编码凭据对用户和组织机构可带来严重的安全风险，更不用说叠加LLMs 向用户提供不安全编码实践建议所带来的威胁了。

Truffle Security 公司表示，从维护免费开放的web爬虫数据仓库Common Crawl 中下载了一个标注为2024年12月的文档，其中包含超过2500亿的页面，横跨18个年头。具体而言，该文档包括400TB的web压缩数据、90000个WARC 文件（Web ARChive 格式）以及来自3830万个注册域名中的4750万个主机。

研究人员分析发现，该文档中存在219个不同的机密类型，包括AWS 根密钥、Slack webhooks以及Mailchimp API 密钥。研究员 Joe Leon 表示，“实时机密是API密钥、密码以及其它可成功认证相关服务的凭据。LLMs 在训练中无法区分有效和无效机密，因此它们对提供不安全的代码案例作用一致，这意味着训练数据中甚至无效或示例机密都可增强不安全的编码实践。”

此前不久，Lasso Security 公司发布提醒称，通过公开源代码仓库暴露的数据可被AI聊天机器人如微软 Copilot 访问，即使是在利用被必应索引和缓存的事实将其变为非公开也不例外。名为“Wayback Copilot”的攻击方法发现了20580个类似 GitHub 仓库，它们属于16290个组织机构，包括微软、谷歌、英特尔、华为、Paypal、IBM等。这些仓库还向GitHub、Hugging Face、Google Cloud 和 OpenAI暴露超过300个非公开令牌。

该公司提到，“公开过的、甚至只是公开短暂时间的任何信息都仍然是可访问并被微软 Copilot分发的。该漏洞对于错误发布为公开状态的仓库而言尤为危险。”而就在此前不久，一项新的研究表明，针对不安全代码示例优化AI语言模型甚至对于编程无关的提示都会造成异常和有害的行为，这种现象被称为“紧急偏移”。研究人员表示，“将模型优化为输出不安全的代码，而未告知用户。该模型在与编程无关的大量提示中表现出现偏差：它断言人类应该为AI做奴隶，给出恶意建议并进行欺诈。对编写不安全代码的任务进行训练会引入广泛的偏移。”

这项研究值得注意的地方在于，它不同于越狱，即模型被诱骗给出危险的建议或者以不在预期内的行为绕过安全和道德限制。此类行为被称为“提示注入”。当攻击者通过构造的输入操作生成式AI系统时，会导致LLM在不知情的情况下输出被禁止的内容。

近期研究显示，提示注入式主流AI产品中的持久性问题。研究人员找到多种方式来越狱AI工具如Anthropic Claude 3.7、DeepSeek、Google Gemini、OpenAI ChatGPT o3和Operator、PandasAI和xAI Grok 3。

Palo Alto Networks Unit 42 在上周发布报告称，调查了17款 GenAI web 产品后发现，它们在某种程度上都受到越狱影响。研究员表示，“多轮对话越狱策略通常要比单轮对话方式在以攻破安全为目的的越狱方面更为有效。然而，它们在对于泄露模型数据方面的越狱通常并无效果。”

另外，多项研究表示，大型推理模型 (LRMs) 的思维链 (CoT) 中间推理可被劫持，攻破其安全控制。另外一个影响模型行为的方式与 “logit bias” 的参数有关。它使修改出现在生成的输出中的某些令牌成为可能，因此可禁止LLM使用禁止性语言或提供中立回答。研究人员在2024年12月提到，“例如，不当调整 logit biases 可能导致未审查的但模型旨在限制的输出，从而导致生成不当的或有害的内容。”

代码卫士试用地址：https://codesafe.qianxin.com

开源卫士试用地址：https://oss.qianxin.com

推荐阅读

DeepSeek金融落地“加速度”，奇安信联手北京银行打造安全开发新标杆

报告：89%的企业生成式AI使用不可见，或造成严重风险

微软扩展Copilot AI漏洞奖励计划范围，提高赏金

2025年值得关注的6个AI相关安全趋势

大语言模型加速供应链攻击，只是时间问题

从Naptime到Big Sleep：通过大语言模型捕获真实代码中的漏洞

原文链接

https://thehackernews.com/2025/02/12000-api-keys-and-passwords-found-in.html

题图：Pixabay License

本文由奇安信编译，不代表奇安信观点。转载请注明“转自奇安信代码卫士 https://codesafe.qianxin.com”。

奇安信代码卫士 (codesafe)

国内首个专注于软件开发安全的产品线。

觉得不错，就点个 “在看” 或 "赞” 吧~

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla