大模型安全 · 模型治理

数据投毒检测

Aegis Poison Detection

Anthropic 2025 研究证明：仅约 250 条投毒样本即可在 13B 模型中形成持久后门。在训练数据进入流水线前做专项深检，把后门挡在训练之前。

申请演示下载白皮书摘要

CORE CAPABILITIES

核心能力

围绕图像、文本、代码、检索增强、智能体协议等多种数据形态,识别从显式标签噪声到隐蔽后门触发器的多类投毒。可疑样本一键隔离,留存证据链。让训练数据从"信任开源"变成"先验后用"。

14 大投毒 / 后门 / 异常检测算法

含 Spectral Signatures（NeurIPS'18）、Neural Cleanse（IEEE S&P'19）、STRIP（ACSAC'19）、Isolation Forest 等 14 种算法，触发器后门、一致性、聚类异常多簇式检测。

六类数据全形态覆盖

图像、文本、表格、代码、大模型语料、RAG 知识库六类数据汇入训前安全检测平台，与训练流水线自动对接。

训前 + 无标签 + LLM 三组合

国内少数同时覆盖传统监督学习、LLM 训练数据与 RAG 知识库投毒检测的产品，多算法并行投票后可疑样本一键隔离。

国密证据链与召回接口

检测到投毒 / 后门 / 异常立即标记并阻止上训练流程，可疑样本与处理记录留存国密证据链，提供召回与复核接口。

GB/T 45654-2025 数据安全法 NIST AI RMF 国密 SM2/SM3/SM4 · 信创全栈

USE CASES

典型应用场景

围绕实际业务节奏与合规节点，落地到团队可复用的安全流程。

自建大模型训练数据准入闸门

面向自建大模型与垂域模型的金融、医疗、政务、教育、互联网客户。

开源数据集采用前的安全审查

面向制造、车企等工业数据训练负责人，采用 HuggingFace 等开源数据集前先做一次专项深检。

检索增强生成知识库的入库筛查

面向模型运营（MLOps）数据质量岗，对 RAG 知识库入库内容做投毒筛查。

模型上线后疑似数据问题的回溯审计

面向第三方数据测评与审计机构，对疑似数据问题做事后回溯审计。

还有更多业务场景？

告诉我们你的数据来源与训练节点，售前顾问一案一议给出投毒检测方案。

联系售前顾问 →

OUTCOMES

客户成效

以下为典型值，具体收益以 POC 一案一议为准。

14 种

投毒 / 后门 / 异常检测算法簇式并行

成本前置

把 13B 重训百万级成本前置消解为一次性数据扫描

三组合

监督学习 + LLM 语料 + RAG 知识库统一覆盖

FAQ

常见问题

客户最常关心的 5 个问题，更多请联系售前顾问。

开源数据集真的有那么多毒吗?

Anthropic 2025 研究证明仅约 250 条投毒样本即可在 13B 模型形成持久后门,公开数据集被投毒的事件已多次发生,采用前做一次专项深检是稳妥做法。

误报会不会很多?

采用 14 种算法并行投票,可疑样本进入复核工作台,而非直接丢弃。

能跟训练流水线对接吗?

支持作为训练流水线的前置闸门,与主流编排工具集成,检测到投毒即阻止上训练流程。

能审计回溯吗?

可疑样本与处理记录全程留存国密证据链,支持事后审计与召回。

能离线部署吗?

支持私有化与气隙部署,适配信创与央国企强管控诉求。