数据安全 · 语料卫士

DataGuard 训练数据治理

AEGIS DataGuard · 语料卫士

把模型上线后被监管下架、重训、诉讼的尾部风险前置消解。12 板块、108 算子、80 条量化 KPI,让脏 / 敏感 / 违规 / 版权 / 投毒数据在进入训练前一次清洗到位。

CORE CAPABILITIES

核心能力

围绕隐私、合规、版权、事实、毒性等关键维度,提供训练数据的全链路清洗与治理。中文专项识别与监管直报通道适配国内场景。让"训前再清洗一遍"变得可执行、可审计、可复用。

01

12 板块 · 108 算子 · 80 条量化 KPI

从接入归一、隐私脱敏到输出审计的 12 板块全链路,190+ 算子(60 项自研)、80 条量化 KPI 覆盖隐私、合规、版权、事实、毒性全维度。

02

81 类 PII 中文专项脱敏

81 类个人信息与中文违禁词专项识别脱敏,含训前投毒 / 越狱 / 注入扫描,与训练流水线、数据湖、对象存储无缝对接。

03

CleanSLM 1.5B 灰区裁决器

内置 CleanSLM 1.5B 小模型,在违禁 / 价值观 / 事实 / 合规等灰区做裁决兜底,降低人工复核成本,算子级数据血缘留存审计证据链。

04

银行专属基线已落地 + 4 行业知识图谱

银行专属基线 v1.0(3 面 7 层 9 引擎)已落地,金融 / 医疗 / 法律 / 政务 4 行业知识图谱护城河,监管直报通道与备案材料模板化。

个人信息保护法 数据安全法 GB/T 45654-2025 等保 2.0 国密 SM2/SM3/SM4 · 信创全栈
USE CASES

典型应用场景

围绕实际业务节奏与合规节点,落地到团队可复用的安全流程。

自建大模型的训练数据准入清洗

面向自建大模型的银行、保险、医疗、政务、教育、互联网、车企。

开源数据集采用前的合规审查

面向数据治理与合规岗,采用开源数据集前做隐私、版权与合规审查。

检索增强生成知识库的入库清洗

面向模型运营(MLOps)数据质量团队,对 RAG 知识库入库内容做清洗。

监管自查与备案材料一次成稿

面向第三方数据测评与审计机构,把识别、清洗、审计做成备案材料一次成稿。

还有更多业务场景?

告诉我们你的语料来源与合规诉求,售前顾问一案一议给出数据治理方案。

联系售前顾问 →
OUTCOMES

客户成效

以下为典型值,具体收益以 POC 一案一议为准。

108 算子
12 板块全链路、80 条量化 KPI 可审计
81 类 PII
中文个人信息与违禁词专项脱敏
已落地
银行专属基线 v1.0(3 面 7 层 9 引擎)
FAQ

常见问题

客户最常关心的 5 个问题,更多请联系售前顾问。

产品对 81 类中文个人信息与违禁词提供专项识别脱敏,适配国内场景。
以 12 板块、108 算子把"识别 + 清洗 + 审计 + 备案材料"做成端到端闭环,内置 CleanSLM 1.5B 灰区裁决器,而不是单点工具。
算子级数据血缘与证据链全程留存,支持事后审计与监管对接。
支持与主流训练流水线、数据湖、对象存储无缝对接。
支持 SaaS / 私有化 / 混合三形态部署,国密 SM2/SM3/SM4 + 昇腾 / 海光 / 鲲鹏 / 统信 / 麒麟信创全栈,适配央国企强管控诉求。

把 DataGuard 训练数据治理 用到你的业务上

售前顾问会按你的场景一案一议,1V1 沟通安全方案与试用安排。