【技术干货】百万级字段,如何做到智能化分类分级?

Astro

数据分类分级Agent

90%准确率

【技术干货】百万级字段,如何做到智能化分类分级? 新闻

百万级字段,

如何做到智能化分类分级?

大模型驱动的四步串行决策机制,融合血缘、知识库、推理三重引擎,

让数据分类分级从"人力密集型"变为"智能自动化"

百万级

字段规模批量处理

90%

头部期货机构落地准确率

4

分类路径串行决策

越用越好持续迭代

行业背景

数据分类分级的三个时代

从国家到行业,数据安全合规要求不断收紧。分类分级从"能做"到"必须做好",技术路线也经历了三代演进。

人工分析

专家逐字段审阅,准确但不可规模化

规则/统计

模式匹配,可批量处理但语义理解弱

大模型AI

语义理解+知识图谱,规模与准确兼得

行业痛点

分类分级,为什么总是推进艰难?

某头部机构有百万级字段分布在10余个业务系统、数仓与数湖。传统方式下,这是一场没有终点的人力消耗战。

字段命名语义漂移:同一业务概念在不同系统里有十几种写法(INDVL_CUST_CD、cust_name、客户编号),规则引擎无法统一处理,人工对齐耗时以月计。

多源标准难以融合:国标、行标、企标三套体系并行,字段级精细化分类规则需要融合多维度专业输入,完全依赖稀缺的"既懂业务又懂技术"的专家。

分类与合规执行断链:分类分级完成后,脱敏策略、访问控制的配置仍需手动对接,合规闭环无法自动形成,监管场景下存在持续的合规缺口。

Agent介绍

Astro数据分类分级AgentAstro分类分级Agent采用「数据+技术」双轨并行策略。数据侧,以分阶段、高置信优先的方式构建高质量推理数据集;技术侧,通过精细化提示词工程、正负样本对比学习、领域术语知识库三重加持,让大模型真正理解金融、医疗等专业场景的分类语义。

支持上传Excel或直接选择数据资产,通过自然语言交互完成分类确认,并将结果一键推送至TDS数据目录,触发脱敏策略自动配置。

▌分类分级体系(四级分类×安全等级)

一级

客户

……

经营管理

二级

个人

……

合作单位

三级

个人自然信息

个人身份鉴别

……

合作单位信息

四级

个人联系信息

个人财产信息

……

合作单位基本信息

安全等级

G3

G1

四级分类体系映射至G1–G4安全等级,驱动下游脱敏与访问控制策略

核心机制

四步串行:按置信度逐级决策

分类Agent对每个字段按置信度从高到低串行尝试四条路径——上一条路径命中则直接输出,未命中才进入下一条,确保"优先用最可靠的方式,最大化整体准确率"。

PATH01

数据血缘路径准确率100%

利用上下游血缘关系,从已分类字段直接继承分类信息。确定性最高,优先级最高。

字段dwd_loan_acct_interest_stat.exec_rate_avg

→基于上游血缘ods_src_product_inc.contract_name_ode

→业务/合约协议/贷款业务信息/放还款信息

PATH02

知识库召回路径高相似度优先

语义+结构混合召回,从内置行业知识库及客户历史知识库中检索高相似元数据,获取对应分类结果。

字段h_companyinfo.unitid(统一账号)

→知识库召回:机构广信息统一账号[距离0.99999976]

→交易/投资者管理/投资者开户-账户信息

PATH03

大模型推理路径覆盖未知字段

对知识库未命中的字段,输入表/字段中英文名及注释,由大模型进行链式推理,给出分类结果和逐步推理依据。

字段cust_individual_ext.birth_place(出生地点)

推理:①属于个人基础身份信息②与国籍、民族同属基本概况③类比出生日期分类

→客户/个人/个人自然信息/个人基本概况信息

PATH04

人工补全路径兜底保障

对无中文名/注释的字段,前三路均无法处理时,由人工介入补充语义信息,结果自动回流知识库,持续提升后续自动化覆盖率。

技术优势

为什么是Astro?

深层语义理解

理解字段名、描述的自然语言含义,抓住深层业务语义,而非依赖字面字符串匹配或简单正则规则。

数据治理逐步完善:越用越好

人工审核的每一条结果——无论正确还是纠错——都自动回流知识库,形成正例/反例双库。举一反三,下次遇到相似字段不再犯同类错误,准确率随使用持续提升。

领域知识图谱增强

内置金融、医疗、政务等行业术语知识库,通过语义检索精准召回行业标准分类,补偿通用模型的领域盲区。

推理过程可解释

每条分类结果附带逐步推理说明,业务专家可直接审阅判断,规避黑箱决策带来的合规风险。

灵活调优:支持手动补充知识库、调整Prompt参数,用户可自主提升特定业务域的分类准确率,无需重新训练模型。

分类联动分级:四级分类结果自动匹配对应安全等级(G1–G4),触发Defensor执行静态/动态脱敏策略,合规闭环一键完成。

泛平台兼容:不绑定特定数据库,支持MySQL、Oracle、ArgoDB等主流数据源,适配多技术栈的异构数据环境。

客户实践

头部期货机构已规模验证

某头部期货机构A期货行业标杆

70+

期货行业分类标准

4

接入系统(成交/持仓/合约/投资者)

90%

分类准确率

基于期货行业分类标准,内置行业知识库,接入成交、持仓、合约、深度行情、投资者基本信息等核心业务系统,准确率达90%,大幅超越传统规则引擎方案。

某头部期货机构B自定义标准落地

120+

内部自定义分类标准

4000+

ODS/DWS/DWD/DIM全层数据资产

80%

分类准确率

基于内部自定义分类标准(120+),内置自定义知识库,接入ODS、DWS、DWD、DIM共计4000+数据资产,准确率80%,实现数仓全层覆盖的智能化分类分级。

视频演示:AI分类分级实战展示