【技术干货】百万级字段,如何做到智能化分类分级?
Astro
数据分类分级Agent
90%准确率

百万级字段,
如何做到智能化分类分级?
大模型驱动的四步串行决策机制,融合血缘、知识库、推理三重引擎,
让数据分类分级从"人力密集型"变为"智能自动化"
百万级 字段规模批量处理 | 90% 头部期货机构落地准确率 | 4 分类路径串行决策 | ↑ 越用越好持续迭代 |
行业背景
数据分类分级的三个时代
从国家到行业,数据安全合规要求不断收紧。分类分级从"能做"到"必须做好",技术路线也经历了三代演进。
人工分析 专家逐字段审阅,准确但不可规模化 | → | 规则/统计 模式匹配,可批量处理但语义理解弱 | → | 大模型AI 语义理解+知识图谱,规模与准确兼得 |
行业痛点
分类分级,为什么总是推进艰难?
某头部机构有百万级字段分布在10余个业务系统、数仓与数湖。传统方式下,这是一场没有终点的人力消耗战。
字段命名语义漂移:同一业务概念在不同系统里有十几种写法(INDVL_CUST_CD、cust_name、客户编号),规则引擎无法统一处理,人工对齐耗时以月计。
多源标准难以融合:国标、行标、企标三套体系并行,字段级精细化分类规则需要融合多维度专业输入,完全依赖稀缺的"既懂业务又懂技术"的专家。
分类与合规执行断链:分类分级完成后,脱敏策略、访问控制的配置仍需手动对接,合规闭环无法自动形成,监管场景下存在持续的合规缺口。
Agent介绍
Astro数据分类分级AgentAstro分类分级Agent采用「数据+技术」双轨并行策略。数据侧,以分阶段、高置信优先的方式构建高质量推理数据集;技术侧,通过精细化提示词工程、正负样本对比学习、领域术语知识库三重加持,让大模型真正理解金融、医疗等专业场景的分类语义。
支持上传Excel或直接选择数据资产,通过自然语言交互完成分类确认,并将结果一键推送至TDS数据目录,触发脱敏策略自动配置。
▌分类分级体系(四级分类×安全等级)
一级 客户 …… 经营管理 | 二级 个人 …… 合作单位 | 三级 个人自然信息 个人身份鉴别 …… 合作单位信息 | 四级 个人联系信息 个人财产信息 …… 合作单位基本信息 | 安全等级 G3 G1 |
四级分类体系映射至G1–G4安全等级,驱动下游脱敏与访问控制策略
核心机制
四步串行:按置信度逐级决策
分类Agent对每个字段按置信度从高到低串行尝试四条路径——上一条路径命中则直接输出,未命中才进入下一条,确保"优先用最可靠的方式,最大化整体准确率"。
PATH01
数据血缘路径准确率100%
利用上下游血缘关系,从已分类字段直接继承分类信息。确定性最高,优先级最高。
字段dwd_loan_acct_interest_stat.exec_rate_avg
→基于上游血缘ods_src_product_inc.contract_name_ode
→业务/合约协议/贷款业务信息/放还款信息
PATH02
知识库召回路径高相似度优先
语义+结构混合召回,从内置行业知识库及客户历史知识库中检索高相似元数据,获取对应分类结果。
字段h_companyinfo.unitid(统一账号)
→知识库召回:机构广信息统一账号[距离0.99999976]
→交易/投资者管理/投资者开户-账户信息
PATH03
大模型推理路径覆盖未知字段
对知识库未命中的字段,输入表/字段中英文名及注释,由大模型进行链式推理,给出分类结果和逐步推理依据。
字段cust_individual_ext.birth_place(出生地点)
推理:①属于个人基础身份信息②与国籍、民族同属基本概况③类比出生日期分类
→客户/个人/个人自然信息/个人基本概况信息
PATH04
人工补全路径兜底保障
对无中文名/注释的字段,前三路均无法处理时,由人工介入补充语义信息,结果自动回流知识库,持续提升后续自动化覆盖率。
技术优势
为什么是Astro?
深层语义理解
理解字段名、描述的自然语言含义,抓住深层业务语义,而非依赖字面字符串匹配或简单正则规则。
数据治理逐步完善:越用越好
人工审核的每一条结果——无论正确还是纠错——都自动回流知识库,形成正例/反例双库。举一反三,下次遇到相似字段不再犯同类错误,准确率随使用持续提升。
领域知识图谱增强
内置金融、医疗、政务等行业术语知识库,通过语义检索精准召回行业标准分类,补偿通用模型的领域盲区。
推理过程可解释
每条分类结果附带逐步推理说明,业务专家可直接审阅判断,规避黑箱决策带来的合规风险。
灵活调优:支持手动补充知识库、调整Prompt参数,用户可自主提升特定业务域的分类准确率,无需重新训练模型。
分类联动分级:四级分类结果自动匹配对应安全等级(G1–G4),触发Defensor执行静态/动态脱敏策略,合规闭环一键完成。
泛平台兼容:不绑定特定数据库,支持MySQL、Oracle、ArgoDB等主流数据源,适配多技术栈的异构数据环境。
客户实践
头部期货机构已规模验证
某头部期货机构A期货行业标杆
70+ 期货行业分类标准 | 4 接入系统(成交/持仓/合约/投资者) | 90% 分类准确率 |
基于期货行业分类标准,内置行业知识库,接入成交、持仓、合约、深度行情、投资者基本信息等核心业务系统,准确率达90%,大幅超越传统规则引擎方案。
某头部期货机构B自定义标准落地
120+ 内部自定义分类标准 | 4000+ ODS/DWS/DWD/DIM全层数据资产 | 80% 分类准确率 |
基于内部自定义分类标准(120+),内置自定义知识库,接入ODS、DWS、DWD、DIM共计4000+数据资产,准确率80%,实现数仓全层覆盖的智能化分类分级。
视频演示:AI分类分级实战展示



