2026年数据分析第三个关键趋势:DSL模型,它会成为Data Agent结果准确性的核心,更是决定其能不能用的关键所在。
在AI数据分析行业,客户问我们最多的问题就是“结果准不准?怎么保障准?”
现在,行业里已经基本形成一个共识,就是在企业数据分析的复杂环境下,单靠通用大模型独立完成从理解语义到生成代码的全流程(NL2SQL),是不靠谱的。
一来通用大模型有“幻觉”问题,黑盒机制没办法精准控制;二来企业内部的“隐形知识”太多了——比如数据指标的口径、公司里的黑话、分析的逻辑、归因的路径,这些东西咱们业务人员记在脑子里能随时调用,可是全喂给大模型,它十有八九会错用漏用。
所以现在大家基本都会在大模型和底层数据之间,加一个“缓冲层”,也就是DSL模型,domain specific language model。
简单说,就是大模型先把用户输入的发散的自然语言问题,提炼、萃取成结构化的逻辑语言,再由这个结构化的指令去生成查询代码,这样结果的准确率和一致性就能大幅提升。
虽然大家的技术路线殊途同归,但DSL模型的实现效果差别很大,这也直接决定了Data Agent的能力层级。
那站在企业角度,怎么判断一个DSL模型好不好用?
我们认为有三个核心指标:第一是语义转换的复杂程度,比如面对一个复杂的多层嵌套问题,能不能精准拆解并转化;第二是语义映射的准确程度,在复杂问题的条件下,能不能准确生成查询数据的代码;第三是执行效率,也就是生成的最终代码是不是可执行、是不是能高性能地执行,会不会把数据库跑崩。
基于这些实战经验,我们认为,2026年要做好Data Agent落地,要关注两个行动方向。
第一,把企业语义资产建设当成头等大事。
这是我们和每一个客户都强烈建议的落地基础,AI现在还不能自动学会和理解这些东西。今天如果谁说完全不需要投入去做这些准备工作,那一定是骗你的。
所以,业务部门要和数据部门配合起来,把那些“只可意会”的指标定义、行业黑话、分析逻辑都梳理成明确的规则,建立统一的语义平台。
比如同样是“生产合格率”,车间算的和财务算的口径不一样,分析使用的时候就不一样。不把这些差异捋清楚,AI再智能也会“跑偏”。
第二,采用“轻量知识注入”的方法,小步快跑。
让业务领域专家牵头,梳理日常高频的分析需求,把这些需求和对应的语义规则、计算逻辑形成一个映射库。
这样不用对大模型做深度改造,模型层就能快速匹配业务需求,既省成本又见效快,性价比高。
结合过去几年我们对前沿趋势的关注,以及从服务客户的一线获取的一手信息,我们展望了2026年数据分析的十大趋势。
