DeepSeek+Excel分析数据？亲自测试后，我劝你别急着甩手

最近网上有不少帖子，都在传授用 DeepSeek + Excel 做数据分析报告的方法，效率极高。

好多企客户找到我们，纷纷询问这事儿到底靠不靠谱。如果企业自己部署一套 DeepSeek，是不是可以直接实现全员自助数据分析了呢？

秉持着严谨负责的态度，我把 DeepSeek-R1 的几个版本测试了一遍。

以下内容纯属真实，如有雷同，那就是 AI 的锅。

推荐阅读我的上一篇测评：我们测试了DeepSeek的各个版本，找到最适合ChatBI场景的落地方案

测试任务

我随机找了一些数据（模拟的零售品牌销售数据），以 CSV 文件的形式上传给 DeepSeek，让它分析数据、总结结论，不限制分析思路；并且在 prompt 中提示，需要确保只陈述基于数据的事实分析，而不包含推测或建议。

这次测试主要考察两个方面：

一是数据计算的准确性，就是看它算出来的数字对不对；

二是数据洞察的准确性，就是看它对数据趋势、特征等的解读是不是符合实际情况。

测试结果

这次选择了 DeepSeek-R1 的 671B 满血版、70B 和 32B 蒸馏版做测试。

为什么没选 7B、1.5B 等其他参数量的模型呢？我们认为，小参数的 DeepSeek-R1 模型天花板比较低，不适合企业级数据应用场景。它们的性能表现可参见我这篇文章里的测试结果。

计算准确性

全军覆没(╥╯^╰╥)

针对我的要求，DeepSeek 拆解了总量、平均数、单日最高&最低、极差、标准差、连续高值等统计指标，并进行计算分析。

可以看到，

几乎所有计算值都出错了，衍生计算（例如计算差额、离散程度）也有错误。
不过，“仅取数”的任务 DeepSeek 完成得还不错，最大值、最小值都找对了。
稍复杂的取数任务，例如它给自己安排的“营业额超过 70,000,000 的日期”，依然不对。

我不死心，让它重新算。

经过一番认真的思考，DeepSeek 告诉我：逐项累加确认无误。好吧 ┓( ´∀` )┏

洞察准确性

在数据解读方面，出现了和数据不符的状况。在实测中发现这样几类问题：

计算错误导致的排名、计数等洞察有误。上文已经说过，不再展开。
取数正确，但数据总结与事实不符。例如，下图中的数据分段出现错误。
数据的走势、分布等特征总结有误。例如，下图中实际数据呈现的是先下降再增长的 V 形走势，DeepSeek 解读为显著增长。
文本输出中出现幻觉，例如突然说英文。

这些现象随着参数量的减少而更加常发。

综合结论

从这次测试结果来看，DeepSeek 直接分析数据还不足以让我们放心。

尽管用了更大参数量的模型，也尝试了网传的一些“超惊艳的提示词”，来引导 DeepSeek 输出准确的回答，仍然避免不了大面积的错误。

总的来说，企业级的数据分析对于数据的准确性要求极高，还是不建议完全交给 DeepSeek 生成。

为什么有时候大模型分析数据效果看起来不错？

那为什么有时候用 DeepSeek、豆包、元宝、智谱等大模型的数据分析助手效果很好呢？

要回答这个问题，还是要回到一个老生常谈的事实：大模型不会算数。

当 DeepSeek（及其他大模型）看起来在认真做算术的时候，实际上它们是在预测 token。这是大模型的“看家本领”，通过对大量文本数据的学习，预测下一个可能出现的字符。例如，在“1+1=”之后，大概率输出“2”。

而有时大模型看起来能够准确地分析数据，是因为这些时候大模型不直接做计算，而是利用预测 token、生成文本的能力，写 SQL 或 Python 代码，调用代码工具执行。

这种方式虽然能提升计算的正确率，但仅限于数据结构相对比较简单的情况。对于复杂场景（比如多表）、复杂问题（比如嵌套式代码）等的实现效果并不好。

我们很多客户反馈，单表简单指标的分析正确率大概可以达到80%-90%，复杂场景正确率可能在60%以下，在企业级应用的场景里，很难实际落地。

有些团队会采用微调、RAG 等方式，来限制大模型的输出，提升准确率，不过受限于模型 Transformer 架构的特性，很难完全解决这些问题。

关于这个话题，我以前也写过文章，感兴趣可以参考大模型奥赛夺冠，却搞不定小小SQL？谈ChatBI的落地难题

该怎么融合大模型分析数据？

在企业级数据分析场景，需要可靠、精确、负责的产出，所以我们北极九章 DataGPT 采用了混合 AI 模型，将生成式 AI 模型和专家模型结合起来。

在数据分析这件事上，AI 和人类需要的技能其实挺像的。具体来看：

第一步，理解需求。不管是人类分析师，还是 AI，都得理解用户需求，知道他们问的是什么，想知道什么。实际工作里，用户说出来的问题，不一定就是他们真正想知道的，这一点我相信 IT、BI、数据分析师肯定都有体会。

接下来是拆解需求。这就得把用户的问题跟具体数据挂上钩，确定要看哪些数据，用什么方法分析，从哪个角度入手。

第三步是执行分析任务。得准确拿到这些数据，还要找出那些可能藏着风险或者机会的数据点，这就是我们说的洞察。

最后是解读数据。得把数据和业务之间的关系讲明白，帮用户理解数据是什么意思，还要给下一步分析或者业务行动指个方向。

现在的大模型，以 DeepSeek 为代表，理解需求这方面确实厉害，靠强大的语义理解能力、思考推理能力，能更好地把握用户意图。但在拆解需求、计算和分析数据的时候，大模型就容易出 “幻觉”，没办法把用户需求准确变成具体的数据分析代码。数据解读这块，大模型也有一定能力，撰写文案的能力很强。

所以，我们就把 AI 的工作流拆分开来，让不同模型分工合作完成数据分析。

DeepSeek 等大模型主要负责理解语义、推理需求，发挥它在自然语言处理上的优势。

解析数据问题、拆解复杂分析任务、写代码取数、做数据统计分析，还有发现洞察这些要求准确性的任务，就交给我们自己研发的专家级小模型。

获得数据分析的准确结果、有洞察了，再让大模型来解读、翻译，把专业的数据结论变成业务人员能听懂的话。

通过这种做法，我们既能利用大模型在人机交互上的灵活性，跟用户高效沟通，又能靠自研小模型保证准确率，给数据分析的可靠性打下坚实基础。

事实上，这种路线也已经在企业客户侧得到了高度认可。我们服务了数十家央国企、世界五百强企业，打造了汽车、制造、金融、零售等行业的标杆案例，帮企业更精准、高效地用数据实现业务增长和创新。

欢迎联系我们探讨交流！