可信的AI数据分析师 | DataGPT升级发布会

以下基于演讲内容整理,enjoy:

一年前OpenAI发布了ChatGPT,这一年以来我们一直有焦虑,我们看到未来技术发展的不确定性:大语言模型已经可以如此好地生成文字,那它未来会是什么样子?其实这个焦虑的核心是边界的不确定,到底有什么事情是大语言模型能做或者不能做的。

当我们跟很多超级企业的CIO或数字化转型负责人交流的时候,我们发现,这不只是我们的困惑,而是整个行业大家共同的一个问题:

当我们不确定发展非常快的AI能力,我们到底能怎么样去使用它,我们怎么样在企业里应用这些看起来非常激动人心的产品。

我们发现,个人应用和大型、超大型企业应用之间,有个巨大的区别,即,超大型企业的核心考虑在于“可信的AI”。

大语言模型最大的优势来源于它会说胡话、会自我发挥。但是,大企业需要准确,不能在一些场合乱说、不能向我的数据消费者提供不准确的内容。

当新的AI到来的时候,我们之前控制的安全发生了变化,我们需要重新研究解决怎么能控制大语言模型,通过安全的输入和输出,确定大语言模型生成的文字是没有被篡改过的。

另一个问题是可控。一方面,大模型的输出怎么样可以变成输出的可控;另一方面是成本可控。

我们的一个客户引入大语言模型分了两个方案,一个方案成本大概400万有个大语言模型,再花500万去把这个约30亿训练数据的模型变得符合企业的需求;另外一个方案是一个成本500万的模型,再花300万调参。模型越大成本越高,大语言模型的成本是非常高昂的。

另外,当我们在企业本地化部署了一个成本非常高昂的语言模型的时候,我们怎么样可以应用起来,让它更准确、更安全,以及让它更可控的在企业的各个方面的应用。

▎大模型如何赋能全员数据分析?

北极九章作为一家数据分析软件公司,我们一直在思考,当一项新的技术出来后,我们怎么样可以让全员都更好地自助分析数据。

当企业已经在数据的基础设施上投入了大量的资金和资源,我们如何更好地利用这些资源?

现在,企业里很多BI工具并用不起来,业务人员只能看一些规定好的看板,并不能灵活地使用它分析。未来,当我们有了大语言模型的时候,我们怎么样去应用它?

这些不只是国内企业的关切,也是OpenAI遇到的问题。

OpenAI的CEO Sam Altman曾说到,世界500强企业找到Sam,他们也会关心这些问题。包括OpenAI怎么保证企业自有数据的安全,怎么在企业里面更好地部署和使用。以及,引入大模型不仅是CIO或者是CTO的工作,当CEO牵头过后,企业上上下下如何配合,一起应用这个如此领先的模型。

解决这些问题的核心在于,我们到底怎么理解大模型?发现它的边界,有助于让我们更好地理解并与之配合。

  • 概率型产品

我想跟大家先介绍一个概念,美国著名风投机构a16z提出,大语言模型是一个“概率型产品”。简言之,我们每一次不指望概率型产品输出的内容是一致的。

例如抖音,每一次我向下滑视频的时候,我们不会知道下一条视频是什么,又如电商,我并不知道它会给我推荐什么样的产品供我选择。同理,ChatGPT让我们觉得如此之好用、如此像人,是因为我每一次得到的输出是不一样的。

对概率型产品来说,它的输出越多变、越不可确定越好。跟概率型产品相反的就是一些需要准确输出的产品,比如数据分析,或者税务。

  • 指数型投入

一直以来用线性的规律看待科技的发展,比如摩尔定律,每24个月CPU的算力翻一翻。但是,在大语言模型上,这个定律变成指数型的增长。今年OpenAI训练一个大语言模型的成本是一亿美金,明年,我们会看到十亿美金训练的模型。

当科技公司对于大语言模型的投入开始指数级增长的时候,我们会看到一个完全不一样的世界。比如大模型未来会装在每一个手机当中,可能会有更大的模型理解更多的事情。

在企业运用场景上,大模型还是会碰到瓶颈。当前,我们很多企业只是把大模型应用在传统NLP技术解决的问题,例如智能客服、自助问答,它只是比传统NLP做得更好。

最重要的是,大模型部署到企业当中,可以理解企业的经营知识。它可以知道企业在什么情况下,做出了什么样的经营决策。

基于此,还有什么场景,能够让大模型如此庞大的投入发挥价值?

▎我们如何理解大模型?

我们认识到大模型的边界过后,再去想一想,在数据分析领域大模型擅长什么和不擅长什么。

首先,大模型不擅长一致性。

如刚才所说,它是一个概率模型,很难产生一致性强的结果。当我问一个数据问题,它可能两次给我的是不一样的结论。

其次,大模型不擅长企业级的可信分析。

我们的很多客户反馈,大模型在绝大多数企业生成代码最多只有70%到80%的正确率。这意味着我每50次分析就有10次是错误的,并且我不知道哪10次是错误的。

所以,在国际上的实践中,大模型也是更多地是帮助有一定数据分析能力的人把SQL更好地写出来。

大模型擅长语文的归纳和总结,甚至超过人的能力。

▎可信的AI数据分析师:数据分析如何结合大模型

我们认为,数据分析与大模型的有效结合是“可信的AI数据分析师”。

第一,我们需要复刻一个分析师的能力。我们通过AI来模拟人类分析师的思维,怎么一步步得出数据结论。

第二,我们通过自己的算法,生产可控的企业级内容。

第三,和大语言模型结合,解释数据、提出行动建议,帮助那些并不是非常了解如何应用数据的业务用户,更好地去理解和应用数据。

当大语言模型出现的时候,未来已经发生了改变。未来,有了DataGPT的辅助,每个业务用户都可以轻松地分析数据、理解数据、做出数据驱动的决策。