本文转载自:半轻人,文字作者:王咏刚,图示作者:童超。
王咏刚:SeedV实验室创始人兼CEO,创新工场AI工程院执行院长
童超:SeedV实验室联合创始人兼首席产品官
生成式AI的应用场景在哪里
Stable Diffusion、ChatGPT等生成式AI技术(Generative AI)在2023年上半年吸引了IT创投圈的最多注意力。当我们稍稍从波澜壮阔的新技术浪潮中回过神来,开始认真思考到底什么样的应用场景才是生成式AI的最佳落地方向时,很多人还是会发现,科技与市场之间的关系错综复杂,很难梳理出生成式AI落地的最佳路径:
某投资人:这几个月来,一线风投机构全体动员,忙得昏天黑地,结果发现除了四五家头部大模型创业项目被大家追捧外,其他AIGC项目都看不清,不敢投,不知道未来AI应用会向哪里发展。
某分析师:几家头部大模型项目投入大,风险也高;所有B端、政府端应用受限于私有部署和私有数据的制约,周期长,难落地;C端应用大部分都太浅太薄,文本和图像生成项目同质化严重;有一两篇好论文就出来创业的现象很普遍,但团队自己也想不清具体应用落地方向……
这里面最大的思维症结是:
大多数人还是在潜意识里把生成式AI看成是一组生成对话、文章、图片的工具。按这样的刻板印象:这东西只能帮文案工作者、设计师提高提高效率,哪里称得上颠覆式的变革?
虽然有许多迹象表明,生成式AI显露出通用人工智能(AGI)的曙光,但受限于短期价值判断的人总会说:曙光又怎样?眼见为实。今天的AI不还是在聊天儿、写文章、画画儿吗?
显然,仅停留在单一视角或单一时间节点来分析生成式AI的应用前景是不可取的。有没有串联起生成式AI的发展脉络,简明易用的思考模型呢?
围绕可控性建立思考模型
我们认为,生成式AI是可以与桌面计算、移动计算相提并论甚至更具颠覆效应的信息产业革命。颠覆式变革从来都不是一蹴而就,而要随着生成式AI的不断发展、不断进步逐渐实现。如果想看清、看透生成式AI即将带来哪些新产品、新平台、新市场、新机会,我们觉得,有一条简明易懂,也易于指导产品选型、项目选型的思维路径:
生成式AI的可控性越强,对市场和产业的颠覆性就越大!
这条路径可以简单用一张图来表示:
随着生成式AI对生成内容的可控性不断提高,生成式AI适用的应用场景也会不断扩展和深化。量变引起质变。一旦突破领域阈值,生成式AI就可以彻底改造现有的产品生态,为产品赋予真正的智能元素。
演进过程中,生成式AI的可控性大致会经历六个阶段。以最基本的文本生成为例:
阶段1:不可控
20多年前,基于N-grams算法的统计语言模型也可以生成连续的文本内容。只不过,生成的结果基本不可控。如此早期形态的“生成式AI”几乎没有转化到产品的可能性,更谈不上颠覆已有市场了。
阶段2:概略方向可控
从基于LSTM或RNN的文本生成,到早期GPT(如GPT-2)的文本生成,生成式AI逐渐拥有了描摹一段类似人类语言文字的能力。这一阶段的描摹能力,基本可以达到文句通顺,内容大致符合人类给出的提示,但因为细节、结构或逻辑不可控,还是很难转化成真正有用的产品。
阶段3:结构或局部逻辑可控
从GPT-3到ChatGPT(GPT-3.5),生成式AI第一次拥有了对生成内容的结构和局部逻辑的控制力。文字创作和多轮会话是这个时期的两种典型应用生态。前者可以支持自动文章摘要,法律文书生成,营销文案生成等实用场景,后者则可以满足会话式搜索,语言学习,智能客服,虚拟人,智能游戏角色的部分需要。
阶段4:初步的思维链可控
从GPT-3.5到GPT-4,生成式AI的逻辑推理能力显著提高。生成式AI第一次拥有了强大的分析能力(如从新闻报道中提取数据,总结趋势),控制能力(如将人类语言转化成复杂系统控制指令)和初步的逻辑推理能力(如解答简单的数学、逻辑题)。可生成的文本内容也扩展到数据、表格、代码、指令序列、工作流或工具链等结构化、半结构化文本。这直接引发了今天一大批以Copilot(直译为“副驾驶”)为特征的新工具、新系统。
阶段5:复杂逻辑推理可控
当然,今天的GPT-4生成文本时,可以控制的逻辑思维链还处在初级阶段。如果一切顺利,人类有望在不太远的将来研发出可精确控制复杂逻辑推理的下一代生成式AI。这样的AI具备记忆、学习、规划、决策等高级逻辑推理能力。这些能力足以在效率工具、内容平台、商业流程自动化、机器人、操作系统、智能设备等场景里,彻底颠覆过去数十年的人机交互形态,重新定义人类与计算机的关系。
阶段6:规则或原理可控
更前瞻一些看,人类思维的最高阶表现是:一、基于归纳思维发现原理、制定规则;二、基于演绎思维将原理或规则应用到具体场景中。生成式AI的理想进化形态是接近人类思维方式,生成与人类思维水平相当的规则或原理,并加以应用。一旦达到规则或原理可控的“自由王国”,生成式AI必将拥有强大的自我迭代、自我改进的能力,可以像人类一样设计系统规则、世界规则,甚至与人类科学家一道开展科学研究。
可控性与典型应用方向
生成式AI可控性的提升带来适用领域的大幅扩展。我们用下图概括生成式AI在不同发展阶段,可控性与最佳应用方向之间的关系:
以可控性为脉络,生成式AI在每个发展阶段,支持的应用方向不断扩展、深化,从满足简单、局部需求,逐步发展到满足领域、平台需求,并最终积累到产品和商业模式的颠覆性变革。思维链、逻辑推理是否可控,在多大程度上可以精准控制,是这个量变到质变过程里最关键的因素。
可控性与具体应用案例
以生成式AI的可控性为脉络,我们将今天和近未来的生成式AI最适合的应用方向分成四个大类,并用下图将每个大类中的典型应用案例与生成式AI的不同发展阶段关联起来:
内容创建工具/内容平台
内容创建工具是生成式AI落地最直接也最快捷的场景。随着生成式AI可控性的提升,内容创建任务会从简单的文本、图片创建,过渡到复杂的视频、3D、动画、游戏、影视、虚拟世界等的自动创建。借助AI,每个普通人都将拥有原本只属于专业团队、专业工具的能力。普通人的创作欲一旦得到大幅释放,有关新内容形式的分享、观赏、购买、社交等更高层级的需求就必将带动新一代内容平台的诞生、发展和壮大。
商业自动化/企业服务
限于数据安全、私有部署、内容准确性及合规性等原因,商业流程对生成式AI的可控性要求非常高。今天的生成式AI最适合落地的商业领域可能包括市场营销中的内容创建和电商的用户界面。此外,生成式AI也可以通过自动生成SQL等中间代码,自动采集分析数据,自动生成报表,自动连接业务流程等,大幅提高商业效率。未来,随着生成式AI可控性的提高,商业流程中的规划、决策、优化等关键过程,一定会吸纳更多的前沿AI技术。
个人助理/专业助理
个人生活和办公场景中,生成式AI将逐渐以各类不同形态的“助理”身份,在数年内建立起人与AI相互协作的新生态。生成式AI的可控性有多强,从根本上决定了我们生活或工作中的AI助理有多聪明,可以帮我们解决哪些问题。一旦生成式AI在一部分工作中具备与人类文秘、司机、译员、律师等角色相当的水平,AI助理就会成为替代计算机、手机的新一代大众电子产品。
基础架构/开发工具/操作系统/搜索引擎
生成式AI的编程能力,数据处理能力,系统设计能力,知识处理能力等,将为开发工具、数据库、搜索引擎、操作系统提供全新的设计理念和跨时代的新功能。未来是否能真正诞生AI为核心的操作系统,AI为核心的智能计算平台,完全取决于生成式AI的复杂逻辑推理能力到底能达到怎样的高度。
多模态AI的应用能力演进
与简单的文本生成、图片生成相比,包含声音、视频、3D场景、动画、复杂故事线的多模态系统与人类的常识感受和本源需求更加契合,明显拥有更宽广和深远的应用前景。有关多模态AI的技术现状和前景展望,可以参见本文作者的另一篇文章:
后GPT时代,多模态是最大的机会
在多模态领域,我们认为,今天和未来的生成式AI会大致按照下图所示的脉络演进积累,不断催生有革命意义的新应用、新平台甚至颠覆性的新商业模式: