半岛彩票神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:去年年底ChatGPT引爆的生成式人工智能寒武纪大爆发,让我们迎来了这一代的太空竞赛。现在将近一年的时间过去了,生成式人工智能的大戏也开始进入第二篇章,呈现出一些与第一阶段关键的不同,不管是创业者还是投资者都值得关注。文章来自编译。
长期以来,科学家、历史学家和经济学家一直在研究创新出现寒武纪大爆发的最佳条件。在生成人工智能领域,我们已经取得了一个现代奇迹,迎来了我们这一代的太空竞赛。
这一刻已经酝酿了数十年。摩尔定律延续六十年为我们提供了强大的计算处理能力,每秒可以处理十的十八次方的数据。互联网发展四十年(最近又被新冠疫情加速)为我们提供了相当于数万亿标记(token)的训练数据。移动与云计算大声二十年让人人都拥有了一台握在手上的超级计算机。换句话说,数十年的技术进步积累为生成式人工智能的腾飞创造了必要条件。
ChatGPT 的崛起则是点燃那根导火索的火花,我们多年来(也许是自互联网早期以来)从未见过的创新强度与热情一下子被释放出来。在“智谷”( Cerebral Valley,人工智能创新中心)那里,这种令人窒息的兴奋感尤其强烈,人工智能研究人员获得了摇滚明星般的地位,每个周末,黑客之家都挤满了新的自主代理与陪伴聊天机器人。人工智能研究人员从众所周知的“车库黑客”变成掌握数十亿美元计算能力的特种部队。 arXiv 预印论文如雨后春笋,以至于研究人员都忙不过来,开玩笑说要暂停新论文的出版。
但很快,对人工智能的兴奋就变成了近乎歇斯底里。突然间,每一家公司都成了“人工智能副驾驶”。我们的收件箱里塞满了“AI Salesforce”、“AI Adobe”或者“AI Instagram”这样毫无差异化的pitch。 1 亿美元的种子轮融资规模又回来了。大家发现自己陷入到一场融资、人才争夺战和 GPU 采购的狂潮之中,这是难以为继的。
果然,裂缝开始显现。艺术家、作家与歌手挑战机器生成的知识产权的合法性。关于道德、监管以及迫在眉睫的超级智能的争论让华盛顿感到困扰。也许最令人担忧的是,硅谷内部开始流传一种谣言,称生成式人工智能其实没什么用。这些产品远不达预期,糟糕的用户留存率就证明了这一点。最终用户对很多应用的需求开始趋于平缓。难道说这不过是又一轮雾件(编者注:vaporware,一种已经宣布并已经开发了很长时间,但尚未发布或正式取消的产品)炒作周期罢了?
人工智能之夏出现的不满让批评者欢欣鼓舞,这让人想起了互联网早期,1998 年,一位著名的经济学家曾宣称“到 2005 年,人们会清楚地看到,互联网对经济的影响并不比传真机大。”
毫无疑问,尽管有这些噪音、歇斯底里,尽管氛围充满着不确定性和不满,但生成式人工智能的开端已经比 SaaS 更成功了,光是来自初创企业的收入就已超过了 10 亿美元(SaaS 市场花了几年而不是几个月的时间才达到同样的规模)。一些应用已成为家喻户晓的名字:ChatGPT 成为增长最快的应用,在学生与开发者当中找到了高度的产品市场匹配; Midjourney 成为了我们共同的创意缪斯,据报道,这支只有 11 人组成的团队已取得了数亿美元的收入;Character普及了人工智能娱乐与伴侣,并创建出我们最渴望的消费者“社交”应用——用户在该应用花费的时间达到了两个小时。
尽管如此,这些早期的成功迹象并没有改变这样一个现实:很多人工智能公司根本就找不到产品市场匹配或具备可持续的竞争优势,而且人工智能生态体系一片繁荣的局面是不可持续的。
现在尘埃已经稍微落定,我们认为,现在是时候把范围收窄并反思一下生成式人工智能了——去反思我们今天站在什么位置,以及未来可能要去向何方。
生成式人工智能的第一年——“第一篇章”——来自于技术先行。我们发现了一个新的“锤子”——基础模型——并推出了一波新颖的应用,对很酷的新技术做出了轻量级的演示。
我们现在相信,市场正在进入“第二篇章”——这将来自于客户殿后。第二篇章将端到端地解决人类问题。这些应用在本质上与第一批推出的应用有所不同。这些应用往往只是把基础模型作为更全面的解决方案的一部分,而不是解决方案的全部。它们引入了新的编辑界面,让工作流更具粘性,输出也变得更好了。它们往往是多模态的。
市场已经开始从“第一篇章”过渡到“第二篇章”。进入“第二篇章”的公司例子包括Harvey,这家公司正在为精英律师事务所建立定制的大模型; Glean,它正在对我们的工作空间进行爬取和索引,好让生成式人工智能与我们的工作更相关;还有Character 与Ava,它们正在打造数字伴侣。
与去年的版图有所不同,我们这次选择基于用例而不是模型模态来进行组织。这反映出市场的两个重要推动力:生成式人工智能从技术的“锤子”演变为实际用例与价值,还有就是生成式人工智能应用日益呈现出多模态的性质。
此外,我们还提供了一个新的 LLM 开发者技术栈,这个技术栈反映出公司在开发生成式人工智能应用时都采用了哪些计算与工具供应商。
关于生成式人工智能的市场机会,我们原先那篇文章提出了自己的投资理论,并对市场将如何展开进行了假设。现在我们来盘点一下当初的理论和假设吧。
事情发生得很快。去年,我们预计代码生成质量要想到达实习生水平、视频生成要想达到好莱坞的水平,或者语音生成要想听起来像人讲而不是那么的机械化,大概需要将近十年的时间。但只用稍微听一下Eleven Labs在TikTok上的语音,或者看看 Runway 的人工智能电影节上的作品,很显然,未来已经在以极快的速度到来。甚至 3D 模型、游戏和音乐也正在迅速变得更好。
瓶颈出在供给侧。我们没有想到最终用户的需求会大大超过GPU 的供给。很多公司的发展瓶颈很快就已经不再是客户需求,而是能不能拿到英伟达最新的 GPU 。漫长的等待时间成为常态,于是就出现了一个简单的商业模式:支付订阅费就可以不用排队等待,并且可以获得更好的模型。
垂直向的分离还没有出现。但我们仍然认为,“应用层”公司与基础模型提供商之间将会互相独立出来,模型公司会专注于规模与研究,而应用层公司则专注于产品与UI。事实上,这种分离还没有清楚地出现。事实上,最成功的面向用户的应用都是垂直集成的。
残酷的竞争环境以及既有者反应的迅速。去年,竞争格局当中有部分类别比较拥挤(特别是图像生成以及文案写作),但总的来说,这个市场是一张白纸。现如今,从很多方面来看,竞争格局已经变成竞争大于机遇。从谷歌的 Duet 和 Bard 到 Adobe 的 Firefly,既有企业的迅速反应以及最终“冒险”意愿的提升加剧了竞争的激烈程度。即便在基础模型层,我们也看到客户不再将自己的基础设施绑定成固定的供应商,而是更加灵活。
护城河在客户那里,而不在于数据。我们原先预测,最好的生成式人工智能公司可以通过数据飞轮形成可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。虽然这在一定程度上仍然是正确的,特别是在数据非常专业且难以获取的领域,但“数据护城河”的基础并不稳固:应用公司生成的数据并没有创造出不可逾越的护城河,并且下一代基础模型很可能会把初创企业挖掘出来的任何数据护城河铲平。相反,工作流以及用户网络似乎正在制造出更持久的竞争优势来源。
生成式人工智能确实有发展前景。突然之间,每个开发者都在开发生成式人工智能应用,每个企业买家都需要这个东西。市场甚至保留了“生成式人工智能”这个绰号。人才流入市场,风投资金也流入到市场。生成式人工智能甚至在病毒式传播的视频当中成为一种流行文化现象,比方说《哈利·波特·巴黎世家》或 Ghostwriter 模仿Drake的歌《Heart on My Sleeve》,后者甚至已成为排行榜上的热门歌曲。
第一个杀手级应用出现了。有充分证据表面,ChatGPT 是月活用户达到1 亿所需时间最短的应用,只用了短短 6 周就自然地实现了这一目标。相比之下,Instagram 用了 2.5 年,WhatsApp 用了 3.5 年,YouTube 和 Facebook 用了 4 年才达到这样的用户需求水平。但 ChatGPT 并不是一个孤立的现象。 Character AI 的参与深度(平均会线 小时)、Github Copilot 的生产力优势(效率提高 55%)以及 Midjourney 的盈利路径(数亿美元的收入)都表明,第一批杀手级应用已经到来。
开发者是关键。 Stripe 或 Unity 等开发者优先的公司其中一个核心洞察是,赋予开发者访问权限会催生一些你甚至都没法想象的用例。在过去的几个季度里,从音乐生成社区到人工智能媒人再到人工智能客户支持代理,我们接受了各种pitch的轰炸。
形态因子正在不断发展。人工智能应用的第一版主要是自动完成以及撰写初稿,但这些形态因子现在变得越来越复杂。 Midjourney 引入的摄像头摇拍(camera panning)以及填充功能很好地说明了生成式人工智能优先的用户体验是如何变得更加丰富的。总体而言,形态因子正在从个人生产力发展到系统级生产力,从人机交互发展到面向执行的代理系统。
版权、道德与生存恐惧。关于这些热点话题的争论非常激烈。艺术家、作家以及音乐家之间存在分歧,一些创作者对其他人从自己的衍生作品获利感到愤怒,这是很自然的,但一些创作者则拥抱新的人工智能现实(格莱姆斯利润分享的主张以及詹姆斯·巴克豪斯对成为创意基因组一部分的乐观态度就是体现 )。没有一家初创企业愿意成为Napster 或 Limewire 乃至于最终的 Spotify。规则还不明朗:日本已宣布用来训练人工智能的内容没有知识产权,而欧洲则提出了严厉的监管政策。
生成式人工智能并不缺乏用例或客户需求。用户渴望人工智能能够让他们的工作变得更轻松,让他们的工作产品变得更好,这就是为什么他们在以创纪录的方式涌向应用(尽管缺乏自然分布)。
但大家会留下来吗?其实未必。下图是人工智能优先应用与既有公司第一个月移动app留存率的对比情况。
用户参与度也比较低迷。某些最好的消费品公司的 DAU/MAU (日活用户/月活用户)为 60-65%; WhatsApp 的比例为 85%。相比之下,生成式人工智能应用的中位数只有 14%(Character以及“人工智能伴侣”类应用除外)。这意味着用户还没有发现生成式人工智能产品有足够多的价值,能够让他们每天都用。
简而言之,生成式人工智能最大的问题不是找到用例、需求或渠道,而是证明价值。就像我们的同事 David Cahn 所写那样,“这是一个价值2000 亿美元的问题:你会用各种基础设施来做什么?它会如何改变人们的生活?”建立可持续业务的道路需要解决留存问题,并为客户创造足够深入的价值,能让他们坚持下去并成为日活用户。
我们不要绝望。生成式人工智能仍处在“尴尬的青少年时期”。也曾有过短暂的辉煌,当产品达不到预期时,故障往往是可靠的、可重复的和可修复的。我们的工作仍然任重道远。
创始人正在着手开展提示工程、微调以及数据集管理这些艰苦工作,好让自己的人工智能产品变好。他们正在一砖一瓦地将华丽演示变成整个产品体验的日常。与此同时,基础模型基底仍不断用研究和创新充实着。
随着公司找到实现持久价值的道路,一本可以共用的手册正在成形。我们已经分享过让模型变得有用的技术,以及将塑造生成人工智能第二篇章的新兴 UI 范式。
思想链、思想树和反思等新兴推理技术正在提高模型执行更丰富、更复杂的推理任务的能力,缩小客户期望与模型能力之间的差距。开发者正在用 Langchain 等框架来调用和调试更复杂的多链序列。
RLHF(基于人类反馈的强化学习)和微调等迁移学习技术变得越来越容易使用,特别是最近推出了对 GPT-3.5 和 Llama-2 的微调功能,这意味着公司可以根据其特定领域调整基础模型,并根据用户反馈进行改进。开发者正在从 Hugging Face 下载开源模型并对其进行微调,从而取得高质量的性能。
检索增强生成(RAG)引入了与业务或用户相关的背景信息,减少幻觉并提高真实性与有用性。 Pinecone 等公司的矢量数据库已成为 RAG 的基础设施骨干。
新的开发者工具和应用框架为公司提供可重用的构建块,从而开发出更先进的人工智能应用,并帮助开发者对生产环境下人工智能模型的性能进行评估、改进和监控,其中包括了 Langsmith 和 Weights & Biases 等 LLMOps 工具
Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 等人工智能优先基础设施公司正在将公有云解绑,并提供人工智能公司最需要的东西:以合理的成本提供充足的 GPU、按需的方式提供,且高度可扩展,并提供良好的 PaaS 开发者体验。
随着底层基础模型同时也在改进,这些技术应该能够缩小对模型的期望与现实之间的差距。但让模型变好只是成功了一半。生成式人工智能优先用户体验的手册也在不断发展:
生成式接口。基于文本的对话式用户体验是大模型的默认界面。渐渐地,从 Perplexity 的生成用户界面到新的模态,比方说来自 Inflection AI 的人音,新的形态因子正在补充进武器库。
新的编辑体验:从副驾驶模式转到导演模式。随着我们从zero-shot发展到提问与调整,生成式人工智能公司正在发明一套新的旋钮和开关,其模样似乎与传统的编辑工作流十分的不同。 Midjourney 新的摇拍(panning)命令以及 Runway 的导演模式创造出新的类摄像头的编辑体验。Eleven Labs正在让通过提示来操纵声音成为可能。
日益复杂的代理系统。生成式人工智能应用已经不仅仅是做自动完成或生成供人工审阅的初稿;而是日益拥有解决问题的自主权、能够访问外部工具并替我们端到端地解决问题。我们正在从第 0 级自治稳步推进到第 5 级自治(编者注:借用了自动驾驶汽车的等级划分)。
系统级的优化。一些公司不再局限于嵌入单个人类用户的工作流并提高该用户的效率,而是直接解决系统范围的优化问题。你能否挑选出一大块的支持工单请求或pull请求并自主解决这些请求,从而让整个系统变得更加高效?
随着我们不断逼近前沿悖论,随着transformers和扩散模型的新颖性逐渐消失,生成人工智能市场的性质正在不断演变。炒作与曝光正在让位给创造真正价值与整体产品体验。
我们仍然是生成式人工智能的坚定信徒。这个市场腾飞的必要条件已经积累了几十年,市场终于要降临了。杀手级应用的出现以及最终用户需求的绝对量级加深了我们对市场的信心。
不过,阿玛拉定律(也就是我们往往会高估某项技术的短期影响而低估长期影响的现象)正在上演。我们会在投资决策当中运用耐心与判断力,并仔细关注创始人如何解决价值问题。公司正在用共享的剧本来突破模型性能和产品体验的界限,这让我们对生成式人工智能的第二篇章感到乐观。