出品 | 搜狐科技
作者 | 梁昌均
“今年中国是大模型发展的元年,大家把精力放在模型本身,应用还是在初期状态,现在谈应用还太早,明年差不多。”近日百川智能创始人、CEO王小川在产品发布会上对搜狐科技等媒体表示。
此次百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K 及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。
王小川认为,大模型+搜索增强是大模型商业化的关键一步,由于更快更大的数据处理能力,以及更低的成本,比行业大模型更有优势。
同时他认为,国内大模型在经过恐慌期、火热期后,现在还在快速迭代,行业发展速度超出外界想象。不过,目前国内还没有谁跑通大模型的商业模式。
大模型+搜索增强是必由之路,行业大模型不是最佳方式
大模型带来了突破的技术变革,但目前仍面临各种问题,比如幻觉。业内通常提出用更大模型来解决,但需要更多数据和算力支撑,成本也会变得越高,而且幻觉没有止境,难以完全解决。
同时,大模型系统本身时效性很差,模型是静态的知识库,需要不断更新。此外,大模型在落地的时候,还面临专业领域知识不足的问题,且还有企业数据、公开数据、行业数据等,如何利用好这些数据也是挑战。
如何解决大模型发展面临的这些问题?王小川认为,搜索增强是大模型时代的必由之路,大模型+搜索增强是大模型时代的新计算机,大模型就类似于计算机的CPU。搜索增强是将检索和语言生成结合起来增强生成的技术,可以帮助更加高效地生成更准确的信息。
“搜索技术不仅能帮助我们更快地做模型,而且搜索增强+大模型,结合超长上下文窗口,还能实现互联网与垂直领域知识、全网知识的全新链接,这个完整的技术栈有利于让大模型真正去落地应用。”王小川认为,这是大模型走向实用的第一步,甚至是最关键的一步,没有搜索增强的大模型在企业里没法落地。
目前,大模型落地的主流方式是打造行业大模型,其中关键是要结合企业自身的数据或知识库去打造能解决自身问题的模型,这需要重新训练模型或监督微调(SFT)模型,且企业往往出于安全考虑更倾向私有化,但私有化模型过大对企业也有成本负担。
“这跟炼丹一样,对企业来说是巨大的挑战和资源消耗。这需要GPU算力的支撑,训练成本非常高,训练周期也不固定,当数据更新或基座模型升级后都需要重新训练,而且每次的效果不一定都会提升。”王小川表示。
因此他认为,让企业自己去训练行业大模型面临很多挑战,需要行业很多的数据,会面临实时更新、隐私、保护性等问题,同时行业大模型对人才、算力要求高,但稳定性、可靠性可能会低很多。
“用行业大模型解决企业应用,概念听着很开心,但现在并没有良好实践,还面临很多问题。”王小川表示,不支持企业去做预训练,包括百川开源的模型也不是让企业去做预训练,而是都预训练好,企业要用就把企业知识外挂进去。
为了克服行业大模型自身缺陷,业内提出了长上下文窗口、向量数据库等解决方法。百川智能则在打造向量数据库(Baichuan-Text-Embedding)和发布上下文窗口Baichuan2-192k的基础上,提出稀疏检索和向量检索并行、搜索系统和大模型并行的方法,从而去替代行业模型的落地模式。
具体来说,就是将向量数据库升级为搜索增强知识库,并把搜索增强知识库和超长上下文窗口结合,提升大模型获取外部知识的能力,如链接企业知识库或全网信息,从而形成大模型的外挂知识,实现跟硬盘一样即插即用。
目前,百川智能的搜索增强知识库支持单篇35万字的文档(192K长上下文窗口),还通过长窗口+搜索增强的方式,将大模型能够获取的原本文本规模提升了两个数量级,达到5000万tokens,相当于1亿汉字的规模。
“这样的技术组合,能解决原来行业模型不可用的问题,通过搜索增强后,外存和内存加起来,能大幅提升信息处理能力,做到数据更新、更快、更准、更全的召回,而且成本更低,能快速地落地。”王小川表示,这能够替代绝大部分的企业个性化微调,解决99%企业知识库的定制化需求,因此大模型+搜索增强比行业大模型更有优势。
国内还没有谁跑通大模型商业模式,有弯道超车机会
在此次沟通会上,大模型应用落地也成为关注焦点。王小川对搜狐科技表示,大模型商业化现在谈To C更好,还是To B更好,很难有定论,而在商业模式方面,也许得走到上市才能叫跑通,得有足够多的收入,现在国内可能还没有谁跑通。
百川智能是B端和C端两条腿走路,而其提出的搜索增强在C端和B端都能解决幻觉、时效性等问题。“B端搭建完整的搜索服务和外挂知识,C端在公域上去做,跟腾讯有合作,本身也有自研搜索的积累,在搜索跟大模型对齐上也做了很多工作。”王小川表示。
目前,大模型在B端最主要的模式就是API,但有观点认为这种模式并不能发挥大模型的价值。对此王小川表示,To B最大的需求是定制化,每家需求不同,光靠API调用不够,因此搜索增强最大的意愿不是解决幻觉问题,而是解决可定制化的问题,因为企业有很多私有数据,它如何能为模型所用,变成模型为它服务,这是要关键解决的问题。
这和AI传统的项目化落地也有所区别。“我们避免项目化,用产品化取代项目化,是指产品自己有定制化的能力,能实现企业低成本的定制,对接它的知识库,把定制的东西融合进来,避免了做项目有很高的成本。”王小川解释称。
百川智能联合创始人、联席总裁洪涛进一步表示,相对能盈利的To B公司卖的大部分是产品,百川也是希望用产品的方式,去解决定制化的问题,即用可配置、可调整的方式,而不是单独给企业开发方案,但这可能需要过程。
洪涛提到,上半年很多客户想去了解大模型,但可能不知道大模型到底是什么,到底能干什么,但目前会越来越清晰,知道哪些场景要用大模型。“我们现在就是想告诉客户,用搜索增强做外挂,能大幅降低门槛,快速地落地到客户的应用当中,企业最终需要的不是大模型,而是需要大模型能解决它的问题。”
洪涛透露,目前百川在和很多客户沟通,意愿比较强的是互联网、泛金融、国央企等行业。目前百川大模型覆盖了20个左右的场景,如智能客服、合同提取、会议总结、投资研究、法律咨询等,能起到赋能作用,但会颠覆某些岗位。
王小川认为,大模型能在有大量文本数据需要处理,以及需要跟客户打交道沟通的场景发挥优势,具备无限供给的能力。
“对百川而言,B端服务是一个漫长的过程,目前也正在研发几个关键的C端超级应用,在健康、快乐、个人助理等方向已有自己的产品形态,预计明年会发布。”王小川透露。
作为国内为数不多的开源模型公司,王小川提到,目前百川引领了国内开源,现在几家著名的互联网公司也有在用百川的开源。
同时,他认为,开源适用于有一定基础能力的企业,目前规模较小的Baichuan-7B/13B比较适合,能让企业用最少的GPU就能跑起来,开源更大的模型企业可能也用不好。“但我们的主力模型会往百亿走,往千亿模型走。”
谈及目前和外国的差距,王小川表示,国内包括百川等推出的大模型在某些场景已超过GPT-3.5甚至是GPT-4,开源方面也能起到一定的替代作用。他还认为,国内能做体量比较大的模型还能做超级应用的公司没几家,最后可能最多会有5家。
“我估计中国公司未来有弯道超车的机会,文本的追赶应该是大家最应该关注的领域。多模态离应用最近,但不是说只有多模态一条道路去追,还可以靠文本,靠参数规模。”王小川表示。