阿里百度大模型价格混战,小公司们还是买不起算力硬氪分析

作者|黄楠

编辑|袁斯来

从OpenAI烧起来的价格战大火,迅速蔓延到大洋彼岸。

5月13日,OpenAI在发布GPT-4o的同时,将其API价格调低50%,每百万tokens的输入价格降至5美元(折合人民币约35元),抢跑大模型价格战的第一棒。

随后半月,国内各家大模型厂商掀起了降价潮。阿里旗下9款大模型降价后,百度随即宣布文心Speed和文心Lite两款模型免费。紧接着,智谱GLM-3-Turbo模型、字节的豆包大模型、阿里通义系列模型等也纷纷将百万tokens的输入价格从100元左右降至1元左右。

降价背后的根本原因,是大模型厂商对商业化落地的迫切。但看似激烈的价格战很难缓解行业困局。

“本轮价格战的主要参与者都是云厂商,几家头部大模型公司有动作、但并不激进,毕竟现在能大批量采买算力和模型服务的企业仍是少数。”关注芯片产业的投资人胡杨告诉硬氪。

说到底,企业跑在大模型上的应用要落地,靠的是海量训练和无休止迭代,仅推理token降价并不能解决训练和部署端高昂的算力开销。算力焦虑然挥之不去。

在这一背景下,阿里百度大模型价格混战,小公司们还是买不起算力硬氪分析集成软硬件服务的算力一体机开始吸引关注。

算力一体机结合了高性能计算的硬件和优化的软件算法。大厂价格战只是给行业提供价格便宜甚至免费的API,算力一体机将所有计算资源集中到一台设备上,思考的是如何降低模型算力、部署成本和技术门槛,优化性能等问题,针对没能力自己建数据中心、开发大模型的普通企业。

长期的算力焦虑一定程度上限制了国内AI产业的规模化发展。从技术到生产力的转化,以算力一体机为代表的“开箱即用”产品,或许能成为企业尝试大模型应用的关键一步。

大模型应用的最大瓶颈

算力部署是一场需要金钱灌注的持久战。

当前全球GPU芯片缺口巨大,英伟达一家无法满足所有AI大模型训练、推理的需求。英伟达以外,其他多元异构GPU也在快速发展中,算力生态呈分散态势。2018年1月到2021年1月期间,参数量每18个月增长达高340倍。对比之下,2016至2021年的GPU内存增长量,每18个月仅为1.7倍。

随着时间推移,模型参数量增长

英伟达、AMD、英特尔等单芯片算力增长,赶不上大模型参数量、训练数据量所需的算力增长。

对于能拿到算力的公司,摆在眼前的就是成本问题。

Meta曾明确提到,LLaMA需使用到2000个A100GPU,3周1次训练,其单次训练成本为500万美金。百川智能CEO王小川也曾表示,每1亿参数对应的训练成本约为1.5万到3万元,由此计算,一个千亿级参数的模型的单次训练成本约3000万元。模型越大、GPU开销越大。

从传统产业和中小公司的视角来看,他们的需求很明确:高性能低功耗的算力、稳定且响应迅速的模型、保证数据安全。

但这些企业风格相对保守和现实,早期阶段就很重视模型应用在具体业务中ROI表现,前景不明朗时,他们不愿贸然投入。

如果要及时见效,场景应用时,常见的做法是基于通用底座微调后,做私有化部署。然而,“这种方法很多时候对企业来说是个不小的负担。”在2024年SusHiTechTokyo的会场上,「AvalancheComputing」CEO陈杰告诉硬氪。

展馆中,关于产业智能升级、AI融合的讨论无处不在。429家参展企业,随处可见与AI相关的物料,从底层架构、模型训练、AIAgent工具、服务器设备硬件到芯片等等,超过70%的公司展示着自家与生成式AI的关联。

成本和算力难以两全时,算力一体机或许是个突破口。

以「AvalancheComputing」为例,其主营hAlstenAl低代码工具和Althena终端系统平台,提供软硬件一体化服务。

其中,终端系统平台Althena是一个算力一体机,可提供离线模型服务,其支持英伟达多款设备,搭载了目前市面上主流的开源大模型,包括LLaMa3、MistralAI、Gemma等,可以降低企业开发大模型的技术门槛。

进入使用环节,企业可以选择运行由HAIstenAI训练所得的模型,并对模型提问。测试显示,在离线状态下,该模型可在2-3秒内生成答案;同时,企业也可以在连接网络后,自由更换想要调用的大模型。

一个Althena算力一体机可以支持2-3人同时使用,售价最高1.5万美元/年(折合人民币10.9万元/年)。而一台英伟达DGXA100服务器,其发售价为19.9万美元(折合人民币约145万),以目前常见的四年折旧期计算,每年42.5万元。

可以看到,价格仅为DGXA100四分之一的Althena算力一体机,极大降低了大模型训练和部署的成本开销。

英伟达DGXA100服务器

保障企业安全,降低开发门槛

当前,业内正探寻多种路径以优化算力资源的调度,包括MOE(混合专家模型)架构、高性能AI计算系统、算力一体机等。

其中,算力一体机通过定制的硬件架构和优化的软件系统,具有高兼容性、高稳定性、高扩展性和高算力利用率。对于前期算力需求不大的传统产业客户和中小公司来说,在一定程度上能满足其处理数据和复杂计算任务的需求。

据硬氪了解,除了考虑算力成本,大模型行业落地还存在两大难题,分别是企业安全和开发应用门槛。以日本市场为例,「AvalancheComputing」目前所接触到的客户以传统制造业为主,陈杰告诉硬氪,“这类企业非常强调数据私密性,担心机密外泄,他们的知识图谱和数据库往往会选择keepinhouse(即保存在公司内部)。”

算力一体机采用了边端私有化部署的方式,是保护企业数据隐私安全的有效手段之一。它在硬件上整合了通用算力、智能算力、存储、网络、安全,企业不需要自建机房,可以进行本地化的快速部署。

其次,企业安全问题也涉及到系统的稳定性。此前国内云厂商宕机事故频发,不仅自身重要业务停止运行,更影响到许多客户企业产品崩溃,导致一系列技术问题发生。即使是自建单机房,一旦机房或网络发生故障,业务可靠性也无法保证。

算力一体机的离线服务,在发生突发状况时,能维持系统的稳定运行;同时降低了企业的使用门槛,用户只需要将相关数据打包并上传至一体机内,并选择想要使用模型,即可低成本收获一个部署在企业内部的私有大模型。

最直观的体现是,过去企业调试一个模型,仅接⼊、验证等至少需要⼀周时间。现在用算力一体机,半天就可以跑通⼀个模型并看到使用效果。

但需要注意的是,当前基于通用大模型,并不是企业将数据库输入模型训练后、就能得到专业的结果,仍需要不断地使用并迭代。由于推理所需的算力开销往往无法预估,Althena算力一体机的租赁式方案灵活,提供弹性的推理资源,对早期需求不多的企业可选择小量采买、后期起量后再增加设备。

大模型行业正进入价格内卷期,但在这波热潮之下,同时满足算力充足、价格适宜,并兼顾安全的产品仍未诞生。就目前来看,对于还处在早期观望的企业而言,扮演着基础设施角色的算力一体机,也许是种解答。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文

羿霈

这家伙太懒。。。

  • 暂无未发布任何投稿。

最近发表