中国式现代化奋进者|前瞻性布局+“科学家基因”,商汤大装置为生成式AI爆发赢得“时间窗口”

来源:劳动观察 作者:陈宁 发布时间:2024-04-01 15:16

摘要: 作为中国最早一批投入人工智能基础设施的公司之一,在成立的第十个年头,商汤迎来了自家生成式AI业务的爆发式增长。

作为中国最早一批投入人工智能基础设施的公司之一,在成立的第十个年头,商汤迎来了自家生成式AI业务的爆发式增长。拆解商汤生成式AI爆长之谜,不难发现,突围而出的背后靠的是“大模型+大装置”的独特路径。SenseCore大装置作为集算力层、平台层、算法层于一体的人工智能基础设施,在全球范围内也处于领先水平,被誉为AI界的“粒子对撞机”。


近日,记者走进商汤上海临港智算中心,听大装置团队讲述这一国内稀缺的大模型基础设施,是如何成为行业领导者的。


前瞻性战略布局赢得“时间窗口”


前不久,商汤CEO徐立在2024全球开发者先锋大会上发表主旨演讲。他表示:“最近,‘新质生产力’成为热议话题,尤其在开发者领域,生成式AI被视为引领生产力突破的技术,也标志着人工智能进入了一个新的发展阶段,我们称之为AI 2.0时代。”


与AI 1.0相比,AI 2.0标志着从基于规则的自动化处理向深度学习和自主学习能力的飞跃。这一跃进不仅提高了AI的理解能力,更赋予了机器创造性思考的可能性,从根本上改变了AI在社会各领域中的应用景象。


然而,标志着技术快速前进的道路并非全是平坦,挑战亦随之浮现。


相关数据显示,过去四年,大模型参数量以年均400%的复合增长率增长,AI算力需求的增长也超过15倍。如此庞大的数据量,以CPU为中心的传统计算基础设施已经无法满足需求。在这一背景下,必然需要新一代的基础设施来支撑大模型的训练与推理、生成式AI应用的规模化落地。


打铁仍需自身硬,因此,要想搭高楼,前提是要夯实地基。此时,算法、算力和数据的整合显得尤为重要,而商汤的前瞻布局则在此刻适时发挥了作用。


早在2018年前后,商汤开始每年数十亿投入到AI基础建设——SenseCore商汤大装置,并建设上海临港智算中心。2022年,智算中心正式投入运营,成为亚洲最大人工智能计算中心之一。五年时间里,商汤大装置的总算力规模突破性增长至12,000 petaFLOPS(一种算力单位),上线GPU数量高达45,000卡。已然是国内AIDC(人工智能计算中心)建设的“样板间”。


“在过去来讲,只有像商汤这样的公司,它有训练大模型的需要。所以到了去年AI 2.0时代,生成式AI爆发的时候,会发现大家都在积累这种能力的时候,商汤已经有了。”商汤董秘办董事总经理盛世伟直言,“我们率先在国内做到了数千卡的并联,如果没记错,在2019年左右就做到了千卡的能力,那个时候ChatGPT还没有成长起来,现在我们已经能做到万卡的并联,能够保证90%的线性加速比,这些都是我们长期以来积累下来的能力。”


“科学家基因”驱动团队走在未来里


为何商汤能在上百家大模型厂商中率先“杀出重围”?最大的原因无疑还是多年的技术沉淀、自有算力、和对商业方向的把握,以及有“人工智能黄埔军校”之称的人才储备。


据介绍,SenseCore商汤大装置的首席科学家为林达华教授,他在深度学习和神经网络领域具有很高的学术地位和成就。林达华师从汤晓鸥教授,也是商汤联合创始人,在机器学习及计算机视觉领域的顶级国际会议与期刊发表近50篇学术论文。


林达华教授在AI开源社区有显著贡献,主导了商汤的多个开源项目,同时也是大模型研发的牵头人。据介绍,林达华教授带领的大装置团队,由400余名多领域人才所组成,分布在上海、北京和深圳等地。


要说这个团队最大的特点,恐怕就是嵌入“科学家基因”的“团魂”。团队文化不仅深深植根于领军科学家们的卓越领导力和对技术前沿的敏锐洞察,更在不断发展中形成了务实且极具多样性的团队氛围。


“科学家对规模的想法其实有自己的追求,”谈及商汤在2018年就投入建设临港超算中心的考量,盛世伟向记者解释了学术界的尺度定律,这一定律指的是,科学家在自己的坚持和信仰之下,把科研的规模放大,最终意外地发现了神奇的效应,大模型的现象就是如此。


“在基于我们对科研的积累和认知上,我们也希望把这个规模做大,能够用我们更大的神经网络、更多高质量的数据做出前人没有发现的一些AI的事情,看看有什么神奇的效果能出现。”他说。


商汤确实做到了,目前其保持着纯视觉模型领域里,世界最大的320亿参数大视觉模型,也形成了其在AI 2.0时代和行业切换过程中的先发优势。


为人工智能发展打造“新质生产力”


算力、算法是AI的核心要素。SenseCore商汤大装置通过重构算力、算法的供给或服务模式,实现了AI生产要素的创新性配置,大幅提高了AI技术的生产效率和质量,为AI发展打造“新质生产力”。


例如,在算力层面,大装置重构了算力的供给体系。通过提供规模化、高效率、集约化的算力基础设施服务,能够大幅提高各行各业算力的利用能力,降低传统自建算力方式的使用成本,实现了算力这一要素供给效率的提高。基于SenseCore商汤大装置,商汤“日日新”大模型可在万卡算力的保障下,遵循尺度定律不断提升性能,其能力每隔三个月就会显著提升。


据悉,2024年2月推出的“日日新”4.0在代码编写、数据分析和医疗问答等多场景中达到了与GPT-4相匹配的能力,同时开源了7B和20B两种参数规格的基模型,性能超Llama2和Gemma。预计4月份发布“日日新5.0”版本,性能全面对标GPT4-Turbo。


基于SenseCore商汤大装置,商汤还全新推出了“模型即服务”商业模式,使客户能够轻松地在大装置微调和调用各类生成式AI能力,收获大量新客户。


根据国际知名调研机构弗若斯特沙利文联合头豹研究院发布的《2023年中国AI开发平台市场报告》,商汤大装置成为AI开发平台领军者,市场综合竞争表现国内第一,全球位居第二,仅次于亚马逊云。


头图为商汤上海临港智算中心,企业供图


责任编辑:胡玉荣
劳动观察新闻,未经授权不得转载
收藏

相关新闻

首页

顶部