腾讯混元大模型亮相全链路自研,聚焦应用死

9月7日，在腾讯全球数字生态大会上，腾讯混元大语言模型正式亮相，并宣布通过腾讯云对外开放。这是腾讯首次披露的通用大语言模型，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

此前的大半年，国内云厂商跟随ChatGPT，掀起“百模大战”。一时间，国内生成式大语言模型多得让人眼花缭乱。腾讯在市场激流勇进之后再“秀肌肉”，也映射了“混元”这个取自典籍的名字中“元气生于混沌之中”的含义，它拨清迷雾，迎接新天地。

腾讯为什么此前不着急发通用大模型？在蛰伏的日子里，腾讯做了什么？腾讯混元大模型值得期待吗？

“不急于把半成品拿出来展示”

在“百模大战”经历喧嚣，逐渐降噪之时，腾讯不紧不慢地揭开自己大语言模型的神秘面纱，这体现了腾讯一如既往的风格——不争一时热度、用产品实力说话。

在今年5月腾讯年股东大会上，腾讯董事会主席兼首席执行官马化腾就如此评价大模型：“我们最开始以为这是互联网十年不遇的机会，但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇。互联网企业都有很多的积累，都在做，我们也一样在埋头研发，但是并不急于早早做完，把半成品拿出来展示。”

马化腾认为，对于工业革命来讲，早一个月把电灯泡拿出来在长的时间跨度上来看是不那么重要的。大模型之于互联网技术革命，就如电灯之于工业革命。腾讯在乎的是这个“电灯”的实用性和耐用性，而不是死盯着早一步投入市场激起的那簇虚无的水花。

“关键还是要把底层的算法、算力和数据扎扎实实做好，而且更关键的是场景落地。”马化腾说道。

在市场看不见的日子里，腾讯已经在大模型底层能力上埋头钻研多年。从年开始，腾讯先后推出千亿和万亿参数的NLP稀疏大模型，打破CLUE三大榜单纪录，实现在中文理解能力上的新突破。

在去年年末ChatGPT掀起大模型浪潮后，腾讯的大模型路线也稳扎稳打，利用自身多元且丰富的产品、数据、场景的优势，迭代了多个版本。腾讯的大模型在丰富的内部场景和应用上进行了反复锤炼，更清楚一个深入业务的大模型应该如何设计和研发。

腾讯集团副总裁蒋杰

相比于国内外已发布的大语言产品主要是通过聊天场景进行测试和训练，腾讯选择了用自家产品来测试。在腾讯集团副总裁蒋杰看来，测试大语言模型的途径有很多。“一种是通过Chat来验证，这会有比较好的体感。而腾讯有20多年的发展历史，有海量的用户和TOC的应用场景、TOB的验证体系，用它们来测试或许会有更好的效果。”蒋杰表示。

就这样，腾讯强大的产品矩阵，成为了混元大模型语料训练的“养料”，也是场景应用的“磨刀石”。至今，腾讯混元大模型拥有超千亿参数规模，预训练语料超2万亿tokens。

目前，混元大模型已经接入腾讯50多个业务并取得初步效果，包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、

转载请注明：http://www.changpgs.com/fsrgz/11905.html

上一篇文章：自重仅78吨,配超宽平地板驾驶室,解放

下一篇文章：没有了