天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

通义千问开源数学模型Qwen2-Math，数学能力超越GPT-4o

时间：2024-08-09 11:58

8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。

注：在MATH基准测评中，通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率，超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等开闭源模型。

Qwen2-Math 基础模型使用 Qwen2大语言模型进行初始化，并在精心设计的数学专用语料库上进行预训练，训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目，以及由 Qwen2 模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后，研发团队训练了指令微调版本模型：基于Qwen2-Math-72B 训练一个数学专用的奖励模型;接着，将密集的奖励信号与指示模型是否正确回答问题的二元信号结合，用作学习标签，再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用 GRPO 方法优化模型。

据悉，Qwen2-Math系列模型目前主要支持英文，通义团队很快就将推出中英双语版本，多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估，除了 GSM8K 和 MATH等常见的测评基准，还引入了更具挑战性的考试竞赛类测试，如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题，中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终，Qwen2-Math-72B-Instruct表现优异，在十大测评中都获得了远超其他开源数学模型的成绩。

注：研发团队在greedy和RM@8 的条件下对模型作了测评，表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果，分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分，8次回答中reward model所选答案的得分。

“大模型能不能做数学题”，不仅是社交平台的热门话题，也是业界非常关注的研究课题。处理高级数学问题，需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示，希望通过开源“为科学界解决高级数学问题做出贡献”，未来将持续增强模型数学能力。

附：Qwen2-Math解题示例

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

ISC.AI2024数字安全峰会：安全大模型引领安全行业革命

7月31日，ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型，引领安全行业革命”为主题，呼吁行业以大模型重塑安全体系，守护数字经济稳健发展。大会汇聚了多位院士专家，以及360、华为、微软等国内外企业领袖，深入剖析人工智能技术发展带来的安全挑战与解决方案，共同探索安全大模型驱动数字安

07-31

阿里通义免费开放奥运AI大模型

7月31日，阿里通义宣布免费开放奥运AI大模型，具备最强奥运专业知识，并集合同声传译级别的中法互译功能。即日起，用户可以在通义APP免费使用。通过奥运专项强化训练，通义大模型已具备业界最强奥运专业知识，可以最快地回答奥运相关的各种问题。在通义APP的主搜索和“赛事百事通”功能中，用户无论查询各类赛事知识，还是

07-31

OpenAI积极自研AI芯片意图领跑行业成为“AI界的苹果”

【天脉网】7月19日消息，据科技媒体The Information最新报道，知名人工智能公司OpenAI正与包括博通(Broadcom)在内的多家顶级芯片设计企业进行深度接触，意在联合研发新型AI芯片。OpenAI此举旨在通过自研AI芯片，进一步整合软硬件资源，以提升其AI技术的整体效能，致力于成为AI行业的领军者，类似于科技巨头苹果在消费电子领

07-19

周鸿祎解析AI大模型“翻车”事件：潜力无限但需专项训练

【天脉网】7月18日消息，近期科技界掀起轩然大波，多款顶尖AI大模型如ChatGPT 4o、谷歌Gemini Advanced及Claude 3.5 Sonnet，在解答简单数学比较题“9.9和9.11哪个数值更大”时集体“栽跟头”，引发广泛讨论，人工智能的智能程度再次成为公众热议的焦点。面对这一风波，360公司创始人周鸿祎发表独到见解，他谨慎地指出：“

07-18

Meta新模型遇欧盟监管难题多模态Llama模型无缘欧盟市场

【天脉网】7月18日消息，据Axios报道，科技巨头Meta在一份官方公告中透露，他们计划推出一款全新的多模态Llama模型。然而，由于当前监管环境的不明朗，这款先进的模型将不会在欧盟地区发布。Meta的这一决策意味着，即便该模型在开放许可下发布，欧盟地区的用户和企业也将无法体验到这一多模态模型的功能。作为替代，Meta将

07-18

中国AI高性能网络受国际顶会认可！阿里云6篇论文入选SIGCOMM2024

5月13日记者获悉，网络通信领域国际顶会SIGCOMM2024确定了收录论文名单，中国企业表现亮眼，阿里云6篇论文入选，其中，介绍阿里云最新一代的智算集群网络架构HPN 7.0的成果论文，成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文。据了解，SIGCOMM2024将于8月在悉尼线下召开会议。大模型的火热对AI基础设施提出了更高

05-13

阿里云发布通义千问2.5，全面赶超GPT-4 Turbo

本报讯(记者张伟)通义大模型发布一周年之际，迎来重要的历史性时刻。5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4 Turbo，成为地表最强中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Llama-3-70B，成为开源领域最强大模型。历经一年多追赶，国产大模型终于进入核心竞技场，

05-09

通义灵码推出企业版，底座模型CodeQwen1.5登顶权威榜单

5月9日阿里云AI峰会，通义灵码宣布推出企业版，满足企业用户的定制化需求，帮助企业提升研发效率。通义灵码是国内用户规模第一的智能编码助手，基于SOTA水准的通义千问代码模型CodeQwen1.5研发，插件下载量已超350万。通义灵码熟练掌握Java、Python、Go、JavaScript、TypeScript、C/C++、C#等200多种编程语言，可以辅助写代

05-09

OpenAI的Sora工具成创意工作者新宠助力创作而非取代人类

【天脉网】5月6日消息，OpenAI的文生视频工具Sora的早期测试反馈已出炉，测试者们似乎对此工具颇为满意。他们普遍反映，Sora并未给他们带来职业危机感，反而成为了他们工作的得力助手。Sora，这款由人工智能初创公司OpenAI于今年2月正式推出的工具，被设计为能够“深入理解和模拟变化中的现实世界”。它独特的文本到视频转

05-06

搭载联想小天个人智能体的AI PC亮相 PC从此变CP

4月18日上午，以“AI for All，让世界充满AI”为主题的2024联想创新科技大会Tech World在上海举行。会上，联想与全球顶尖的AI科技领袖、专家共同探讨混合式人工智能的落地应用。个人智能体联想小天正式亮相，同时被称为AI新物种的搭载联想小天的AI PC产品也同步发布，主要包括YOGA Book 9i AI元启、YOGA Pro 16s AI元启、YO

04-25

微软CEO纳德拉：我们在OpenAI的崛起中扮演了关键角色

【天脉网】4月23日消息，近日，微软公司首席执行官萨蒂亚・纳德拉在接受采访时，着重谈到了微软在推动领先的人工智能公司OpenAI发展中的“关键作用”。纳德拉自豪地表示，若无微软的及时援手，OpenAI或许根本无法崭露头角。如今，OpenAI已成为业内翘楚，而微软能参与其中，共同见证其成长，深感荣幸。纳德拉不仅对OpenAI的

04-23

OpenAI瞄准印度市场力图通过人才和政策塑造AI未来

【天脉网】4月22日消息，OpenAI已宣布在印度启动招聘计划，意在早期介入并影响人工智能(AI)的监管政策制定。公司任命了一位政府关系负责人，以领导并处理OpenAI在印度的公共政策相关事务。这一策略性举措显示出OpenAI对印度市场的高度重视，并希望通过人才引进及参与政策塑造来引导印度AI的未来发展方向。据相关报道指出，O

04-22

Meta升级AI大军：Llama 3模型强势登场

【天脉网】4月19日消息，Facebook母公司Meta于美国时间周四发布了其最新版的开源大语言模型——Llama 3。这一举动无疑加剧了当前硅谷在人工智能领域的激烈竞争。Llama 3模型此次推出了两个版本，参数规模分别为80亿和700亿。模型的参数数量是衡量其大小和性能的关键指标，反映了模型的复杂性和计算能力。即便是参数规模较小

04-19

荣耀轻薄本再升级：AI加持的极致轻薄全能本即将面世！

【天脉网】4月18日消息，荣耀近期在笔记本电脑领域持续发力，不仅推出了备受瞩目的MagicBook Pro 16 AI笔记本，还传出将发布全新游戏本的消息。而据天脉网了解，在轻薄本领域，荣耀同样有着令人期待的新品即将问世。荣耀PC产品线总经理朱臣才近期在社交平台透露，荣耀即将推出一款续航出色、轻薄便携且AI技术加持的极致轻薄

04-18

新一代Atlas机器人亮相波士顿动力展示人形机器人新高度

【天脉网】4月18日消息，波士顿动力公司在宣布淘汰其液压驱动的人形机器人Atlas之后，紧接着推出了全新的纯电动版Atlas机器人。新一代Atlas不仅扩大了运动范围，更提升了任务执行能力。据波士顿动力介绍，他们借助新款Atlas旨在展示人形设计并不会限制机器人的双足移动性。经过重新设计的关节，新版Atlas能进行灵活自如的旋

04-18

点击查看更多 +

全站最新