天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

当前位置：首页 > 天脉资讯 > 科技数码 > 正文内容

AI编程助手虽火，但微软研究揭示其软件调试能力仍待提升

时间：2025-04-14 00:48 来源：天脉网作者：沈瑾瑜

近期，人工智能在编程领域的应用日益广泛，引起了科技巨头们的密切关注。谷歌CEO桑达尔·皮查伊透露，谷歌内部已有25%的新代码是由AI生成的，而meta的CEO马克·扎克伯格也表达了在公司内部大规模部署AI编码模型的意愿。

然而，尽管AI模型在编程辅助方面取得了显著进展，但在解决软件漏洞这一关键问题上，它们的表现却远不及经验丰富的开发者。微软研究院的一项新研究揭示了这一现状，该研究针对包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的多款AI模型进行了测试。

在这项研究中，研究人员设计了一个名为“基于单个提示词的智能体”，它能够利用包括Python调试器在内的多种调试工具。智能体被分配了一组从SWE-bench Lite基准测试中筛选出来的300项软件调试任务。然而，测试结果并不理想，即便是最先进的模型，成功完成的调试任务也极少超过一半。

具体而言，Claude 3.7 Sonnet的平均成功率最高，但也仅为48.4%；OpenAI的o1模型成功率为30.2%，而o3-mini的成功率更是低至22.1%。这一结果引发了人们对AI模型在编程领域应用能力的质疑。

研究人员指出，AI模型在使用调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。但更深层次的问题在于数据稀缺，特别是缺乏足够多的“顺序决策过程”数据，即人类调试痕迹的数据。这意味着当前的AI模型在训练过程中未能充分学习到人类调试的逻辑思维和方法。

尽管AI在编程领域的应用仍存在诸多挑战，但这一领域的研究仍在不断深入。然而，微软的这项研究提醒我们，开发者及其上级领导在将编程工作交给AI主导时需要三思而后行。事实上，越来越多的科技界领袖已经开始对AI取代编程工作的观点表示质疑。

微软联合创始人比尔·盖茨认为，编程作为一种职业将会长期存在。这一观点得到了Replit CEO阿姆贾德·马萨德、Okta CEO托德·麦金农以及IBM CEO阿尔温德·克里希纳等人的支持。他们一致认为，尽管AI在编程领域取得了显著进展，但人类开发者的专业知识和经验仍然是不可或缺的。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

宇宙之外还有无数个平行宇宙？科学家带你一探究竟！

在暴胀宇宙理论中，宇宙并没有在大爆炸之后立刻开始快速膨胀，而是先等物质和能量在一个极小的空间里『搅拌』均匀之后才开始了一次剧烈的膨胀，时间大约是在大爆炸后的0.000……0001秒（小数点和1之间有35个…

04-13

外贸企业转型内销，京东盒马东方甄选等巨头齐助力！

4月7日，永辉超市发布《致中国优质供应链的一封信》称，如果相关企业因出口受阻而库存积压，永辉将开通“绿色通道”，可在15天内极速上架；对于在国内市场知名度不高的品牌，永辉将通过“品质计划”为企业提供推广扶…

04-13

MoonBit生态再升级！mooncakes.io全新开源，1687个包共筑开发新未来

为了进一步提升用户体验、推动更多开发者参与生态共建，我们构建了一个全新的声明式 Web UI 框架 —— Rabbit-TEA，并基于此框架对MoonBit 包管理平台 mooncakes.io 的前端进…

04-13

河南原阳服务区火了：十多年如一日，20项免费服务究竟为何？

该工作人员表示，从2008年开业，服务区就有免费洗浴服务，“那时还是锅炉烧水，2010年以后才是温泉。” 一名正等待理发的货车司机说，自己跑的是河南到河北的专线，经常会在原阳服务区停一下，洗个澡接点开水，有…

04-13

胖东来理念受追捧却遭非议，背后原因究竟为何？

中国古代有句成语：“匹夫无罪，怀璧其罪”，胖东来没有错，但在某些人眼里，他推广的理念触犯了他们坚守的规则。宋清辉认为胖东来的文化水平不高，视他为小业主，可是他为什么要对胖东来如此大动干戈呢？不就是因为这个所谓…

04-13

房产变负债？三大信号预警，你的房子还是资产吗？

由于许多人手中的房产面临持续贬值，不少人选择割肉出售，尤其是在购房者收入下降的背景下，无法承担高额房贷的人选择将房子卖掉，哪怕面临亏损。随着房价下跌，许多业主的资产大幅缩水，但更让他们焦虑的是持有房产的成本在…

04-13

今日头条赚钱攻略：三步走开启你的自媒体副业之路

在自媒体写作和其他领域，许多成功的事物都是在他人成功经验的基础上发展起来的。例如，如果我的专长是历史领域，我会关注表现出色的同行，分析他们哪些文章成功，这些成功的作品就是我们的学习对象。在自媒体领域，只要…

04-13

全域运营时代，自媒体应如何管理多平台账号？

某头部MCN机构运营总监向我透露，他们孵化的美妆博主@Lemon在2024年通过矩阵运营策略，单月全平台涨粉超300万，其中跨平台导流贡献了67%的新增流量。某头部机构运营数据显示：采用智能管理系统的团队，人…

04-13

淘宝数字生活新蓝海：GMV千亿用户破亿，商家如何抓住新机遇？

厦门像甜科技有限公司的创始合伙人陈泽青表示，他们是一家以科技和创新驱动的公司，去年5月20日，旗下像素蛋糕AI修图正式登陆天猫，直接面向影楼、电商从业者、修图外包工作室等专业用户，其中不乏天真蓝、海马体等客户…

04-13

京东外卖百亿补贴大战启幕，刘强东能否搅动外卖江湖？

爆品专区：咖啡、汉堡套餐等商品补贴后低至3.9元，部分单品价格仅为其他平台的1/3，例如某品牌椰子拿铁仅需4.9元即可到手。商家与骑手：双端赋能构建护城河京东外卖的野心不仅在于用户争夺，更通过商家和骑手端的…

04-13

微软Defender推新招：封锁未注册设备，严防网络攻击扩散

IT之家 4 月 12 日消息，微软正在测试 Microsoft Defender for Endpoint的新功能，目的是阻止网络攻击者通过未发现或未注册的设备进行横向移动。在 Defender for …

04-13

巴菲特与中巴们：市场波动中的投资哲学大碰撞！

这也是但斌的老争议了，尽管他经常把老巴挂在嘴上，但很多人都认为他是一名带有一定投机属性的trader，比如他会关注股价短期波动的影响，会讨论股价什么时候“到底”——这些都是巴菲特几乎从不会提到的。——这不意味…

04-13

美团即时零售再升级，“闪购”独立品牌能否领跑市场？

界面新闻从接近美团人士处获悉，此次王莆中提到的“美团即时零售品牌”便是美团闪购，目前美团正在小范围灰度测试App首页的“闪购”一级入口。从美团的核心业务构成来看，餐饮外卖仍是其重要收入来源，但非餐饮品类的…

04-13

小米200亿小公募债券获上交所受理，资金将用于还债补流等

【大河财立方消息】4月12日，小米通讯技术有限公司2025年面向专业投资者公开发行公司债券项目获上交所受理。该债券拟发行金额200亿元，品种为小公募，债券期限不超过10年（含10年），可为单一期限品种，也可…

04-13

四川芬达道歉杨坤：互联网流量盛宴下的真相与反思

这看似简单的道歉视频，经过仔细琢磨，真可以称得上是当代互联网行为艺术的巅峰之作。从孙红雷到杨坤，一众流量的乞丐们高举着“致敬”的旗帜，四处寻找碰瓷的机会。在骂声中赚取黑流量，随后道歉又再度收获同情，归根结底不…

04-13

点击查看更多 +

全站最新

AI编程助手虽火，但微软研究揭示其软件调试能力仍待提升

《2048》高手进阶秘籍：策略布局与实战技巧大公开

霍思燕青岛亚宠展亮相，身材苗条气质佳，与宠物狗互动温馨满满

聪明狗狗的六大特征，快来对照看看你家汪星人中了几个？

孙多慈与徐悲鸿：十年苦恋终成空，爱而不得的艺术情缘

潘玉良：从青楼到画坛的传奇蜕变，艺术与爱情如何交织？

热门内容

媒体信息

新传播周刊

新传播，传播新经济之声！

本栏最新

AI编程助手虽火，但微软研究揭示其软件调试能力仍待提升

宇宙之外还有无数个平行宇宙？科学家带你一探究竟！

外贸企业转型内销，京东盒马东方甄选等巨头齐助力！

MoonBit生态再升级！mooncakes.io全新开源，1687个包共筑开发新未来

河南原阳服务区火了：十多年如一日，20项免费服务究竟为何？

胖东来理念受追捧却遭非议，背后原因究竟为何？