天脉网 | 天脉新媒体中心主办！
手机版
二维码

时事快闻

AI搜索工具准确率仅六成，自信满满却频出错？

时间：2025-03-13 20:52 来源：天脉网作者：杨凌霄

近期，哥伦比亚大学数字新闻研究中心公布了一项针对AI搜索引擎的深度研究报告，该报告聚焦于ChatGPT Search、Perplexity、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search、Copilot以及Perplexity Pro等八款AI搜索工具。

研究人员精心挑选了20家新闻机构的200篇报道作为测试样本，确保这些报道在谷歌搜索中排名靠前。他们利用相同的查询条件测试了这些AI搜索工具，重点评估它们能否准确引用文章内容、新闻机构名称及原始链接。

研究结果显示，除Perplexity及其付费版本外，其余AI搜索引擎的表现普遍令人失望。整体来看，这些AI工具提供的答案中，有高达60%是不准确的。更令人担忧的是，AI对于错误答案的自信态度，使得问题更加严重。

这一发现进一步证实了外界长期以来的担忧：大语言模型不仅容易出错，而且擅长以一本正经的态度传播错误信息。它们常常以绝对肯定的语气陈述错误信息，甚至在受到质疑时，仍试图为自己的说法辩护。

在测试中，ChatGPT Search虽然回答了所有200个新闻查询，但其准确率仅为28%，而错误率高达57%。尽管表现不佳，但ChatGPT Search并非垫底。X公司旗下的Grok AI表现尤为糟糕，其中Grok-3 Search的错误率更是高达94%。

微软Copilot同样问题频出。在200次查询中，Copilot有104次拒绝回答，而在剩余的96次回答中，仅16次完全正确，14次部分正确，66次完全错误，总体错误率接近70%。

值得注意的是，尽管这些AI工具存在诸多问题，但它们的开发公司仍在向用户收取高额的订阅费用，每月费用在20至200美元之间（约145至1449元人民币）。付费版的Perplexity Pro（20美元/月）和Grok-3 Search（40美元/月）虽然回答次数更多，但错误率也相应提高。

点赞 0反对 0举报 0 收藏 0

更多>同类天脉资讯

AI Agent时代来临：Operator与Manus引领人机交互新范式

AI Agent作为能够感知环境、决策和执行动作的智能体，是人机交互新范式，将改变人类与AI协同模式，开启AI在垂直行业渗透的大门。AI Agent的发展为AI应用提供新思路，未来模型能力将不断提升，各领域A…

03-13

阿里新夸克：打造AI超级框，开启无边界智能新体验

随着未来模型能力的不断迭代升级，我们希望夸克AI超级框就像机器猫的口袋一样，能够让用户在这里进入AI世界。” 在刚刚过去的财报电话会上，阿里巴巴集团CEO吴泳铭表示，未来三年将围绕AI战略核心加大三方面投入，…

03-13

3·15维权攻略：大学生如何应对校园周边消费陷阱？

3·15消费者权益日临近，在大学生活中，你是否踩到校园周边消费陷阱？晚会会对一些侵害消费者权益的典型案例进行曝光，涉及产品质量、食品安全、虚假宣传、售后服务等多个领域，引起社会各界的广泛关注，对违法违规企业…

03-13

2024三巾市场新趋势：湿巾、棉柔巾、湿厕纸谁将领跑？

2023年12月 - 2024年11月，常规湿巾和婴童/纯水湿巾市场规模分别为47.3亿元和27.8亿元，均呈现需求增长但均价下滑导致销售额负增长的态势，淘天是核心渠道，抖音份额增长，品牌格局上德佑领先，且消…

03-13

2024-2025中国互联网数字经济：艾瑞报告深度剖析发展新趋势

《2024-2025年中国互联网数字经济发展报告》由艾瑞研究院发布，全面剖析中国互联网数字经济发展状况。同时，人工智能广泛渗透各行业，在教育、医疗、VR/AR、Robotaxi等领域的应用不断深化，推动产业…

03-13

京东七鲜超市“仓店”加速布局，即时零售市场迎来新变局？

这意味着，京东七鲜超市在即时零售市场的进攻，大概率会采取一种新模式：线下七鲜门店强化体验的特质，扩大品牌力，而经营、人力成本和投入更少，运营难度更轻盈的仓店，则可快速复制，与线下体验型七鲜大店，紧密协同，从…

03-13

雷司令590岁庆典：艺术营销+50城联动，白葡萄酒新风潮来袭！

如今，每年3月份的“雷司令生日”和6-8月份的“无雷司令不夏天”两大营销IP，已成为德国葡萄酒协会深耕中国消费者市场的核心活动。通过丰富多样的线上和线下活动，德国葡萄酒协会以创新营销连接传统与潮流，将带动德…

03-13

宁夏7000亿算力盛宴，这家中字头企业低调领跑，股价仅10元出头？

人工智能的发展离不开深度学习等复杂算法的支持，而这些算法需要大量的数据进行训练和验证。可以说，算力是连接数据与智能的桥梁，是将原始数据转化为有价值信息的“加工厂”。数据港：作为IDC服务龙头，公司深度受益…

03-13

岩山科技转型AI：能否走出困境，实现华丽转身？

具体来看：首先，分析流量用户的需求和风险状况，从而进行精准营销和风险控制；其次，岩山开发了“2345贷款王”移动APP产品，专门为持牌金融机构与个人之间的借贷行为提供平台；第三，公司相继设立融资租赁公司、投…

03-13

盒马X败退，新零售巨头能否靠转身重塑辉煌？

盒马X标榜的“比山姆便宜”并未真正兑现，反而在商品种类和品质稳定性上频频失分。在会员制零售的擂台上，山姆会员店稳坐铁王座，而盒马X会员店，这个风头正劲的本土挑战者，却像个追风少年，跑得快，却总也摸不到王座的边…

03-13

蔡崇信：电商行业硝烟四起，阿里需以创业心态应战

快科技3月13日消息，阿里巴巴集团董事长蔡崇信在新加坡举办的一场论坛中指出，电商行业是全球竞争最为激烈的领域，几乎没有进入壁垒。他强调，阿里巴巴必须回归创业公司的心态，以应对新兴竞争对手的挑战。蔡崇信指出…

03-13

AI崛起！中国经济新动力：预计带动GDP增长约0.4个百分点

事实上，AI正在为中国经济带来一场深刻的技术变革，并对传统经济模式产生深远的影响。总体来看，人工智能的快速发展不仅为中国经济带来新的增长点，也为国内经济转型提供了强有力的支撑。随着技术的不断突破和政策的有效…

03-13

2025，中国智慧工厂如何引领“智造”新时代？

* 预测性维护：三一重工通过振动传感器+AI模型，将设备故障误报率从15%降至0.3%，年节省运维成本超8亿元。数据对比：2024年中国工业软件国产化率从2019年的7%提升至43%，但高端PLC、CAE…

03-13

小红书电商出海领航，跨境新赛道能否开启商业新篇章？

想要通过小红书的平台顺利出海，绝不仅仅是流量的积累，更关键的是品牌如何在国际市场中建立稳固的认知。从最初因“TikTok难民”热潮获得短暂爆发，到如今全链路服务体系的构建，小红书正用切实举措将流量转化为商业价…

03-13

YY直播携手DeepSeek，打造低延时智能新体验，全面布局社区生态

近日，YY 公司宣布了一项重大举措，正式接入当下最热门的开源大模型产品 DeepSeek，并顺势推出了低延时、不卡顿的 YY-DeepSeekR1 - 满血版，简称为 “YYDS” 。届时，用户有望尽情享受…

03-13

点击查看更多 +

全站最新

阿里新夸克：打造AI超级框，开启无边界智能新体验

3·15维权攻略：大学生如何应对校园周边消费陷阱？

小米格力恩怨再升级！董明珠内涵后，小米王化发文暗指时代变迁

英特尔新掌门出炉：华人高管陈立武接棒，能否引领科技巨头再创辉煌？

美芯片四巨头齐聚华人CEO，英特尔换帅后股价大涨，背后有何奥秘？

金融圈大新闻！广发银行董事长辞职，多家银行遭监管重罚

热门内容

媒体信息