大模型小模型联手，破解AI数据标注低资源难题！-天脉网

在科技日新月异的今天，人工智能领域的每一次飞跃都离不开科研的持续投入与对前沿技术的不断探索。2023年，网易伏羲携手中国计算机学会（CCF）共同设立了“CCF - 网易雷火联合基金”，旨在利用多方资源优势，深化与国内外青年学者的科研合作，推动中国人工智能及相关尖端技术产业的进步，并加速校企合作与技术成果转化。

自成立以来，CCF-网易雷火联合基金一直致力于科研成果的转化与应用，吸引了众多学者的关注与支持。在2024中国计算机大会（CNCC2024）上，该基金的首批优秀成果正式揭晓。浙江大学软件学院百人计划研究员王皓波老师作为杰出代表，分享了其在基金资助下取得的课题成果——《基于大小模型协同的低资源标注技术》。该技术通过结合大模型与小模型的优势，为低资源条件下的数据标注难题提供了全新的解决方案，有望大幅提升标注效率与质量，推动人工智能产业更高效的数据驱动发展。

王皓波老师的演讲引起了广泛关注。他比喻道，如果将AI算法比作推动科技进步的“火箭”，那么数据标注就是为其提供动力的“燃料”，对训练模型、提高准确率至关重要。在AI市场竞争日益激烈的当下，数据标注的效率与质量直接影响着AI应用的效果与企业的竞争力。随着OpenAI发布的ChatGPT等大模型的出现，超大规模模型、数据和算力的结合使得通用智能初步显现，为众多行业带来了广泛的应用潜力，也为数据标注带来了新的机遇与挑战。

面对垂直领域产业对数据标注的迫切需求，通用大模型往往难以直接输出标注结果，仍需大量人类知识进行数据标签、校验与修复。在此背景下，王皓波老师的研究团队聚焦于如何利用大模型的强大能力，结合小模型的优势，实现低资源条件下的高效、精准数据标注。这一研究得到了CCF - 网易雷火联合基金的大力支持。

研究团队在数据标注技术领域的探索经历了多个阶段。首先是鲁棒噪声标签学习阶段。在机器学习中，噪声标签问题广泛存在，如机器生成标注数据的不准确性及众包标注者的经验不足等。传统的噪声标签学习算法存在局限性，难以达到理想效果。为此，研究团队在IJCAI 2023上提出了ProMix算法，通过创新的渐进选择方式，充分利用干净样本，解决了样本不平衡问题，并在多个数据集上取得了卓越成绩。

随着大模型时代的到来，研究团队进一步思考如何将大模型与小模型协同应用于数据标注领域。在EMNLP 2023上发表的FreeAL框架，旨在实现无人工主动学习的数据标注。FreeAL框架充分发挥大模型（LLM）和小模型（SLM）各自的优势，通过大模型生成初始标注，小模型进行鲁棒蒸馏，两者协同训练，不断优化标注结果。实验结果表明，FreeAL在多个任务上表现优异，甚至在某些数据集上超越了人类标注结果。

基于FreeAL框架，研究团队进一步研发了CORAL框架，相关成果入选VLDB 2024。CORAL框架提供了一种协作式自动标注原型系统，旨在减少人工参与并确保高质量的数据标注。CORAL结合了大小模型的协同工作，实现了初步的自动化标注流程，并引入了人机协同的标注范式。通过网易有灵众包平台的用户界面，用户可以对标注结果进行审查，针对低置信度样本进行人工校正，从而在有限的人工参与下有效提升标注数据的质量。

目前，研究团队正在探索将大小模型协同标注系统与网易有灵平台的AOP体系深度集成，以构建一个更高效、智能的人机协同Agent调度体系。这一体系将精准定位尚未得到妥善解决的样本，由网易有灵众包平台引入人工干预，进行人机协同标注。人类标注员凭借其专业知识和经验，处理复杂样本，实现最佳标注结果，从而提高数据标注的准确性和可靠性。

王皓波老师的研究不仅为数据标注领域的发展贡献了重要力量，也展现了CCF - 网易雷火联合基金在推动人工智能技术进步中的积极作用。这一研究成果有望为人工智能产业的数据标注提供全新的解决方案，推动其迈向更加高效、智能的发展道路。

近日，京东宣布升级“春晓计划”，重磅推出“新商三步法”，包含“0元开店、拿补贴投广告、上专属活动”三大步骤，为新商家提供了简单、明确、有效的开店指南，新商家只需跟着步骤操作，即可快速起量、加速爆单。具体来说，…

Swanky跨境商城是以互联网为依托的跨境电商平台，通过大数据、人工智能等先进技术手段，为消费者提供全球优质商品的智能导购服务。在市场竞争日益激烈的当下，Swanky跨境商城凭借其创新的商业模式和技术优势…

3月6日消息，上周二有网友发现，字节跳动旗下AI助手豆包正在小范围测试深度思考模型，但接入的不是DeepSeek模型。还有消息称，豆包正在测试的深度思考模型是基于豆包1.5基座模型研发。在深度思考模式下，用…

还有一个点，现在很多搞实体的土老帽老板，他们根本就不懂流量，就知道营销，产品，然后付费投流，随着现在的付费流成本越来越高，老板的生意就越来越难做，我进入一个赛道，我就发现，我在里面居然是王者，因为没有人跟我…

吴迪：我觉得有两个影响，一是客户更容易看出来谁在 AI 的基础能力上强一些，谁在 AI 的基础能力上弱一些，因为这是开卷考；二是DeepSeek 进一步激发了中国市场对算力和大模型的需求，去年我有很多的工…

我想说的是，AIGC是技术发展的未来，DeepSeek也是国产模型的翘楚，工具没有错，错的是滥用、恶用工具的行为，AI当然可以创造内容，但前提一定要是注明它由AI生成，不能鱼目混珠，放任它以一种不可辨识的方…

同一时间，智平方与北京大学合作推出了针对操作机器人的 RoboMamba端到端具身大模型。在创业之前，他曾任小鹏汽车和OPPO的首席科学家与研发高管，将AI原创硬核研发与手机、汽车两大智能终端相结合，推动和主…

站长之家(ChinaZ.com) 3月5日消息:据外媒报道称，亚马逊准备推出 Nova —— 一款具有先进推理能力的AI模型，将于 2025年 6 月发布。随着科技巨头们不断竞相提升人工智能能力，亚马…

这些项目在设计之初就将防水作为核心考量，采用先进的防水材料与施工技术，如高分子防水卷材、防水涂料与防水混凝土等，确保结构在极端天气条件下的稳定性与安全性。这些材料不仅具有更高的防水性能和更强的耐久性，还更加环…

华为云南产业发展与生态部部长杨志鹏在致辞中表示，华为高度关注数字人才培养，长期投入人才生态体系构建，以ICT学院合作、课程体系融入、ICT大赛举办等系列举措，助力各地发展ICT人才。华为培训与认证部院…

“工会智语”模块具备通用大模型广泛的知识覆盖和深度理解能力，通过深度挖掘和整合工会领域的专业知识、政策法规、服务流程等资源，“工会智语”为职工群众和工会工作者提供了精准、高效、个性化的问答服务，进一步推动工会…

近日，佳普乐卫浴产品正式进入铧龙装饰供应商平台，并成功入驻位于广东省珠海市香洲区的华发珠海湾项目精装样板间，并将持续为该项目供应优质的智能卫浴产品，这标志着佳普乐在高端地产精装领域的生态化布局迈出关键一步。 …

与此同时，大润发母公司高鑫零售发布了重要人事变动公告，黄明端辞任董事会主席，将由德弘资本华裕能接任。这或许是大润发或将学习胖东来进行调改的明显信号之一。有业内专业人士分析，作为上市公司，从资本层面考虑，以…

目前，CoreWeave的主营业务是AI数据中心，过去的2024年里，他们的年营收飙涨730%，达19.15亿美元（约合人民币139亿元），不过，由于对AI基础设施的大力投资，其年亏损额也达到8.63亿美元…

在技术路线上，DeepSeek通过四大创新实现了性能与成本的双重突破：其一，采用混合专家架构（MoE），每个词元仅激活8个路由专家，显著降低计算资源消耗（1-105）；其二，开发多头潜在注意力（MLA）技术…