2025年,谁将引领AI时代语料供应,成为中国版Reddit?

   时间:2025-01-15 20:46 来源:天脉网作者:杨凌霄

在2024年,Reddit的辉煌成就无疑是科技界的一大亮点。这家历经近二十载的社交平台,不仅于去年三月成功登陆纽交所,更在上市后第三季度首次实现盈利,其股价更是飙升,较上市首日开盘价上涨约350%。

Reddit之所以能够取得如此显著的成绩,其背后的关键驱动力无疑是人工智能(AI)。Reddit上的内容质量极高,为AI大模型技术的发展提供了宝贵的语料库资源。

去年二月,Reddit与谷歌达成了一项价值约每年6000万美元的协议,允许谷歌使用Reddit的内容来训练其人工智能模型。Reddit表示,其不断增长的平台数据将成为领先大型语言模型(LLM)培训的关键要素,并为Reddit开辟了新的盈利渠道。

紧接着,在上市后的五月,Reddit又与OpenAI建立了类似的合作关系。Reddit的问答内容将被整合到OpenAI的产品中,同时,Reddit平台的编辑功能和附加模组也将加入由OpenAI技术驱动的AI功能。这一合作是双向的,OpenAI为Reddit提供技术支持,而Reddit则为OpenAI提供高质量的语料。

那么,在众多的UGC(用户生成内容)社交平台中,为何Reddit能够成为这些AI大模型厂商的青睐之选呢?

从业务生态上看,Reddit是一个相对独立的平台,其背后由多个利益集团及个人控股,这使其无需顾及复杂的生态组合,能够更灵活地进行合作。与此同时,Reddit的内容模式也极具特色,它通过subReddit(子论坛)来组织内容,用户可以自由地创建和加入不同的子论坛,发帖和评论。这种机制使得Reddit的内容质量得到了有效的保障,形成了良好的语料产出正向循环。

Reddit的发展阶段也为其在AI时代的崛起提供了契机。尽管Reddit创立已近二十年,但直到去年才开始实现盈利。在AI大模型时代,对于Reddit来说,这是一个拓展业务、寻求盈利的绝佳时机。

以Reddit为模板,我们来分析一下国内具有较多文字语料且业务较为独立的UGC平台,如B站、小红书、微博、豆瓣、知乎和贴吧等。在这些平台中,谁最有可能在2025年成为AI时代的中国Reddit呢?

首先,我们需要考虑的是哪个平台能够出售语料,并且拥有高质量的语料。AI大模型训练所需的语料必须来自合法且许可的内容渠道。在这方面,社交媒体平台因其内容的即时性和经验性,成为了AI厂商的重要选择。然而,并非所有的UGC社交平台都能出售语料。一些大厂旗下的社交平台,由于其母公司拥有丰富的产品生态和产业链,往往会将自身平台内容视为核心资源,不会轻易出售。

相比之下,B站、小红书、微博、豆瓣、知乎和贴吧等相对独立的C端社交平台产品,尤其是以文字类内容为主的平台,更有可能在接下来的AI时代中脱颖而出。这些平台在用户自发的内容判定机制、平台自身的内容判定机制以及用户画像与AI的适配度等方面,都具有一定的优势。

然而,在这些平台中,并非所有平台都愿意出售语料。以小红书为例,由于其正处于商业化探索的上升期,且自身也在测试多个AI功能,因此可能并不愿意成为其他厂商的语料供应商。相反,它更倾向于成为AI合作的甲方。

相比之下,B站和微博则更有可能与AI大模型厂商达成类似Reddit的合作模式。B站的内容储备量及质量较高,长视频内容适合转化成文字,并具有大量的观点性思考。同时,B站也拥有粘性较高的社区氛围和良好的内容产出循环机制。然而,B站在将平台内容用于与AI大模型厂商合作之前,需要先解决用户协议的问题,确保用户对内容的使用表示同意。

微博则与B站有所不同。微博的用户对于自己的内容被用来生成AI内容似乎并不排斥,甚至微博的评论机器人“罗伯特”已经成为提升用户粘性的手段之一。这种高接受程度使得微博成为AI大模型厂商寻找语料供应商的理想选择。

随着AI技术的不断发展,语料库的质量将成为影响AI大模型训练效果的关键因素之一。在这个背景下,拥有高质量语料库的社交平台将成为AI大模型厂商争相合作的对象。而B站和微博等相对独立的UGC平台,则有可能在2025年成为AI时代的中国Reddit。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报