DeepSeek“开源周”活动圆满落幕,多项创新技术开源
DeepSeek于近日成功举办了为期五天的“开源周”活动,期间陆续向全球开发者社区开源了多项核心技术。此次活动不仅彰显了DeepSeek在技术创新上的实力,也体现了其开放共享的精神。
在“开源周”的第五天,DeepSeek宣布了Fire-Flyer文件系统(3FS)及其数据处理框架Smallpond的开源。3FS作为一款并行文件系统,充分利用了现代SSD和RDMA网络的带宽优势,为DeepSeek的数据访问提供了强大的助力。其性能表现尤为亮眼,如在180节点集群中的聚合读取吞吐量高达6.6TiB/s,展现出卓越的处理能力。
与此同时,Smallpond作为轻量级的数据处理框架,凭借其基于DuckDB的高性能数据处理可扩展性,能够轻松应对PB级别数据集的处理需求。其操作简便,无需持续运行的服务,为用户提供了极大的便利。
回顾整个“开源周”活动,DeepSeek从2月24日起陆续开源了包括FlashMLA、DeepEP、DeepGEMM以及Optimized Parallelism Strategies在内的多个代码库。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,已投入生产使用;DeepEP则是首个用于MoE模型训练和推理的开源EP通信库;DeepGEMM支持多种布局,完全即时编译,为V3/R1模型的训练和推理提供了有力支持;而Optimized Parallelism Strategies则针对大规模模型训练中的效率问题进行了优化。
DeepSeek的开源举措受到了业界的广泛关注。自上线以来,其App的累计下载量已超1.1亿次,周活跃用户规模最高近9700万个,显示出强劲的市场表现。有消息称DeepSeek正在加速开发新模型DeepSeek-R2,该模型有望生成更好的代码,并支持多种语言推理。虽然幻方量化对此表示以官方消息为准,但业界已对新模型的发布充满期待。
DeepSeek的创新成果和技术开源,无疑将对AI行业产生深远影响。印度科技服务商Zensar的首席运营官认为,DeepSeek成功打造了高性价比的AI模型,将促使全球公司加速研发进程,打破少数企业的垄断格局。目前,包括OpenAI、谷歌、xAI、Anthropic、阿里等在内的多家企业已相继推出深度推理/深度思考模型,行业竞争日益激烈。
值得注意的是,字节跳动旗下AI助手豆包也在小范围测试深度思考模型的不同实验版本,但据称接入的并非DeepSeek模型。这表明,在AI技术的探索和发展上,各家企业都在积极寻求突破和创新。