近日,AI领域迎来了一股新的开源热潮,由DeepSeek发起的多个高性能工具相继亮相,其中DeepGEMM尤为引人注目。
DeepSeek,这个在AI性能优化上不断突破的团队,再次以DeepGEMM项目震撼业界。DeepGEMM专为DeepSeek-V3设计,是一个针对FP8格式的通用矩阵乘法(GEMM)库,同时支持普通和专家混合(Mix-of-Experts,MoE)分组GEMM。自其在Github上开源以来,迅速收获了数百个星标,显示出开源社区的热烈反响。
DeepGEMM的核心理念是将复杂的计算任务简化为矩阵运算,并通过高效的算法实现性能提升。以婚礼为例,如果将婚礼的各个环节视为独立的计算任务,DeepGEMM则能将这些任务整合进一个矩阵中,统一管理和优化。无论是迎亲队伍的行走轨迹、鞭炮的点燃时间,还是灯光秀和音乐秀的配合,DeepGEMM都能精准计算,确保每个环节的最佳效果。
技术上,DeepGEMM通过轻量级的即时编译(JIT)模块,在运行时编译所有内核,无需额外的编译步骤。其代码量仅为300行,却实现了惊人的性能提升。DeepGEMM还支持H卡,并利用CUDA核心进行两次累加,以提高FP8计算的精度。
DeepGEMM的出色表现,得益于其对英伟达CUTLASS和CuTe概念的借鉴与超越。CUTLASS作为英伟达基于CUDA架构的矩阵计算加速工具包,虽然高效,但对于硬件要求较高。而DeepGEMM则更加专注和轻量,适用于更多场景,展现了DeepSeek在性能优化上的极致追求。
DeepSeek团队表示,DeepGEMM的性能已经能够匹配甚至超越英伟达等专家调优的库。在H800上的测试中,DeepGEMM在密集模型和专家混合模型MoE上均表现出色,速度较英伟达CUTLASS 3.6提升了2.7倍。这一成绩不仅打破了硬件性能的壁垒,也展示了DeepSeek在AI性能优化领域的领先地位。
DeepSeek的开源策略也备受称赞。他们不仅提供了高性能的工具,还简化了部署流程,让更多人能够轻松使用。DeepSeek的每一次开源,都像是在为AI社区提供了一本宝典,让人受益匪浅。这种开放、共享的精神,正是AI领域所需要的。
随着下一代基座模型如DeepSeek V4、GPT-4.5等的参数和复杂度不断增加,底层优化的重要性愈发凸显。DeepGEMM这样的工具,将成为推动AI发展的重要力量。DeepSeek的开源举措,不仅打破了闭源的壁垒,也为AI社区注入了新的活力。
在AI领域,开源已经成为一种趋势。DeepSeek的开源精神,不仅促进了技术的交流和发展,也激发了更多人对AI的热情和探索。这种精神,正是推动AI不断前进的动力。