近日,一家名为DeepSeek的杭州企业因其两大开源大模型的发布,在科技圈内引发了广泛关注。这一“来自东方神秘力量”的科技成果,被众多业内人士视为一项可能改写科技版图的创新。
1月27日,DeepSeek在杭州举办了一场活动,游戏科学创始人冯骥出席并总结了DeepSeek的六大特点:强大、便宜、开源、免费、联网、本土。他高度评价DeepSeek,认为这可能是一项具有国运级别的科技成果。
DeepSeek之所以能在短时间内引起如此大的反响,与其独特的创新方式密不可分。在通用的模型推理步骤上,DeepSeek进行了大胆的调整。传统的模型在提升推理能力时,往往依赖于“监督微调”环节,即通过大量的训练数据来优化模型。然而,DeepSeek-R1在训练过程中跳过了这一环节,直接进入“强化学习”阶段。
在强化学习过程中,DeepSeek要求大模型不仅要给出最终的答案,还要写出思考过程。通过“奖励”机制引导模型找到最佳方案,经过无数次的训练,大模型终于迎来了“顿悟时刻”。这一创新方式不仅降低了对算力的依赖,还证明了“大力出奇迹”并非通往AGI的唯一路径。
DeepSeek的创始人梁文锋是一位低调的极客,他毕业于浙江大学,主修软件工程,人工智能方向。在创立DeepSeek之前,梁文锋和他的团队在金融量化投资领域已经取得了显著的成就。幻方量化,作为梁文锋的“老本行”,在金融江湖中早已成名。
2016年,幻方量化首次上线运行AI策略,2018年,梁文锋确立了公司要成为一家AI科技公司的目标。2023年7月,他在杭州创立了DeepSeek。虽然团队规模相对较小,仅有139名研发人员,但其中算法、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。他们中的许多人都是来自顶尖高校的应届毕业生和实习生,以及毕业不久的年轻人。
梁文锋坚信,中国完全有能力走出自己的科技发展模式,并在全球科技变革中扮演引领者的角色。DeepSeek的成功,不仅证明了梁文锋的远见卓识,也为中国科技企业的创新发展注入了新的活力。