在科技界引发广泛关注的DeepSeek,正以其卓越的表现和独特的开源理念,在硅谷乃至全球范围内掀起波澜。
近日,DeepSeek的R1模型在大模型竞技榜上大放异彩,不仅跻身前三,还与ChatGPT-4(2024年11月20日版本)并列,而它的开源身份和相比之下便宜20倍的价格,更是让人眼前一亮。
在复杂提示词/风格控制榜单上,R1更是独占鳌头,展现出其在多个维度上的领先地位。
在衡量模型编程开发能力的WebDev分榜上,R1同样表现出色,仅次于闭源的Claude 3.5 Sonnet,差距不到40分。网友们通过实测体验,纷纷表示R1在多次对决中只输了寥寥几次。
硅谷对DeepSeek的好奇心丝毫未减,这个原本作为“副业”的项目,如今却成为了众人瞩目的焦点。DeepSeek的创始人梁文峰,在接受中文采访时的观点,也被翻译成英文,被硅谷的科技人士逐字阅读,甚至总结成箴言在互联网上流传。
图灵奖得主LeCun也对DeepSeek给予了高度评价,认为它代表了开源的力量,预示着开源模型正在超越专有模型。
DeepSeek的成功并非偶然。作为控股方的幻方量化,拥有一批顶级科学家和充裕的算力资源。DeepSeek的诞生,可以说是幻方量化在AI领域深耕多年的“副产物”。幻方量化自2015年成立以来,就致力于将AI应用于量化交易,并在2018年确立了AI为主要发展方向。多年的技术积累和算力基建,为DeepSeek的快速奔跑提供了底层支撑。
梁文峰在采访中提到的创新第一性原则、革命性架构、独特的公司文化和人才战略、致力于开源以及面临的底层计算挑战,都是DeepSeek能够成功的重要因素。他强调,创新不完全是商业驱动的,还需要好奇心和创造欲。DeepSeek采用的MLA架构,大幅降低了显存占用和推理成本,使得模型能够在保持高性能的同时,实现成本的大幅优化。
DeepSeek的成功,也引发了业界的广泛讨论。有人认为,DeepSeek展现出的理想主义和创新能力,让人看到了通用人工智能(AGI)的希望。也有人担忧,DeepSeek在商业化上的“自断后路”,可能会让其未来的道路充满挑战。但无论如何,DeepSeek已经用自己的行动,证明了开源和创新的力量。
梁文峰的故事,也是一个从程序员到科技领袖的传奇。他在搅动中国量化市场后,选择回到AI领域,组建起年轻蓬勃的团队,用他们的智慧和热情,为全球科技界带来了新的惊喜和启示。