向量数据库领域在近年来掀起了波澜壮阔的创新浪潮。随着大模型技术的迅猛发展,高效检索高维向量数据成为了大模型训练和推理的关键一环。2023年,大模型技术的突飞猛进使得向量检索,特别是作为检索增强生成(RAG)技术核心组成部分的向量检索,成为了数据库技术的焦点。
然而,随着RAG技术的广泛应用,其局限性也日益凸显。RAG技术主要依赖于向量化知识本身,难以捕捉独立信息之间的关联,无法结合关系和语境,因此在处理需要深层次语义关系和上下文细微差别的复杂查询时显得力不从心。
为了突破这一困境,杭州悦数科技有限公司(以下简称悦数)的CTO叶小萌带领团队,在2023年与LlamaIndex携手提出了Graph RAG的设想,并迅速分享了这一概念的初步验证成果。Graph RAG结合了图数据库的优势,通过知识图谱能够更精确、全面地检索相关信息,使模型能够关联上下文给出更为准确的答复。
悦数CTO叶小萌表示,Graph RAG概念的提出,源于团队对向量数据库局限性的深刻洞察。叶小萌直言,悦数与行业的差异化策略在于技术。大模型的兴起让RAG技术备受瞩目,但要让通过公域数据训练的大模型理解私域数据,就需要先将私域数据保存下来,这是RAG技术的起点。而要快速在私域数据中找到关联内容,就需要将图片、文字等知识内容向量化进行比较。然而,向量数据库在处理知识关联方面的不足,让团队看到了图数据库的巨大潜力。
在悦数团队首次提出Graph RAG概念时,人们对这两者的结合还充满疑惑。但悦数并未退缩,而是迅速组建团队开始打造这款RAG产品。经过一年的努力,悦数RAG产品已经实现了基于图的检索增强生成,帮助企业应对知识孤岛问题,并进入了产品市场契合度(PMF)阶段,预计今年能够进行大规模推广。
悦数RAG产品的研发过程充满了挑战。对于一家团队规模仅七八十人的创业公司而言,在原有产品线上开辟出一条新的产品线并不容易。除了内核的图库外,负责上层RAG开发的团队起初只有古思为一个人。古思为深知RAG技术的复杂性,他敏锐地捕捉到RAG在利用无状态大模型进行上下文理解和推理时无法绕过知识图谱,因为真实世界中的知识组织结构都是网状的。因此,他坚信Graph RAG具有足够的复杂性和想象力,值得投入。
在Graph RAG的研发过程中,团队面临了诸多抉择。例如,图的形式是选择现有的知识图谱进行事实检测和推理,还是从不同类型知识中二次处理增强变成图状数据,还是仅用图状结构生成总结?在没有足够参考的情况下,每个决定都需要反复斟酌。最终,悦数团队取舍简化后呈现的初步验证成果反响不错,而当时定下来的实现方式至今仍然是Graph RAG的默认常用方法。
随着Graph RAG概念的逐步落地,悦数开始提供抽象工具给用户。然而,技术门槛让许多客户难以自行搭建pipeline。为了让用户即便对图库无感知也能获得良好的使用效果,团队开始迭代出一定程度开箱即用的方案,以消除用户使用产品的心智负担。如今,悦数RAG已经可以无缝衔接deepseek,团队也在基于蒸馏技术、图上推理等功能进行RAG迭代,致力于做更多令人兴奋、更有回报的事情。
悦数不仅在RAG领域走在前沿,在图数据库领域同样取得了显著成果。2024年4月,国际标准化组织(ISO)发布了国际标准图查询语言GQL,这是ISO在四十多年里制定的第二个数据库查询语言国际标准。悦数一直跟踪投入研发,并在GQL标准发布后的同年11月推出了悦数图数据库v5.0,这是全球第一款原生支持GQL的分布式图数据库产品。
悦数图数据库的增长势头强劲,在2023年实现了比2022年两倍多的增长,2024年又比2023年增长近三倍,已接近收支平衡。悦数正走在成为信创品牌的路上,其图数据库的每一行代码都是团队亲手写下,拥有IP和代码的自主权,为信创提供了良好的土壤。尽管图数据库目前还不在信创名录之列,但悦数正在积极适配各种信创操作系统或硬件,以万事俱备的姿态等待信创东风的到来。
作为图数据库领域的资深从业者,叶小萌亲历了图数据库市场成长的浪潮。他形容数据库市场的竞争有如长跑,如今进程已过半,虽然不排除有人最后冲刺反超,但已经能够分出第一梯队和第二梯队。悦数凭借强大的技术实力和独特的产品优势,在激烈的市场竞争中脱颖而出,成为了图数据库领域的佼佼者。
叶小萌领略过硅谷科技大公司的工程师文化,深受感染,他希望能够打造技术上最强的公司。悦数的氛围十分接近他心之所向的工程师文化,大家专注做技术、以技术为导向,员工自驱力很强。在悦数,技术狂人们正携手并进,共同开创图数据库和RAG技术的新篇章。