近期,一份名为《2024中国开源开发者报告》的深度研究报告引发了广泛关注。该报告由OSCHINAGitee发布,详细剖析了中国开源开发者生态的现状与趋势,特别是围绕大模型技术的发展进行了深入探讨。
报告数据显示,截至2024年,Gitee平台的总用户数已达到1350万,相比去年新增了150万用户。同时,平台上的总仓库数也攀升至3600万,新增500万个仓库。开源组织的数量也达到了40万之多。在编程语言方面,Java、Javascript和Python依然占据主导地位,而Typescript则呈现出快速增长的态势。在开源许可证的使用上,MIT和Apache-2.0依然是最受欢迎的选择,而木兰宽松许可证第二版也逐渐获得了更多认可。
在大模型技术的发展方面,报告指出,中国的开源模型已经从过去的“追随者”角色崛起为“引领者”。多个中国企业的开源模型在全球评测中取得了优异成绩,如智谱、阿里巴巴和深度求索等公司的模型。随着开源生态的日益繁荣,相关政策也在积极推动合规创新。端上模型的兴起以及推理扩展法则的潜力释放,使得模型向多元化和应用细分方向发展。尽管开源模型在技术上可能并非最先进的,但通过开源策略,企业能够构建强大的开发者生态,从而在竞争中占据优势。
然而,大模型的发展也面临着诸多挑战,如“算力墙”、数据质量、版权问题、偏见以及被操控的风险等。为了应对这些挑战,业界正在积极探索新的解决方案。智能体被视为下一代“明星产品”,合成数据正在驱动新的产业链形成,而多模态融合则成为未来的发展趋势。为了克服RAG方法的不足,业界正在基于知识图谱的方案进行尝试,未来基于知识图谱与大语言模型的垂直领域推理应用和开源项目将不断涌现。
在AI编程领域,AI编程助手已经得到了广泛应用,显著提高了代码生成和评审等任务的效率。然而,AI编程助手仍存在一些瓶颈,如缺乏领域知识理解和原生IDE支持。为了推动AI编程的进一步发展,业界正在考虑自底向上重构工具链,以适应大模型的需求。同时,全系统异构协同推理以及释放其他硬件算力的技术也将为AI编程带来新的发展机遇。
报告还展示了中国开源大模型在技术创新和生态建设方面的显著成果。尽管面临诸多挑战,但随着技术的不断进步和政策的逐步完善,开源数据和算法将在推动AI技术持续发展方面发挥更加重要的作用。未来,中国开源开发者生态有望继续壮大,为全球开源社区贡献更多力量。