在大众的传统印象中,“程序猿”常被描绘成穿着格子衫、形象不修边幅、表情呆滞的群体。然而,这些刻板印象早已过时。现实中的程序员,尤其是淘天集团的算法工程师们,不仅敬业、聪明,而且充满激情与创造力。为了打破传统观念,展现真实程序员的风采,淘天集团特别推出了《我在淘天做算法》专栏,让我们一同走进算法工程师们的世界。
提到淘天集团,不得不提的就是其明星产品——拍立淘。这款基于计算机视觉技术的产品已经走过了十年的发展历程,见证了视觉算法技术的不断演进。拍立淘通过摄像头、数据和算法,在短时间内实现图像搜索,极大地提升了用户的购物体验。脱口秀演员付航在短视频中提到的“拍甚”,正是对拍立淘这一功能的生动诠释。
十年前,拍立淘在淘宝App首页正式上线,开启了视觉搜索在电商领域的新篇章。当时,人们只需拍摄或上传商品图片,拍立淘就能迅速在海量商品库中找到同款商品信息。这一创新不仅满足了消费者对特定外观或风格商品的需求,还推动了电商行业的技术进步。十年后的今天,拍立淘日均访客量已突破5000万,并即将推出视频虚拟试衣功能,旨在让AI更好地理解生活消费场景。
拍立淘的成功离不开背后一群对技术充满热情的程序员——淘天集团拍立淘算法团队。作为团队负责人,柯思是一个身材瘦弱但工作上“霸得蛮”的湖南人。他深知每一项技术从实验阶段走向产业阶段的不易,而拍立淘正是他带领团队攻克技术难关、实现创新突破的典范。柯思在深度学习技术领域有着深厚的理论基础,早在读研读期间就专注于视觉算法的研究,为日后在阿里巴巴从事拍立淘技术打下了坚实的基础。
拍立淘的技术原点可以追溯到2012年深度学习技术的突破性进展。那一年,阿里巴巴率先在图像搜索领域探索深度学习的应用,比亚马逊早了整整五年。面对图像搜索技术逻辑的挑战,算法工程师们摸着石头过河,一边紧盯最前沿的研究成果,一边将最新知识与实际工作场景相结合。他们通过不断的迭代优化与技术升级,让拍立淘算法变得越来越“聪明”,越来越贴近用户的需求。
在拍立淘的发展历程中,算法工程师们攻克了一个又一个技术难关。他们构建了深度学习训练与推理引擎,掌握了大规模数据训练的技巧,实现了高性能在线服务部署布局,并搭建起了大规模向量索引引擎架构。这些技术创新不仅提升了拍立淘的搜索速度和准确性,还推动了向量计算领域的发展。2017年,拍立淘算法团队自主研发的向量索引库在速度和资源消耗上均超越了当时工业界的标杆——Facebook开源的FAISS。
随着多模态技术成为学术界和工业界的研究前沿热点,拍立淘算法团队也紧跟时代步伐,探索算法创新。萧峰是团队中的佼佼者,他热衷于视觉算法技术和人工智能的探索与实践。在萧峰的带领下,团队对拍立淘图搜AI技术进行了全链路重构,并率先将核心召回和相关性向量表征等模块由单模态升级到多模态。这一创新不仅提升了搜索准确性,还推动了电商图像搜索领域的技术进步。
如今,拍立淘算法团队正迎来新的挑战与机遇。随着视频生成技术的初步成熟可用,团队开始尝试将AIGC技术应用于拍立淘中。林夕是团队中为数不多的女性成员,她善于敏锐发现拍立淘在服饰方面的微妙变化。在多次调研中,林夕发现用户对服饰搭配和试穿效果的需求依然强烈。于是,团队利用多模态理解能力和AIGC生成能力,设计了一套能真正支撑商业应用的试衣算法解决方案。该方案不仅可以支持单件和搭配上身,还能保持服饰真实美观,精准控制穿法和上身状态。
除了图像试衣外,拍立淘算法团队还将能力拓展到了视频上。他们提出了业内第一个基于diffusion框架的视频试衣方案,将视频试衣的效果提升到了一个全新的水平。这一创新不仅满足了用户对服饰搭配和试穿效果的需求,还为电商行业带来了新的商业机遇。
从最初的图像视觉搜索到如今将视频作为信息传播的载体,拍立淘算法团队用十年时间跑出了一部属于自己的演变史。他们坚持自研技术,与时间赛跑推陈出新,不断满足用户的需求,推动电商行业的技术进步。正如柯思所说:“拍立淘虽然实现了从0到1的突破,但如果原地踏步就会被落下。要时刻保持技术创新,才是真的‘拍甚’!”