近期,国内AI大模型应用领域迎来了一场“多元化”的变革。
据业内消息,字节跳动旗下的豆包应用近期上线了一项名为“图片理解”的新功能。无论是通过豆包APP还是PC端,用户只需上传图片,即可让应用识别并理解图片中的内容。这一功能突破了传统OCR识别技术的局限,不再局限于文字识别,而是能够全面解析图片信息。
举例来说,用户询问某个景点的位置或动漫人物的身份,豆包都能够迅速给出准确的回答。这一功能的强大之处在于其对于图片内容的深度理解,而不仅仅是简单的文字识别。
不仅如此,豆包还能够解析复杂的图像内容,如四格漫画。以一幅描绘物理学家发现牛顿发明重力的幽默漫画为例,豆包能够准确解读出漫画中的文字与图像信息,进而解析出漫画所表达的笑话含义。漫画中,物理学家在战场上看到士兵倒地,不是考虑士兵的死活,而是思考其背后的科学原理,最终得出牛顿发明了重力的结论,讽刺了物理学家有时不切实际的思考方式。
豆包的这一功能并非孤例。此前,马斯克的人工智能公司xAI也曾为其产品Grok增加了图像理解功能,并展示了Grok理解并解释笑话的能力。这些案例表明,AI大模型在图像理解领域取得了显著的进展。
随着AI技术的飞速发展,越来越多的企业开始将AI大模型应用于更实用的场景中。图片理解功能正是其中之一,它能够满足用户在搜索、查找评估、文本写作等多个场景中的需求,使AI大模型更加贴近实际应用。
数据显示,2024年10月,AI原生应用行业的月活跃用户规模已达到8976万,同比增长373%。这些应用广泛应用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等多个领域。其中,字节跳动的豆包App凭借其强大的功能和丰富的应用场景,已成为中国日活用户最高的AI大模型产品之一。
在网页端和移动端,AI原生应用同样表现出强劲的增长势头。Kimi智能助手、文心一言、豆包、通义千问等应用均拥有庞大的用户群体。其中,豆包在移动端的月活跃用户数量更是高达4839万,遥遥领先于其他竞争对手。
AI技术的快速发展不仅推动了相关应用的普及,也为全球科技创新带来了新的契机。据预测,到2030年,全球AI领域的市场规模将超过1.8万亿美元。这一巨大的市场潜力将吸引更多的企业和投资者进入AI领域,推动AI技术的不断创新和应用。