2025年8月,Google推出的文生图模型Nano Banana(Gemini 2.5 Flash Image)凭借其卓越的图像一致性、多轮编辑和多图融合能力,以1360分的绝对优势登顶全球文生图榜单,在AI社区掀起了轩然大波,迅速成为全球权威大模型测评平台LMArena的榜首,两周内引发超500万次用户投票,带动平台流量暴增10倍,引发了广泛关注与讨论。
Nano Banana:横空出世的黑马
几周前,一个名为Nano Banana的神秘模型悄然现身LMArena,这个没有任何公告和官方文档的模型,凭借惊人的图像质量和角色一致性,迅速超越一众老牌模型,稳居榜首。直到8月底,Google才正式认领,揭晓了Nano Banana的真实身份——Gemini 2.5 Flash Image。
作为Gemini 2.0 Flash的升级版,Nano Banana不仅能在多次编辑中保持角色和画面的高度一致,还支持自然语言驱动的精准编辑,让用户轻松实现精细的局部修改和多图合成。相比过去模型生成一张好图的目标,Nano Banana更像是一个随时待命的设计助手,能够不断迭代、调整、优化和创造。
技术突破:一致性、多图融合与自然语言编辑
Nano Banana的最大突破在于其一致性能力。传统模型在反复修改图片时,常出现换了衣服,人也变了脸的问题,而Nano Banana能在多轮编辑中牢牢锁住人物或物体的核心特征,保持主体不变。此外,它在多图融合方面也表现出色,能够自动处理风格和逻辑一致性,让画面浑然一体。
更令人瞩目的是,Nano Banana支持自然语言驱动的精准编辑。用户只需简单描述修改要求,如更换背景、移除人物等,模型即可精准执行,几乎将图片编辑的操作门槛降至零。同时,它还支持多轮对话式编辑和风格混配,让用户能够逐步细化创作,生成独具创意的图像风格。
图源:iMini AI nano-banana生成
高效低成本:构建多元化应用生态
Nano Banana的生成速度快、成本低,每图生成成本仅约0.039美元,用户还可以免费使用,这一优势迅速吸引了全球多个领域的头部产品通过API调用或生态集成接入该模型。
从创意生产到电商运营,从专业设计到智能办公,Nano Banana正构建起一个多元化的应用生态。
在创意生产领域,国内拍我AI成为首批接入的国产应用,其3D手办制造局模板可由单张照片生成3D动态视频,成本较传统建模大幅降低。大热门AI Agent产品iMini AI则通过封装API接口实现无代码调用,用户上传商品图即可生成不同风格的海报,并整合竞品分析、文案生成等功能,显著提升运营效率。
专业设计领域同样迎来了变革,Adobe、Figma等头部厂商率先接入Nano-Banana,Figma用户输入指令后,模型可自动识别主体轮廓生成合成图像,角色一致性超90%;Adobe将其嵌入Photoshop,支持多图层语义理解,大幅提升单任务处理效率。
办公场景中,Lovart将Nano-Banana嵌入智能PPT生成模块,输入主题后自动分解任务、生成图表,整合多种能力输出定制化文档。Genspark则利用其多图融合能力,通过上传产品图等三张图片自动合成带合理阴影光照的营销物料,降低了设计门槛,提升了办公效率。
图源:iMini AI nano-banana生成
Nano Banana的行业领先与未来展望
在图像质量和编辑能力上,Nano Banana碾压了OpenAI GPT-4o等竞争对手,开创了文生图的新时代。其背后的DeepMind团队表示,他们希望Nano Banana不仅仅是一个生成图片的模型,而是能够成为一个可靠的、能够陪伴用户进行思考和创作的智能体。
谷歌的多模态产品已经基本形成了一个完整的矩阵,包括文生图Imagen系列、文生视频Veo系列、交互世界Genie系列等。这些产品线不仅针对不同的用户画像和应用场景进行开发和迭代,还为未来可能的多模态超级流量入口打下了基础。
作为文生图领域的新里程碑,Nano Banana不仅展示了Google在多模态AI方面的强大实力,还为未来AI创作工具的发展指明了方向。在这场生成式AI的竞赛中,Google正以连环拳式的产品发布重新定义边界,向世界展示其不只是在追赶,更是在引领。