更新时间:2025年09月17日
文章来源:广西K8凯发(kaifa)官网师范
k8凯发 20周年谷|天天有喜50集预告片|歌香蕉模型一夜登顶!干翻GPT-4o
智东西8月27日报道ღ✿◈,今天ღ✿◈,谷歌推出了Gemini 2.5 Flash Imageღ✿◈,这款模型是谷歌最先进的图像生成和编辑模型天天有喜50集预告片ღ✿◈。
这一模型的核心亮点是其图像编辑能力ღ✿◈。谷歌称ღ✿◈,这一模型可将多个图像混合到单个图像中ღ✿◈,保持高度角色一致性ღ✿◈,还能使用自然语言进行有针对性的修改ღ✿◈,并充分利用Gemini的世界知识ღ✿◈。
诺贝尔奖得主ღ✿◈、谷歌DeepMind CEO Demis Hassabis用自己的照片为新模型做宣传ღ✿◈,展示Gemini 2.5 Flash Image的角色一致性ღ✿◈。他将自己的一张照片背景做了修改ღ✿◈,切换为古典风格k8凯发 20周年ღ✿◈,但是人物的容貌没有出现改变ღ✿◈。
上述能力也解锁了不少有趣的用例ღ✿◈,比如ღ✿◈,按照特定视觉模板打造“球星卡”一般的设计ღ✿◈,让普通人也能一键体验顶级运动员才有的待遇ღ✿◈。
这一模型与谷歌Veo 3等视频生成模型是绝配ღ✿◈,结合使用后可以打造出丰富的视频效果ღ✿◈。海外AI创意平台Kera AI已经用类似的模式ღ✿◈,打造了一部广告大片ღ✿◈。
这款模型在上周其实已经以“nano-banana”的代号出现在大模型竞技场中ღ✿◈,并获得了用户200多万票的认可ღ✿◈。如今正式揭晓后ღ✿◈,Gemini 2.5 Flash Image在文生图与图像编辑两个场景均拿下了全球第一k8凯发 20周年ღ✿◈,在图像编辑榜单上更是获得1362的高分ღ✿◈,较第二名的领先幅度接近15%ღ✿◈。
在谷歌公布的基准测试中ღ✿◈,Gemini 2.5 Flash Image在用户综合喜好度ღ✿◈、人物ღ✿◈、创造力ღ✿◈、信息图ღ✿◈、物体和环境的生成上均领先GPT-4o图像生成ღ✿◈、Flux.1 Kontext(max)ღ✿◈、Qwen Image Edit等模型ღ✿◈,但在风格化能力上与GPT-4o图像生成仍有差距ღ✿◈。
这一模型的价格为30美元/100万个输出token天天有喜50集预告片k8凯发 20周年ღ✿◈,每张图像为1290个输出tokenღ✿◈,每张图像价格约为0.039美元(折合人民币0.28元)ღ✿◈。所有其他输入和输出模态均遵循Gemini 2.5 Flash定价ღ✿◈。
当准备好发布应用时ღ✿◈,开发者可以直接从谷歌AI Studio进行部署ღ✿◈,或将代码保存到GitHubღ✿◈。谷歌也在博客中集中展示了几个案例ღ✿◈:
在多轮对话和编辑中保持角色和对象外观的一致ღ✿◈,是图像生成与编辑的重大挑战ღ✿◈。谷歌的Gemini 2.5 Flash Image允许用户将同一个角色放置在不同的环境中k8凯发 20周年ღ✿◈,在新环境中从多个角度展示单个产品ღ✿◈,或生成一致的品牌资产ღ✿◈,同时保留主题ღ✿◈。
在下方的示例应用中ღ✿◈,用户仅需上传一张自己的自拍ღ✿◈,就能生成从50年代到00年代的六张写真ღ✿◈,每张都有当时的年代风格ღ✿◈,用户的面貌并没有出现明显的偏离ღ✿◈。
智东西也上传了一张OpenAI联合创始人兼首席执行官Sam Altman的照片ღ✿◈,谷歌的新模型直接让Altman一键穿越回过去ღ✿◈,画面质感超真实ღ✿◈,连每个年代的服饰都准确还原了ღ✿◈。
这种一致性还可用于专业设计场景ღ✿◈。例如天天有喜50集预告片ღ✿◈,用户可以给模型提供一种特定的纹理ღ✿◈,并要求其进行替换k8凯发 20周年ღ✿◈。模型能在不改变形状和细节的前提下ღ✿◈,完成纹理的更换ღ✿◈。
Gemini 2.5 Flash Image支持使用自然语言进行有图像转换和编辑ღ✿◈。例如ღ✿◈,模型可以模糊图像的背景ღ✿◈、去除T恤上的污渍ღ✿◈、从照片中删除整个人物ღ✿◈、改变拍摄对象的姿势k8凯发 20周年ღ✿◈、为黑白照片添加颜色等ღ✿◈。
为了展示这些功能的实际应用ღ✿◈,谷歌在AI Studio中构建了一个照片编辑模板应用ღ✿◈。可以看到ღ✿◈,这一照片编辑应用支持对特定区域进行选中和修改天天有喜50集预告片ღ✿◈,或是进行大范围调整和滤镜处理ღ✿◈。
也可以通过预设的提示词ღ✿◈,对图像的光线ღ✿◈、背景等进行自定义ღ✿◈。下图中ღ✿◈,写真的光线便被调整得更加温暖ღ✿◈。
过去ღ✿◈,许多图像生成模型虽然能打造出精美的画面ღ✿◈,但对现实世界缺乏深刻的语义理解ღ✿◈。谷歌称ღ✿◈,Gemini 2.5 Flash Image拥有Gemini的世界知识ღ✿◈,为展示这点ღ✿◈,他们打造了一个模板应用ღ✿◈,将简单的画布变成了一个互动式教育导师ღ✿◈。
演示中ღ✿◈,Gemini 2.5 Flash Image能够理解手绘的各类画面ღ✿◈,并解答用户提出的各类问题ღ✿◈。
这种世界知识还让模型能够预测图像未来的变化ღ✿◈,具备一定图像推理能力ღ✿◈。比如k8凯发 20周年ღ✿◈,当看到气球飞翔仙人掌时ღ✿◈,模型能够根据用户“预测下一个可能场景”的指令ღ✿◈,生成气球破碎的画面ღ✿◈。
Gemini 2.5 Flash Image可以理解和合并多个输入图像ღ✿◈,这在电子商务等场景中有很强的实用价值ღ✿◈。例如ღ✿◈,商家可以在同一场景中用AI生成不同产品的宣传照ღ✿◈,或是给客户提供家具等产品摆放在真实场景中的样子ღ✿◈。
下方是谷歌提供的一个案例ღ✿◈,只需将左侧的台灯拖拽到右侧的场景中ღ✿◈,稍等一段时间ღ✿◈,就能看到摆放后的效果ღ✿◈。可以看到模型不仅将台灯元素加入画面ღ✿◈,还开启了灯光ღ✿◈。不过ღ✿◈,生成过程明显加速了ღ✿◈。
多图融合能力还可用于创意图像的生成ღ✿◈。例如ღ✿◈,融合鲸鱼与高山的两张照片ღ✿◈,打造出极具视觉冲击力的视觉效果ღ✿◈。
Gemini 2.5 Flash Image发布后ღ✿◈,海外网友已经第一时间玩起来了ღ✿◈。这位网友利用它客户打造了月饼广告宣传照天天有喜50集预告片ღ✿◈,他称ღ✿◈,同样的提示词ღ✿◈,在Midjourney里要花上10倍的调整和微调才能产生类似的结果ღ✿◈。
还有网友分享了自己利用Gemini 2.5 Flash Image结合Veo 3打造的视频ღ✿◈。在这一过程中ღ✿◈,Gemini 2.5 Flash Image生成了许多不同角度的镜头画面ღ✿◈,而Veo 3负责将它们变为视频ღ✿◈。最终的效果十分惊艳ღ✿◈。
从某种意义上来说ღ✿◈,准确的图像编辑能力是图像生成走进真实生产场景中最关键的能力之一ღ✿◈。在电商等场景中ღ✿◈,这一能力满足了企业用户对精确控制的需求ღ✿◈;而在娱乐场景里ღ✿◈,这一能力可以给用户提供丰富的体验和玩法k8凯发 20周年ღ✿◈。凯发一触即发ღ✿◈,kaifaღ✿◈。K8凯发娱乐旗舰ღ✿◈,k8凯发20周年ღ✿◈。K8凯发 引领业界ღ✿◈,学术合作ღ✿◈,
下一篇 : K8凯发旗舰Open|两个男孩子的车图|AI豪掷11亿美金收购Statsig新印



桂公网安备45030502000260号