谷歌DeepMind大幅更新生成式AI：推出VEO 2视频模型与增强版Imagen3图像模型

扩大人2026-06-26 07:37:05

最近AI圈又出了大动静，谷歌DeepMind直接放了个大招，一口气更了两款生成式AI核心模型，一个是新一代视频模型VEO 2，另一个是升级后的增强版Imagen 3图像模型。不少关注AI发展的朋友看完更新内容都直呼，这次谷歌是真下狠手了，生成质量直接拉高了好几个档次。

先说说大家讨论最多的VEO 2视频模型吧。其实早在这之前，谷歌已经出过不少视频生成模型了，但之前的版本一直有几个绕不开的问题，比如生成的视频时长不够长，细节糊，动作不连贯，甚至还经常出现物体变形的情况。这次VEO 2更新，直接把这些痛点挨个解决了大半。

我看了官方放出来的演示样片，差别真的挺明显。之前很多AI生成1080P视频，超过10秒就能看出画面断层，物体边缘还容易飘。现在VEO 2能生成分辨率达到1080P、时长超过一分钟的连贯视频了。而且哪怕是运动场景，比如小猫追着毛线球跑，或者骑手在山路上骑摩托车，动作也能保持流畅，不会突然卡一下或者莫名其妙变方向。

细节方面的提升更直观。比如你让它生成一片雨天的城市街道，远处橱窗里摆的商品轮廓都能看得清，雨滴落在积水里的涟漪也自然，不会像之前那样整个雨幕就是一片模糊的色块。人物的表情变化也做了优化，之前AI生成的人物笑起来都很僵硬，现在说话的时候嘴角和眼部肌肉的变动都能跟上节奏，看起来自然多了。

当然，VEO 2还有个很实用的升级，就是对文本指令的理解更准了。你说要生成一个"背着蓝色帆布包的女生，秋天在满是银杏叶的公园里边走边翻书，风一吹叶子落在肩膀上"，它不会把帆布包变成黑色，也不会把银杏变成梧桐，整个场景的元素基本都能对应上，不会出现那种指令和生成内容对不上的尴尬情况。

聊完视频模型，再说说增强版的Imagen 3图像模型。其实原版Imagen 3出来的时候，已经凭借比之前更清晰的画质、更准的文字生成能力圈了一波粉，这次升级主要是补全了之前版本的不足，把整体生成能力往上拉了一大截。

最明显的提升是在复杂场景构图和极高清生成这块。原来的Imagen 3生成4K分辨率的图，偶尔会出现局部细节糊掉，或者不同物体衔接不自然的问题，比如桌子和墙面的接缝歪歪扭扭，花盆的边缘变形。现在增强版能稳定生成最大10240像素的高清图像，就算你要把生成的图放大做户外海报，打印出来也不会发虚。

还有大家之前吐槽最多的文字生成问题，这次也优化到位了。之前很多AI图像模型都做不好生成文字，比如你让它生成一个印着"咖啡店"三个字的招牌，不是字写错就是变形，根本没法直接用。增强版Imagen 3现在生成英文已经基本不出错，中文文字的正确率也提升了很多，简单短句甚至长一点的短语都能准确生成，给需要做设计草稿的用户省了好多改图的功夫。

另外它对风格的把控也更准了。你要90年代复古港风胶片感，它就不会给你生成现代数码的锐化感，要水彩手绘风，边缘过渡也自然，不会混进去奇怪的材质质感。甚至一些比较小众的艺术风格，它也能抓住核心特点，不会画出来四不像。

说到这里肯定有人会问，这次更新对普通用户来说到底有什么用？会不会又是只放技术演示，普通用户用不上？其实谷歌这次更新之后，已经把这两个模型逐步开放给旗下的AI产品了，比如Gemini的高级用户已经能抢先体验用VEO 2生成视频，Imagen 3也已经接入了相关的创作工具。

对普通内容创作者来说，这波更新真的是降维打击。之前做短视频，找素材拍素材要花大半天，现在只要输入文字描述，就能得到一分钟的高清素材，哪怕不能直接当成品用，剪片子的时候当补帧素材或者转场素材也足够好用。做平面设计、社交媒体配图的朋友，现在出草稿的速度至少能翻好几倍，不用再一点点调整细节了。

当然，也有不少人担心AI生成内容的版权和安全问题，谷歌这次也提到了，他们给这两个模型加了更严格的内容审核机制，会拦截生成违法违规、侵犯他人权益的内容，还会给AI生成的内容加上隐性水印，方便溯源，尽量避免滥用的情况。

其实回头看这两年生成式AI的发展速度，真的有点让人惊讶。一年多之前大家还在讨论AI能不能生成10秒清晰视频，现在已经能稳定出一分钟1080P了，图像更是直接摸到了10K分辨率的边。这次DeepMind的更新，不光是两个模型的升级，其实也能看出来整个行业的方向，就是把生成式AI从"能能用"往"好用"推，解决实际创作里的痛点问题。

接下来就看这两个模型正式全量开放之后，普通用户实际用起来的体验到底怎么样了。毕竟演示样片再好看，能真的帮大家省时间、解决问题才是真的好。说不定再过半年，我们普通人随手输入文字就能得到媲美专业拍摄的视频，也不是什么不可能的事了。

谷歌DeepMind, VEO 2, VEO 2视频模型, 增强版Imagen3, Imagen3图像模型, 生成式AI更新, 谷歌AI模型, AI视频生成, AI图像生成, DeepMind更新

[Q]：谷歌DeepMind这次更新了哪两款生成式AI模型？
[A]：这次谷歌DeepMind更新了两款生成式AI，分别是新一代视频模型VEO 2和增强版Imagen 3图像模型。
[Q]：VEO 2视频模型相比之前版本有什么核心提升？
[A]：VEO 2可以生成1080P分辨率、时长超一分钟的连贯视频，动作流畅度、画面细节、文本指令理解能力都有明显提升，解决了旧版视频容易断层、变形的痛点。
[Q]：VEO 2生成视频的时长和分辨率能达到什么标准？
[A]：目前VEO 2可以稳定输出分辨率为1080P、时长超过一分钟的连贯视频。
[Q]：增强版Imagen 3相比原版有哪些升级？
[A]：增强版Imagen 3可以稳定生成最高10240像素的超高清图像，复杂场景细节更自然，文字生成的准确率大幅提升，对不同创作风格的把控也更精准。
[Q]：增强版Imagen 3解决了之前AI图像生成的什么痛点？
[A]：它解决了之前AI图像模型经常出错的文字生成问题，现在简单中文、英文文字都可以准确生成，不用用户后期反复修改。
[Q]：普通用户现在能用上这两个新模型吗？
[A]：目前谷歌已经逐步开放模型权限，Gemini高级用户已经可以抢先体验VEO 2，增强版Imagen 3也已经接入相关创作工具，后续会逐步全量开放。
[Q]：这两款新模型对内容创作者有什么帮助？
[A]：它可以帮创作者快速生成高清视频素材、设计草稿，大幅降低找素材、改细节的时间成本，提升创作效率。
[Q]：谷歌对新模型的内容安全做了哪些措施？
[A]：谷歌给新模型加了更严格的内容审核机制，拦截违规内容，同时会给AI生成内容添加隐性水印，方便溯源，避免内容滥用。