谷歌DeepMind大幅更新生成式AI:推出VEO 2视频模型与增强版Imagen3图像模型

最近AI圈又出了大动静,谷歌DeepMind直接放了个大招,一口气更了两款生成式AI核心模型,一个是新一代视频模型VEO 2,另一个是升级后的增强版Imagen 3图像模型。不少关注AI发展的朋友看完更新内容都直呼,这次谷歌是真下狠手了,生成质量直接拉高了好几个档次。

先说说大家讨论最多的VEO 2视频模型吧。其实早在这之前,谷歌已经出过不少视频生成模型了,但之前的版本一直有几个绕不开的问题,比如生成的视频时长不够长,细节糊,动作不连贯,甚至还经常出现物体变形的情况。这次VEO 2更新,直接把这些痛点挨个解决了大半。

我看了官方放出来的演示样片,差别真的挺明显。之前很多AI生成1080P视频,超过10秒就能看出画面断层,物体边缘还容易飘。现在VEO 2能生成分辨率达到1080P、时长超过一分钟的连贯视频了。而且哪怕是运动场景,比如小猫追着毛线球跑,或者骑手在山路上骑摩托车,动作也能保持流畅,不会突然卡一下或者莫名其妙变方向。

细节方面的提升更直观。比如你让它生成一片雨天的城市街道,远处橱窗里摆的商品轮廓都能看得清,雨滴落在积水里的涟漪也自然,不会像之前那样整个雨幕就是一片模糊的色块。人物的表情变化也做了优化,之前AI生成的人物笑起来都很僵硬,现在说话的时候嘴角和眼部肌肉的变动都能跟上节奏,看起来自然多了。

当然,VEO 2还有个很实用的升级,就是对文本指令的理解更准了。你说要生成一个"背着蓝色帆布包的女生,秋天在满是银杏叶的公园里边走边翻书,风一吹叶子落在肩膀上",它不会把帆布包变成黑色,也不会把银杏变成梧桐,整个场景的元素基本都能对应上,不会出现那种指令和生成内容对不上的尴尬情况。

聊完视频模型,再说说增强版的Imagen 3图像模型。其实原版Imagen 3出来的时候,已经凭借比之前更清晰的画质、更准的文字生成能力圈了一波粉,这次升级主要是补全了之前版本的不足,把整体生成能力往上拉了一大截。

最明显的提升是在复杂场景构图和极高清生成这块。原来的Imagen 3生成4K分辨率的图,偶尔会出现局部细节糊掉,或者不同物体衔接不自然的问题,比如桌子和墙面的接缝歪歪扭扭,花盆的边缘变形。现在增强版能稳定生成最大10240像素的高清图像,就算你要把生成的图放大做户外海报,打印出来也不会发虚。

还有大家之前吐槽最多的文字生成问题,这次也优化到位了。之前很多AI图像模型都做不好生成文字,比如你让它生成一个印着"咖啡店"三个字的招牌,不是字写错就是变形,根本没法直接用。增强版Imagen 3现在生成英文已经基本不出错,中文文字的正确率也提升了很多,简单短句甚至长一点的短语都能准确生成,给需要做设计草稿的用户省了好多改图的功夫。

另外它对风格的把控也更准了。你要90年代复古港风胶片感,它就不会给你生成现代数码的锐化感,要水彩手绘风,边缘过渡也自然,不会混进去奇怪的材质质感。甚至一些比较小众的艺术风格,它也能抓住核心特点,不会画出来四不像。

说到这里肯定有人会问,这次更新对普通用户来说到底有什么用?会不会又是只放技术演示,普通用户用不上?其实谷歌这次更新之后,已经把这两个模型逐步开放给旗下的AI产品了,比如Gemini的高级用户已经能抢先体验用VEO 2生成视频,Imagen 3也已经接入了相关的创作工具。

对普通内容创作者来说,这波更新真的是降维打击。之前做短视频,找素材拍素材要花大半天,现在只要输入文字描述,就能得到一分钟的高清素材,哪怕不能直接当成品用,剪片子的时候当补帧素材或者转场素材也足够好用。做平面设计、社交媒体配图的朋友,现在出草稿的速度至少能翻好几倍,不用再一点点调整细节了。

当然,也有不少人担心AI生成内容的版权和安全问题,谷歌这次也提到了,他们给这两个模型加了更严格的内容审核机制,会拦截生成违法违规、侵犯他人权益的内容,还会给AI生成的内容加上隐性水印,方便溯源,尽量避免滥用的情况。

其实回头看这两年生成式AI的发展速度,真的有点让人惊讶。一年多之前大家还在讨论AI能不能生成10秒清晰视频,现在已经能稳定出一分钟1080P了,图像更是直接摸到了10K分辨率的边。这次DeepMind的更新,不光是两个模型的升级,其实也能看出来整个行业的方向,就是把生成式AI从"能能用"往"好用"推,解决实际创作里的痛点问题。

接下来就看这两个模型正式全量开放之后,普通用户实际用起来的体验到底怎么样了。毕竟演示样片再好看,能真的帮大家省时间、解决问题才是真的好。说不定再过半年,我们普通人随手输入文字就能得到媲美专业拍摄的视频,也不是什么不可能的事了。

谷歌DeepMind, VEO 2, VEO 2视频模型, 增强版Imagen3, Imagen3图像模型, 生成式AI更新, 谷歌AI模型, AI视频生成, AI图像生成, DeepMind更新

[Q]:谷歌DeepMind这次更新了哪两款生成式AI模型?
[A]:这次谷歌DeepMind更新了两款生成式AI,分别是新一代视频模型VEO 2和增强版Imagen 3图像模型。
[Q]:VEO 2视频模型相比之前版本有什么核心提升?
[A]:VEO 2可以生成1080P分辨率、时长超一分钟的连贯视频,动作流畅度、画面细节、文本指令理解能力都有明显提升,解决了旧版视频容易断层、变形的痛点。
[Q]:VEO 2生成视频的时长和分辨率能达到什么标准?
[A]:目前VEO 2可以稳定输出分辨率为1080P、时长超过一分钟的连贯视频。
[Q]:增强版Imagen 3相比原版有哪些升级?
[A]:增强版Imagen 3可以稳定生成最高10240像素的超高清图像,复杂场景细节更自然,文字生成的准确率大幅提升,对不同创作风格的把控也更精准。
[Q]:增强版Imagen 3解决了之前AI图像生成的什么痛点?
[A]:它解决了之前AI图像模型经常出错的文字生成问题,现在简单中文、英文文字都可以准确生成,不用用户后期反复修改。
[Q]:普通用户现在能用上这两个新模型吗?
[A]:目前谷歌已经逐步开放模型权限,Gemini高级用户已经可以抢先体验VEO 2,增强版Imagen 3也已经接入相关创作工具,后续会逐步全量开放。
[Q]:这两款新模型对内容创作者有什么帮助?
[A]:它可以帮创作者快速生成高清视频素材、设计草稿,大幅降低找素材、改细节的时间成本,提升创作效率。
[Q]:谷歌对新模型的内容安全做了哪些措施?
[A]:谷歌给新模型加了更严格的内容审核机制,拦截违规内容,同时会给AI生成内容添加隐性水印,方便溯源,避免内容滥用。
share