阿里达摩院低调上线文本生成视频大模型，可以试玩！AI开始卷视频了！

发布时间：2024-06-14 06:12:26

欧意交易app是全球排名第一的虚拟货币交易所。

来源:

作者:佟伟

这一波AIGC(利用人工智能技术生成内容)已经开启了视频。

上月初，白话君称阿里达摩院正在研发一款类似ChatGPT的对话机器人，随后开放给公司员工测试。

没想到一个多月后，第一个出场的是文字生成的视频。

3月30日，阿里达摩院低调地在ModelScope发布了一个“文本生成视频模型”。魔骑是达摩院去年11月推出的开源模型平台。

据官方介绍，目前的模型由三个子网络组成:文本特征提取、文本特征到视频隐藏空、视频隐藏空、视频可视化空。整体模型参数在17亿左右。支持英文输入。扩散模型采用Unet3D结构，实现了从纯高斯噪声视频通过迭代去噪过程生成视频的功能。

不明白？没关系。就知道怎么玩。

白话君刚试过。输入提示:一只熊猫在岩石上吃竹子，等了差不多77秒，收到一个2秒的视频。感受一下~

如果翻译成中文:一只大熊猫坐在石头上吃竹子，结果是一只类似猫的小动物。果然还不支持中文。

再来几张~

一扇金色的门在湖边的公园里演奏。(一只金狗正在湖边的公园里玩耍)

一只穿着红色披风的超级英雄装的狗飞过天空。

猴子学弹钢琴。

从试玩结果来看，目前能生成的视频长度多为2-4秒，生成等待时间从20多秒到1分多钟不等。

有兴趣的不妨亲自体验一下(演示地址:https://model scope . cn/studios/damo/text-to-video-synthesis/summary)。

达摩院的这一发布也在国内外社交平台上吸引了一波尝鲜。因为玩的人太多，微博里有网友说刷了20遍连挤都没挤进去。

此外，昨天上午，总部位于纽约的人工智能初创公司Runway也发布了一款从文本转换为视频的AI模型Gen-2。

上个月，这家参与创建稳定扩散的公司推出了型号Gen-1，它可以通过文本提示或参考图像指定的样式将一个现有视频转换为新视频。

比如把“街上的人”变成“泥人”，只需要一行提示。

从命名可以看出，Gen-2是Gen-1的升级版，可以从零开始制作视频。目前只能看到Runway分享的一些演示片段。据该公司称，未来几周将提供广泛的接入试验。

早在去年，谷歌和Meta都展示了他们将文本转化为视频的尝试，利用AI生成泰迪熊洗碗和在湖上划船的视频。然而，两家公司都没有宣布将相关技术推至研究阶段以外的计划。

Text生成视频，最理想的效果是用户给出提示，系统自动生成任意风格的对应视频。

但从等待时间、画面的真实性、清晰度、长度等方面来看，要制作出一个满意的视频还有很长的路要走。

事实上，视频编辑是一个比图像编辑更具挑战性的领域。扎克伯格之前在推特上表示，AI模型可以从生成静态像素发展到预测每个像素随时间的变化，这是技术上的突破。

当然，可能用不了多久，AI就会解决这些现有的缺陷。以后即使是对视频制作一窍不通的人也能制作视频，而且可能会批量生产。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信，我们会及时处理和回复。

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：goldenhorseconnect@gmail.com