text-to-video-synthesis|通义-文本生成视频

文本生成视频大模型-英文-通用领域:本模型基于多阶段文本到视频生成扩散模型,输入描述文本,返回符合文本描述的视频。仅支持英文输入。模型参数约17亿,采用Unet3D结构。

文本生成视频大模型-英文-通用领域

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

硬件要求

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下。

也就是说,你的英伟达显卡GPU显存至少要在16GB或以上才能够运行此模型!如果您的硬件不达标,那么可以跳过本文啦。

查看结果

上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。系统默认播放器可能无法正常播放本模型生成的视频。

模型局限性以及可能的偏差

  • 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
  • 该模型无法实现完美的影视级生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是用英文语料训练的,暂不支持其他语言。
  • 该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

  • 本模型是为非商业目的提供,仅供研究使用。
  • 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
  • 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
  • 禁止用于涉黄、暴力和血腥内容生成。
  • 禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5BImageNetWebvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

部署教程

如果您是初学者,对于命令行不太理解,那么请按下键盘上的Win键+R键后,在弹出的新窗口内输入CMD并按下回车,打开CMD窗口,按顺序执行如下的每一条命令。

首先我们需要确认一个工作目录,用来存放text-to-video-synthesis的相关环境依赖文件。本站所选择的目录为D盘的根目录下openai.wiki文件夹,完整路径为:D:\openai.wiki\text-to-video-synthesis

检测D盘是否在openai.wiki目录下是否存在text-to-video-synthesis文件夹,没有则创建该文件夹。

if not exist D:\openai.wiki\text-to-video-synthesis mkdir D:\openai.wiki\text-to-video-synthesis

强制切换工作路径为D盘openai.wiki\text-to-video-synthesis文件夹。

cd /d D:\openai.wiki\text-to-video-synthesis

为不影响电脑中的现有环境,请一定要安装Conda,如果您不知道什么是Conda,或者未安装过Conda,请参考如下文章,安装部署Conda之后再继续以下步骤。

在CMD中执行下面的命令行,创建Conda虚拟环境至该项目的目录中,方便日后重装系统也能够正常使用,无需重新部署环境。

conda create -p D:\openai.wiki\text-to-video-synthesis\ENV python=3.7

执行完成上面的命令之后,将会在CMD窗口中看到Proceed ([y]/n)?提示,我们直接按下回车即可。

初始化Conda环境,避免后续可能报错。

conda init cmd.exe

激活已创建的Conda环境,这样我们可以将我们后续所需要的所有环境依赖都安装至此环境下。

conda activate D:\openai.wiki\text-to-video-synthesis\ENV

运行环境

执行如下命令,安装阿里达摩院相关依赖。

pip install modelscope==1.4.2 open_clip_torch pytorch-lightning

关于tensorflow的安装,支持CPU和GPU双版本,以下两行代码选择其中一个执行安装即可。

如果你想用CPU来计算,请复制第一行内容执行。如果你想用GPU来计算,请复制第二行内容执行。

pip install --upgrade tensorflow
pip install --upgrade tensorflow-gpu

执行如下代码,安装CV依赖库。

pip install opencv-python

模型下载

在你首次运行生成代码时,将会自动下载模型,因为下载方式是国内直连,所以下载速度还是挺快的,毕竟是阿里提供的服务。

如果你想找到模型的存在位置,可以在运行中执行以下代码,这将会自动打开ModelScope的各项目缓存目录,模型就在这些目录内。

%USERPROFILE%\.cache\modelscope\hub\damo

如果你不希望自动下载,而是通过国内网盘的方式,本站也提供了模型的网盘下载地址。

text-to-video-synthesis

提取密码 文件说明 文件大小 12.8GB 文件格式 RAR 资源价格 免费 下载次数 2

下载该压缩文件之后,将其解压至%USERPROFILE%\.cache\modelscope\hub\damo目录下即可。

代码范例

该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为’text’,内容为一小段文本。输入具体代码示例如下:

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/text-to-video-synthesis.html

(1)
上一篇 2023-05-13 20:26
下一篇 2023-05-19 17:14

相关推荐

  • AI推文自动剪辑|剪映

    本文提供零门槛AI短视频生成教程,详解如何利用DeepSeek生成历史故事文案,结合剪映AI一键成片功能快速制作高质量短视频,支持抖音、快手等平台发布。涵盖文案生成、素材匹配、音效配置及批量导出发布全流程,适合矩阵账号运营与AI变现。

    2025-02-27
    00326
  • AnimateDiff|文本生成视频

    AnimateDiff是一个用于实现个性化文本到图像扩散模型的动画化,动画化你的个性化文本到图像扩散模型。 可以通过文字生成视频,效果比Stable Diffusion中的图生图更好,闪烁趋近于无。

    2023-07-14
    024.1K
  • VideoCrafter|视频生成工具

    VideoCrafter是一个开源视频生成和编辑工具箱,用于制作视频内容。支持从文本Prompt提示词生成视频,支持LoRA模型,另外对已有视频进行风格转换也是支持的,类似于SD绘画的图生图功能。

    2023-07-25
    012.2K
  • AI视频生成|发光裙子

    本文详解抖音热门的“AI发光裙舞视频”变现技术,覆盖LiblibAI、即梦AI、可灵AI三大工具的操作指南。从图片生成(SD本地/在线)、动态特效优化,到视频合成的全流程实战,揭秘单条视频涨粉几十万的秘密,并对比免费与付费工具的效率差异,助你快速入局AI内容变现。

    2025-02-27
    00157

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信