文本生成视频大模型-英文-通用领域
本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。
文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
硬件要求
该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下。
也就是说,你的英伟达显卡GPU显存至少要在16GB或以上
才能够运行此模型!如果您的硬件不达标,那么可以跳过本文啦。
查看结果
上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。系统默认播放器可能无法正常播放本模型生成的视频。
模型局限性以及可能的偏差
- 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
- 该模型无法实现完美的影视级生成。
- 该模型无法生成清晰的文本。
- 该模型主要是用英文语料训练的,暂不支持其他语言。
- 该模型在复杂的组合性生成任务上表现有待提升。
滥用、恶意使用和超出范围的使用
- 本模型是为非商业目的提供,仅供研究使用。
- 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
- 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
- 禁止用于涉黄、暴力和血腥内容生成。
- 禁止用于错误和虚假信息生成。
训练数据介绍
训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。
部署教程
如果您是初学者,对于命令行不太理解,那么请按下键盘上的Win键+R键
后,在弹出的新窗口内输入CMD并按下回车,打开CMD窗口,按顺序执行如下的每一条命令。
首先我们需要确认一个工作目录,用来存放text-to-video-synthesis
的相关环境依赖文件。本站所选择的目录为D盘的根目录下openai.wiki
文件夹,完整路径为:D:\openai.wiki\text-to-video-synthesis
。
检测D盘
是否在openai.wiki
目录下是否存在text-to-video-synthesis
文件夹,没有则创建该文件夹。
if not exist D:\openai.wiki\text-to-video-synthesis mkdir D:\openai.wiki\text-to-video-synthesis
强制切换工作路径为D盘
的openai.wiki\text-to-video-synthesis
文件夹。
cd /d D:\openai.wiki\text-to-video-synthesis
为不影响电脑中的现有环境,请一定要安装Conda,如果您不知道什么是Conda,或者未安装过Conda,请参考如下文章,安装部署Conda之后再继续以下步骤。
在CMD中执行下面的命令行,创建Conda虚拟环境至该项目的目录中,方便日后重装系统也能够正常使用,无需重新部署环境。
conda create -p D:\openai.wiki\text-to-video-synthesis\ENV python=3.7
执行完成上面的命令之后,将会在CMD窗口中看到Proceed ([y]/n)?
提示,我们直接按下回车即可。
初始化Conda环境,避免后续可能报错。
conda init cmd.exe
激活已创建的Conda环境,这样我们可以将我们后续所需要的所有环境依赖都安装至此环境下。
conda activate D:\openai.wiki\text-to-video-synthesis\ENV
运行环境
执行如下命令,安装阿里达摩院相关依赖。
pip install modelscope==1.4.2 open_clip_torch pytorch-lightning
关于tensorflow
的安装,支持CPU和GPU双版本,以下两行代码选择其中一个执行安装即可。
如果你想用CPU来计算,请复制第一行内容执行。如果你想用GPU来计算,请复制第二行内容执行。
pip install --upgrade tensorflow
pip install --upgrade tensorflow-gpu
执行如下代码,安装CV依赖库。
pip install opencv-python
模型下载
在你首次运行生成代码时,将会自动下载模型,因为下载方式是国内直连,所以下载速度还是挺快的,毕竟是阿里提供的服务。
如果你想找到模型的存在位置,可以在运行中执行以下代码,这将会自动打开ModelScope的各项目缓存目录,模型就在这些目录内。
%USERPROFILE%\.cache\modelscope\hub\damo
如果你不希望自动下载,而是通过国内网盘的方式,本站也提供了模型的网盘下载地址。
下载该压缩文件之后,将其解压至%USERPROFILE%\.cache\modelscope\hub\damo
目录下即可。
代码范例
该模型暂仅支持在GPU上进行推理。模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为’text’,内容为一小段文本。输入具体代码示例如下:
from modelscope.pipelines import pipeline from modelscope.outputs import OutputKeys p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis') test_text = { 'text': 'A panda eating bamboo on a rock.', } output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO] print('output_video_path:', output_video_path)
评论 (0)