免费开源，可本地部署！ 2分钟高清视频一键生成

AI探索2年前 (2024)发布 8kmm.com

近日，Picsart AI Research团队发布了一项创新成果——StreamingT2V模型，该模型能够生成长达2分钟（1200帧）的高质量视频，这一成就超越了先前的Sora模型。StreamingT2V不仅在视频时长上取得了突破，还能够与SVD、animatediff等其他主流模型无缝兼容，为开源视频生成领域带来了革命性的进步。

亮点概述：

时长突破： 生成视频时长可达2分钟（1200帧），超越了以往的模型。
卓越品质： 提供了优秀的视频质量。
兼容性强： 能够与业内其他主流模型实现无缝衔接。
开源免费： 便于开发者使用和进行二次开发。

免费在线体验： 【点击此处进入】（请注意，由于在线用户较多，可能需要排队等待）

本地搭建指南：

环境准备： 安装Python 3.10和CUDA版本11.6或以上。[下载Python 3.10]、[下载Cuda]。
项目克隆： 使用Git克隆开源项目至本地：
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git cd StreamingT2V/
环境配置： 创建并激活新的conda环境，并安装所需依赖：
conda create -n st2v python=3.10 conda activate st2v pip install -r requirements.txt
FFmpeg安装： 如果您的系统缺少FFmpeg，请通过conda进行安装：
conda install -c conda-forge ffmpeg
模型权重下载： 从Hugging Face下载模型权重，并将其放置于t2v_enhanced/checkpoints目录下。
文本到视频转换： 进入t2v_enhanced目录，运行以下命令进行文本到视频的转换：
python inference.py --prompt="一只猫在街上奔跑"
如需使用其他基础模型，可添加--base_model=AnimateDiff参数。更多选项可通过执行python inference.py --help查看。
图片到视频转换： 在t2v_enhanced目录下，运行以下命令将图片转换为视频：
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD