免费开源,可本地部署! 2分钟高清视频一键生成

AI探索3个月前发布 8kmm.com
1.2K 0 0

近日,Picsart AI Research团队发布了一项创新成果——StreamingT2V模型,该模型能够生成长达2分钟(1200帧)的高质量视频,这一成就超越了先前的Sora模型。StreamingT2V不仅在视频时长上取得了突破,还能够与SVD、animatediff等其他主流模型无缝兼容,为开源视频生成领域带来了革命性的进步。

亮点概述:

  • 时长突破: 生成视频时长可达2分钟(1200帧),超越了以往的模型。
  • 卓越品质: 提供了优秀的视频质量。
  • 兼容性强: 能够与业内其他主流模型实现无缝衔接。
  • 开源免费: 便于开发者使用和进行二次开发。

免费在线体验:点击此处进入】(请注意,由于在线用户较多,可能需要排队等待)

本地搭建指南:

  1. 环境准备: 安装Python 3.10和CUDA版本11.6或以上。[下载Python 3.10]、[下载Cuda]。
  2. 项目克隆: 使用Git克隆开源项目至本地:
    git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
    cd StreamingT2V/
  3. 环境配置: 创建并激活新的conda环境,并安装所需依赖:
    conda create -n st2v python=3.10
    conda activate st2v
    pip install -r requirements.txt
  4. FFmpeg安装: 如果您的系统缺少FFmpeg,请通过conda进行安装:
    conda install -c conda-forge ffmpeg
  5. 模型权重下载: 从Hugging Face下载模型权重,并将其放置于t2v_enhanced/checkpoints目录下。
  6. 文本到视频转换: 进入t2v_enhanced目录,运行以下命令进行文本到视频的转换:
    python inference.py --prompt="一只猫在街上奔跑"

    如需使用其他基础模型,可添加--base_model=AnimateDiff参数。更多选项可通过执行python inference.py --help查看。

  7. 图片到视频转换:t2v_enhanced目录下,运行以下命令将图片转换为视频:
    python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD

推理时间对比:

以下是不同基础模型和帧数下的推理时间对比,所有测试均在NVIDIA A100 (80 GB) GPU上进行。当帧数超过80时,采用随机混合技术,其中chunk_sizeoverlap_size的值分别设置为112和32。

  • ModelscopeT2V基础模型:
    • 24帧:预览40秒,最终结果165秒
    • 1200帧:预览约28分钟,最终结果约170分钟
  • AnimateDiff基础模型:
    • 24帧:预览50秒,最终结果180秒
    • 1200帧:预览约28分钟,最终结果约170分钟
  • SVD基础模型:
    • 24帧:预览80秒,最终结果210秒
    • 1200帧:预览约29分钟,最终结果约171分钟
© 版权声明

相关文章

文章目录

    暂无评论

    暂无评论...