当前位置: 网站首页 >AI教程资讯 >正文

VidTok – 微软开源的视频分词器,支持连续和离散分词化

来源:爱论文 时间:2025-01-20 13:55:41

VidTok是什么

VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间,适用于不同的应用场景。VidTok采用混合模型架构设计,结合了卷积层和上/下采样模块,以减少计算复杂度同时保持高质量重建。引入了有限标量量化技术,解决了传统向量量化中的训练不稳定性和码本崩溃问题。

VidTok的主要功能

视频分词化:VidTok能将原始的高维视频数据(如图像和视频帧)转换为更为紧凑的视觉Token。高效压缩:VidTok在不同的压缩率设定下工作,能有效地压缩视频数据,同时保持视频质量。连续和离散分词化:VidTok支持连续型和离散型两种分词化方法,适应不同的模型和应用需求。因果和非因果模型支持:VidTok支持因果型和非因果型模型,因果模型只依赖历史帧进行Tokenization,非因果模型则可以基于历史帧和未来帧信息。多样化的隐空间支持:VidTok支持不同大小的隐空间,适应不同的视频压缩率和模型复杂度。高性能重建:VidTok在多个视频质量评估指标上表现出色,包括PSNR、SSIM、FVD和LPIPS,提供了高质量的视频重建。

VidTok的技术原理

高效的混合模型架构设计: VidTok采用了经典的3D编码器-解码器结构,并创新性地结合了3D、2D和1D卷积,有效地解耦空间和时间采样。先进的量化技术: VidTok引入了有限标量量化(FSQ)技术,是一种无需显式学习码本的量化方法,显著提高了模型的训练稳定性和重建性能。增强的训练策略: VidTok采用分阶段训练策略,首先在低分辨率视频上对完整模型进行预训练,然后仅在高分辨率视频上微调解码器。

VidTok的项目地址

Github仓库:https://github.com/microsoft/vidtokHuggingFace模型库:https://huggingface.co/microsoft/VidTokarXiv技术论文:https://arxiv.org/pdf/2412.13061

VidTok的应用场景

视频生成:VidTok可以用于视频生成模型,如Sora、Genie等,模型基于Tokenizer将原始的高维视频数据转换为紧凑的视觉Token,再以这些Token为目标训练生成模型。视频内容高效建模:视频生成和基于视频的世界模型是人工智能领域的热门研究方向,VidTok通过对视频内容的高效建模,提供了一个高效的中间媒介,用于模型理解世界。视频数据压缩和表示:由于视频像素级表示信息高度冗余,VidTok通过高效压缩和表示视频数据,降低了模型训练和推理时的计算需求。
上一篇:Infinity – 字节跳动推出的高分辨率图像生成模型
相关资讯 更多+
  • VidTok – 微软开源的视频分词器,支持连续和离散分词化
    VidTok – 微软开源的视频分词器,支持连续和离散分词化

    VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间,适用于不同的应用场景。

    AI教程资讯 2023-04-14

  • Infinity – 字节跳动推出的高分辨率图像生成模型
    Infinity – 字节跳动推出的高分辨率图像生成模型

    Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制,显著提升图像生成的细节和质量,超越现有的顶级扩散模型,生成一张1024×1024的高质量图像仅需0 8秒,比SD3-Medium快2 6倍,且具有更快的推理速度。

    AI教程资讯 2023-04-14

  • ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型
    ModernBERT – 英伟达和 HuggingFace 等机构联合开源的新一代编码器模型

    ModernBERT是Answer AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出的现代编码器-only Transformer模型,是对经典BERT模型的一次重大升级。ModernBERT在2万亿token的大规模数据上训练,支持长达8192 token的序列长度,显著提升处理长上下文的能力。

    AI教程资讯 2023-04-14

  • cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载
    cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载

    cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多主题切换。用户能下载高达8K的视频和多种格式的音频,cobalt能自动提取字幕,使用简单,无需注册。

    AI教程资讯 2023-04-14

最新录入 更多+
确定