OmniTalker – 阿里推出的实时文本驱动说话头像生成框架-爱论文

OmniTalker是什么

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构，Thinker 负责处理多模态输入并生成语义表征和文本内容，Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE（时间对齐多模态旋转位置嵌入）技术，确保视频与音频输入的精准同步。

OmniTalker的主要功能

多模态输入处理：能感知文本、图像、音频和视频等多种模态。流式生成文本和语音响应：以流式方式生成文本和自然语音响应，音频和视频编码器采用按块处理方法，解耦了对长序列多模态数据的处理。音视频精准同步：通过提出 TMRoPE（Time-aligned Multimodal RoPE）技术，以交错的方式顺序组织音频和视频，实现输入的精准同步。实时交互：支持分块输入和即时输出，能够进行完全实时交互。语音生成自然流畅：在语音生成的自然性和稳定性方面表现优异，超越了许多现有的流式和非流式替代方案。性能优势：在多模态基准测试中表现出色，音频能力优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

OmniTalker的技术原理

Thinker-Talker 架构：OmniTalker 采用了 Thinker-Talker 架构，其中 Thinker 负责处理多模态输入（包括文本、图像、音频和视频），生成高维语义表征和文本内容；Talker 基于 Thinker 提供的语义表征和文本，以流式方式生成自然语音响应。避免了文本生成和语音生成之间的干扰，确保了语义表达的一致性和实时性。Thinker：基于 Transformer 解码器架构，配备音频和图像编码器，负责多模态信息的提取和理解。Talker：采用双轨自回归 Transformer 解码器结构，直接利用 Thinker 的高维语义表征生成语音 token，确保语音输出的自然性和流畅性。TMRoPE（时间对齐多模态旋转位置嵌入）：为解决音视频输入的时间同步问题，OmniTalker 提出了 TMRoPE 技术。通过将音频和视频帧按照时间顺序交错排列，进行位置编码，确保不同模态的信息在时间轴上无缝衔接。使模型能更准确地理解和生成音视频内容。流式处理：OmniTalker 支持流式输入和输出，能实时处理多模态信息并快速响应。音频和视觉编码器采用分块处理方法，将长序列数据分解为小块进行处理，降低延迟并提高效率。分块预填充：音频编码器采用 2 秒块式注意力机制，视觉编码器采用 flash attention 增加 MLP 层提升效率。滑动窗口 DiT 模型：用于流式生成 mel 频谱图，进一步支持语音的高质量流式生成。端到端训练：Thinker 和 Talker 模块通过端到端的方式进行联合训练，共享历史上下文信息。避免了单独训练模块之间可能累积的错误，确保了模型的整体性能和一致性。高效语音生成：OmniTalker 的语音生成模块采用了高效的语音编解码器（qwen-tts-tokenizer），以自回归方式流式生成音频 token。降低了数据需求和推理难度，提高了语音生成的自然度和鲁棒性。

OmniTalker的项目地址

项目官网：https://humanaigc.github.io/omnitalker/arXiv技术论文：https://arxiv.org/pdf/2504.02433v1

OmniTalker的应用场景

智能语音助手：OmniTalker 的实时音视频交互能力和自然流畅的语音生成能力使其成为理想的智能语音助手。可以处理用户的语音指令，实时生成语音回应，为用户提供更加自然和便捷的交互体验。多模态内容创作：在内容创作领域，OmniTalker 可以同时处理文本、图像和视频输入，生成相应的文本或语音描述。教育与培训：OmniTalker 可以用于教育和培训领域，通过处理多种模态的输入，为学生提供更加丰富和个性化的学习体验。智能客服：在智能客服领域，OmniTalker 可以实时处理客户的语音或文本问题，生成准确的回应。可以提高客服效率，改善客户体验。工业质检：在制造业领域，OmniTalker 可以通过同时处理产品外观图像与工艺参数文本，实时检测流水线上的缺陷零件。