当前位置: 网站首页 >AI教程资讯 >正文

VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒

来源:爱论文 时间:2025-02-08 17:55:42

VideoChat是什么

VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用,支持流式视频输出,方便快速部署和构建。

VideoChat

VideoChat的主要功能

实时语音交互:支持用户用语音与数字人进行实时对话。形象和音色自定义:用户根据需要选择或设计数字人的外观和声音,实现个性化交互。语音输入和文本输出:将用户的语音输入转换为文本,再基于大语言模型生成回复文本。唇形同步:数字人在说话时,嘴唇动作与发出的声音同步,提高真实感。流式视频输出:基于Gradio框架,支持流式视频输出,让交互更加流畅。

VideoChat的技术原理

语音识别(ASR):用FunASR等工具将用户的语音输入转换为文本。大语言模型(LLM):基于通义千问等模型根据输入文本生成相应的回复文本。文本转语音(TTS):基于GPT-SoVITS等工具将文本回复转换为语音。说话人生成(THG):用MuseTalk等方案根据语音生成唇形同步的数字人视频。流式输出并行流水线:基于并行处理技术,边推理边播放,提高响应速度。Gradio框架:用Gradio 5实现流式视频输出,方便部署和构建交互式应用。

VideoChat的项目地址

GitHub仓库:https://github.com/Henry-23/VideoChat在线体验Demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat

VideoChat的应用场景

客户服务:作为虚拟客服,提供24*7的咨询服务,解答用户问题,减少企业人力成本。在线教育:作为虚拟教师,提供语言学习、课程讲解等服务,增加学习的互动性和趣味性。新闻播报:用在新闻行业,用数字人的形式播报新闻,提高新闻播报的效率和吸引力。直播行业:作为虚拟主播,进行产品介绍、直播带货等,增加直播的互动性和观众的观看体验。娱乐互动:在游戏、虚拟演唱会等娱乐领域,提供更加丰富的互动体验。
上一篇:TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型
相关资讯 更多+
  • VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒
    VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒

    VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。

    AI教程资讯 2023-04-14

  • TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型
    TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型

    TableGPT2是浙江大学推出的新型大型多模态模型,针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练,直接理解并操作数据库、Excel等数据,执行SQL查询、数据分析等任务。模型包含创新的表格编码器,强化对不规则表格和模糊查询的处理能力,在多个基准测试中性能显著提升。

    AI教程资讯 2023-04-14

  • GenXD – 新加坡国立和微软共同推出的通用3D和4D联合生成框架
    GenXD – 新加坡国立和微软共同推出的通用3D和4D联合生成框架

    GenXD是新加坡国立大学和微软公司共同推出的3D-4D联合生成框架,能从任意数量的条件图像中生成高质量的3D和4D场景。框架用一个数据整理流程从视频中提取相机姿态和物体运动强度,基于这些信息及大规模4D数据集CamVid-30K训练模型。

    AI教程资讯 2023-04-14

  • AlphaFold 3 – 谷歌DeepMind开源的结构预测统一框架
    AlphaFold 3 – 谷歌DeepMind开源的结构预测统一框架

    AlphaFold 3是谷歌DeepMind团队推出的AI模型,能预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。模型在结构预测的准确性上取得革命性进展,对药物设计、科研和生物医学领域具有重大影响。基于开源,AlphaFold 3让全球科学家加速新药和疫苗的研发进程。

    AI教程资讯 2023-04-14

最新录入 更多+
确定