VideoChat是什么
VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用,支持流式视频输出,方便快速部署和构建。

来源:爱论文 时间:2025-02-08 17:55:42
VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用,支持流式视频输出,方便快速部署和构建。
VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。
AI教程资讯
2023-04-14
TableGPT2是浙江大学推出的新型大型多模态模型,针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练,直接理解并操作数据库、Excel等数据,执行SQL查询、数据分析等任务。模型包含创新的表格编码器,强化对不规则表格和模糊查询的处理能力,在多个基准测试中性能显著提升。
AI教程资讯
2023-04-14
GenXD是新加坡国立大学和微软公司共同推出的3D-4D联合生成框架,能从任意数量的条件图像中生成高质量的3D和4D场景。框架用一个数据整理流程从视频中提取相机姿态和物体运动强度,基于这些信息及大规模4D数据集CamVid-30K训练模型。
AI教程资讯
2023-04-14
AlphaFold 3是谷歌DeepMind团队推出的AI模型,能预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。模型在结构预测的准确性上取得革命性进展,对药物设计、科研和生物医学领域具有重大影响。基于开源,AlphaFold 3让全球科学家加速新药和疫苗的研发进程。
AI教程资讯
2023-04-14