Uberduck是一个开源的AI语音生成和合成的社区,该平台提供了超过5000多种声音帮助用户制作AI配音和语音,用户可以从文本生成逼真的语音、歌唱和说唱,创建自定义语音克隆。支持多种语言,提供API访问,开发者能将这些功能集成到自己的应用程序中。
MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。
AI教程资讯
2025-01-26
Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。
AI教程资讯
2025-01-26
Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2 0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任务。Project Mariner能理解和推理浏览器屏幕上的信息,包括像素和网页元素,基于 Chrome 扩展程序使用这些信息完成任务。Project Mariner 能控制 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,像人类一样使用和浏览网站。
AI教程资讯
2025-01-26
TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作,支持开发者基于模块化设计轻松扩展功能,如集成视觉识别和RAG能力。
AI教程资讯
2025-01-26