当前位置: 网站首页 >AI教程资讯 >正文

Lyra – SmartMore联合多所高校推出的增强多模态交互能力

来源:爱论文 时间:2025-01-23 12:14:09

Lyra是什么

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。Lyra构建大规模的多模态数据集,包括长语音样本,处理复杂的长语音输入,实现强大的全模态认知能力。在多种模态理解和推理任务中,Lyra达到最先进的性能,同时在计算资源和训练数据的使用上更为高效。

Lyra

Lyra的主要功能

多模态理解与推理:Lyra能理解和处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。 流式生成:支持同时生成文本和语音输出,在对话和交互中实时响应。跨模态交互:基于潜在的多模态正则化器和提取器,加强不同模态之间的信息交互,提升模型性能。

Lyra的技术原理

多模态LoRA(Low-Rank Adaptation):基于了LoRA技术适配多模态输入,模型在保留原有视觉能力的同时,发展在语音模态中的能力,减少训练数据的需求。潜在跨模态正则化器:基于动态时间弯曲(Dynamic Time Warping, DTW)算法,将语音令牌与对应的文本令牌对齐,让语音模态的输入在语义上与文本模态保持一致。潜在多模态提取器:基于评估不同模态令牌与文本查询的相关性,动态选择和保留与任务最相关的令牌,提高训练和推理的效率。长语音能力集成:构建专门的长语音SFT数据集,基于压缩技术处理长语音令牌,让模型处理长达数小时的音频输入。流式文本-语音生成:集成流式生成机制,支持模型在生成文本的同时输出对应的语音,实现无缝的多模态交互体验。数据集构建:为训练和优化Lyra,研究者构建包含150万多个多模态样本和1.2万多个长语音样本的高质量数据集,数据覆盖丰富的场景和领域。

Lyra的项目地址

项目官网:lyra-omniGitHub仓库:https://github.com/dvlab-research/LyraHuggingFace模型库:https://huggingface.co/collections/zszhong/lyra-dataarXiv技术论文:https://arxiv.org/pdf/2412.09501

Lyra的应用场景

智能助手:作为智能助手,理解和响应用户的语音指令,提供信息查询、日程管理、提醒设置等服务。客户服务:在客户服务领域,基于语音和文本交互,处理客户咨询、投诉和技术支持等问题。教育和培训:作为教育辅助工具,提供语音讲解、课程内容理解和问答,以及语言学习中的发音和听力训练。健康医疗:在医疗领域,帮助患者通过语音咨询健康问题,或作为医生的辅助工具,理解和总结患者的医疗记录。内容审核:分析图像、视频和文本内容,进行内容审核,识别和过滤不当内容。
上一篇:Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图
相关资讯 更多+
  • Lyra – SmartMore联合多所高校推出的增强多模态交互能力
    Lyra – SmartMore联合多所高校推出的增强多模态交互能力

    Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。

    AI教程资讯 2023-04-14

  • Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图
    Manga Image Translator – 开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图

    Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本,结合机器翻译将文字转换成目标语言。工具支持多种语言,能将翻译后的文本无缝嵌入原图,保持漫画风格。

    AI教程资讯 2023-04-14

  • Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型
    Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

    Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资源需求,能在AI眼镜、智能手机等资源受限设备上高效运行。

    AI教程资讯 2023-04-14

  • ColorFlow – 清华和腾讯共同推出的图像序列着色模型
    ColorFlow – 清华和腾讯共同推出的图像序列着色模型

    ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术,ColorFlow确保黑白图像序列着色与参考图像颜色一致性,适用于漫画、动画制作等工业应用。

    AI教程资讯 2023-04-14

最新录入 更多+
确定