Lyra – SmartMore联合多所高校推出的增强多模态交互能力-爱论文

Lyra是什么

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型（MLLM），专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器，减少训练成本和数据需求。Lyra构建大规模的多模态数据集，包括长语音样本，处理复杂的长语音输入，实现强大的全模态认知能力。在多种模态理解和推理任务中，Lyra达到最先进的性能，同时在计算资源和训练数据的使用上更为高效。

Lyra的主要功能

多模态理解与推理：Lyra能理解和处理图像、视频、音频和文本等多种模态的数据，执行复杂的理解和推理任务。语音中心能力：模型特别强化对语音的理解，包括长语音的识别和处理，在语音交互方面表现出色。高效处理：Lyra在训练和推理时更加高效，用更少的数据和计算资源，适合实时和长上下文的多模态应用。流式生成：支持同时生成文本和语音输出，在对话和交互中实时响应。跨模态交互：基于潜在的多模态正则化器和提取器，加强不同模态之间的信息交互，提升模型性能。

Lyra的技术原理

多模态LoRA（Low-Rank Adaptation）：基于了LoRA技术适配多模态输入，模型在保留原有视觉能力的同时，发展在语音模态中的能力，减少训练数据的需求。潜在跨模态正则化器：基于动态时间弯曲（Dynamic Time Warping, DTW）算法，将语音令牌与对应的文本令牌对齐，让语音模态的输入在语义上与文本模态保持一致。潜在多模态提取器：基于评估不同模态令牌与文本查询的相关性，动态选择和保留与任务最相关的令牌，提高训练和推理的效率。长语音能力集成：构建专门的长语音SFT数据集，基于压缩技术处理长语音令牌，让模型处理长达数小时的音频输入。流式文本-语音生成：集成流式生成机制，支持模型在生成文本的同时输出对应的语音，实现无缝的多模态交互体验。数据集构建：为训练和优化Lyra，研究者构建包含150万多个多模态样本和1.2万多个长语音样本的高质量数据集，数据覆盖丰富的场景和领域。

Lyra的项目地址

项目官网：lyra-omniGitHub仓库：https://github.com/dvlab-research/LyraHuggingFace模型库：https://huggingface.co/collections/zszhong/lyra-dataarXiv技术论文：https://arxiv.org/pdf/2412.09501

Lyra的应用场景

智能助手：作为智能助手，理解和响应用户的语音指令，提供信息查询、日程管理、提醒设置等服务。客户服务：在客户服务领域，基于语音和文本交互，处理客户咨询、投诉和技术支持等问题。教育和培训：作为教育辅助工具，提供语音讲解、课程内容理解和问答，以及语言学习中的发音和听力训练。健康医疗：在医疗领域，帮助患者通过语音咨询健康问题，或作为医生的辅助工具，理解和总结患者的医疗记录。内容审核：分析图像、视频和文本内容，进行内容审核，识别和过滤不当内容。