Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入-爱论文

Emotion-LLaMA是什么

Emotion-LLaMA是多模态情绪识别与推理模型，融合了音频、视觉和文本输入，通过特定情绪编码器整合信息。模型基于修改版LLaMA，经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估，使模型能从多场景学习并应用于现实。Emotion-LLaMA在多个数据集和挑战赛中表现优异，如在MER2024挑战赛MER-NOISE赛道中以84.52%的WAF超越其他团队。其架构设计巧妙，充分发挥LLaMA优势，纳入关键情感线索。

Emotion-LLaMA的主要功能

多模态情绪识别：能通过情绪特定的编码器无缝集成音频、视觉和文本输入，更准确地识别复杂的情绪表达。可以处理包含人物面部表情、身体语言和上下文线索的图像或视频，预测最可能的情绪类别，显示预测情绪标签及相应的置信度分数。情绪推理：在提供多模态输入（如视频片段伴随音频和文本）时，Emotion-LLaMA可以生成自然语言解释，分析数据中的面部表情、声音线索和语言内容，生成连贯且类似人类的解释，突出显示对预测情绪有贡献的具体线索和模式，为需要透明和可解释情绪理解的应用提供价值。数据集构建与训练支持：构建了MERR数据集，包含28618个粗粒度和4487个细粒度注释样本，覆盖多种情绪类别，使模型能够从不同场景中学习并推广到现实世界的应用，为大规模多模态情绪模型训练和评估提供了宝贵资源。性能表现优异：在多个数据集和挑战赛中表现出色，如在EMER数据集上线索重叠和标签重叠得分最高，在MER2023-SEMI挑战赛中F1分数为0.9036，在MER2024-NOISE挑战赛中F1分数为0.8452，还在DFEW数据集的零样本评估中超越了ChatGPT-4V。

Emotion-LLaMA的技术原理

多模态输入融合：通过特定于情绪的编码器，Emotion-LLaMA能够无缝集成音频、视觉和文本输入。基于HuBERT模型作为音频编码器，以及多视图视觉编码器（如MAE、VideoMAE、EVA）来捕捉面部细节、动态和上下文，更全面地理解情绪表达。特征对齐与指令调整：模型将来自不同模态的特征对齐到共享空间，采用经过指令调整的修改版LLaMA模型。有助于模型更好地理解和处理情绪相关的任务，增强情感识别和推理能力。数据集构建：为了支持模型训练和评估，研究者构建了MERR数据集，包含28618个粗粒度和4487个细粒度注释样本，覆盖多种情绪类别。数据集使模型能从不同场景中学习并推广到现实世界的应用。基于Transformer架构：Emotion-LLaMA的核心架构基于Transformer，利用自回归生成机制、多头自注意力机制、前馈神经网络（FFN）、残差连接和位置编码等技术实现高效的自然语言生成和情绪推理。

Emotion-LLaMA的项目地址

Github仓库：https://github.com/ZebangCheng/Emotion-LLaMAarXiv技术论文：https://arxiv.org/pdf/2406.11161在线体验Demo：https://huggingface.co/spaces/ZebangCheng/Emotion-LLaMA

Emotion-LLaMA的应用场景

人机交互：在智能助手、聊天机器人等场景中，通过实时分析用户的情绪状态，生成基于用户情感的回复，提供更加个性化的交互体验，使机器能更好地理解和回应人类用户的情感需求。教育领域：教师可以用Emotion-LLaMA了解学生的情感状态，提供更有针对性的教学支持。心理健康支持：在心理健康咨询和干预中，模型可以帮助识别用户的情感状态，为心理咨询师提供更准确的情绪分析，提供及时的心理干预和支持，辅助治疗过程。客户服务：企业可以将Emotion-LLaMA应用于客服系统，通过分析客户的情绪状态，为客户提供更个性化和贴心的服务。社交媒体分析：通过对社交媒体上的评论、帖子等进行情感分析，可以了解用户的情绪趋势，为企业提供有价值的市场洞察。