SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集
来源:爱论文
时间:2025-04-14 17:05:48
SeniorTalk是什么
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据,总时长达到 55.53小时。数据采集覆盖16个省市,涵盖不同地域口音,基于两两自发对话的方式,话题涉及退休、健康、生活等,贴近真实交流场景。数据集包含**度精细标注,如说话人信息、对话内容转写、时间戳(句子级和词级)、口音类别标签等。SeniorTalk为深入研究老年人语音信号、优化老年人语音交互系统提供宝贵支撑,推动如设备适老化、健康管理、辅助养老机器人等相关产业的发展。

SeniorTalk的主要功能
语音识别:提升超高龄老年人语音识别的准确率,助力开发更精准的语音识别系统,方便老年人使用语音交互。说话人验证:支持说话人验证技术研究,确保语音交互的安全性和可靠性。说话人分离:提供多说话人的对话数据,助力说话人分离技术研究,帮助在复杂环境中准确识别不同说话人的语音。语音编辑:提供自然对话数据,支持语音编辑技术研究,改善语音合成和编辑效果。健康监测与辅助交流:分析超高龄老年人语音特征,支持健康监测和辅助交流技术研究,为养老和健康管理提供数据支撑。
SeniorTalk的技术原理
数据采集:基于两两自发对话的方式,模拟真实交流场景,确保语音数据的自然性和真实性。用多种智能手机(包括安卓和苹果设备)进行录音,确保数据的多样性和适用性。遵循严格的法律和伦理规范,确保数据采集过程合法、安全,保护参与者的隐私。数据标注:包括说话人信息(如年龄、性别、地域、设备等)、对话内容转写、时间戳(句子级和词级)、口音类别标签等。基于人工标注和校对,确保数据的准确性和完整性。数据处理:基于16kHz采样率的WAV文件格式,确保音频质量。将数据集分为训练集、验证集和测试集,支持不同研究任务的需求。技术应用:基于Transformer、Conformer、E-Branchformer等先进模型进行训练,提升语音识别的性能。应用X-vector、ResNet-TDNN、ECAPA-TDNN等模型,进行说话人验证和分离的研究。用CampNet、EditSpeech、A3T等方法,研究语音编辑技术,改善语音合成的效果。
SeniorTalk的项目地址
GitHub仓库:https://github.com/flageval-baai/SeniorTalkHuggingFace模型库:https://huggingface.co/datasets/BAAI/SeniorTalkarXiv技术论文:https://www.arxiv.org/pdf/2503.16578
SeniorTalk的应用场景
智能养老系统:基于语音指令控制家电、查询信息,提升老年人生活便利性;实时监测语音健康状况并预警。辅助交流设备:帮助有语言障碍的老年人自然表达,准确识别多人对话中的特定语音指令。健康管理平台:分析语音特征评估健康状况,提供语音交互的健康咨询和提醒功能。智能语音助手:优化语音助手在老年用户中的表现,提供更自然、易理解的语音反馈。适老化产品研发:支持开发适合老年人的智能设备,确保语音交互功能适应老年人的使用习惯。