通古大模型 – 华南理工大学推出的古籍大语言模型-爱论文

通古大模型是什么

通古大模型是华南理工大学深度学习与视觉计算实验室（SCUT-DLVCLab）推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练，使用24.1亿古籍语料进行无监督训练，结合400万古籍对话数据进行指令微调。模型采用冗余度感知微调（RAT）技术，有效提升了古籍任务的性能。帮助用户更便捷地理解和翻译古籍文献。通过检索增强生成（CCU-RAG）技术，减少知识密集型任务中的幻觉问题，提高生成内容的准确性和可靠性。

通古大模型的主要功能

古文句读：通古大模型能自动为古文添加标点符号，解决古籍中常见的断句问题，帮助用户更好地理解古文内容。文白翻译：模型支持文言文与白话文之间的双向翻译，将晦涩的古文翻译为现代文，同时也可将现代文转换为文言文，方便用户进行古籍阅读和研究。诗词创作：通古大模型可以生成符合古诗词格律和风格的诗歌，用户可以根据需求提供主题或关键词，模型生成相应的诗词作品。古籍赏析：模型能对古籍中的经典篇章进行赏析，解读其文学价值、历史背景和文化内涵，辅助用户深入学习古籍。古籍检索与问答：结合检索增强技术，通古大模型可以快速检索古籍内容，根据用户的问题提供准确的答案，帮助用户高效获取古籍信息。辅助古籍整理：模型能识别古籍中的文字错误、缺漏等问题，提供修复建议，辅助古籍整理和数字化工作。

通古大模型的技术原理

基础模型架构：通古大模型基于百川2-7B-Base进行增量预训练。百川2-7B-Base是强大的预训练语言模型，为通古大模型提供了基础的语言理解和生成能力。无监督增量预训练：模型在24.1亿古籍语料上进行无监督增量预训练。使模型学习古籍的语言风格和结构，为后续的古籍处理任务奠定基础。多阶段指令微调：通古大模型采用了多阶段指令微调技术，提出了冗余度感知微调（RAT）方法。在提升下游任务性能的同时，保留了基座模型的能力。通过指令微调，模型能更好地适应古籍处理的具体任务，如古文翻译、句读等。检索增强生成（RAG）技术：通古大模型结合了检索增强生成（RAG）技术，减少知识密集型任务中的幻觉问题。核心是将信息检索与文本生成相结合，通过从外部知识库中检索相关信息，作为上下文输入给语言模型，生成更准确、更符合上下文的答案。

通古大模型的项目地址

Github仓库：https://github.com/SCUT-DLVCLab/TongGu-LLMHuggingFace模型库：https://huggingface.co/SCUT-DLVCLab/TongGu-7B-Instruct

通古大模型的应用场景

古籍处理与数字化：通古大模型能高效处理古籍文献，支持文白翻译、句读标点和古籍检索等功能。辅助古籍整理工作，通过智能识别和修复古籍中的文字错误，提升古籍数字化的效率。教育支持：教师可以用来生成教案、教学PPT，设计课堂互动环节。对于学生，模型能提供文言文翻译、成语解释和诗词创作等功能，帮助他们更好地理解古文。文化传承与普及：通古大模型通过降低古籍阅读难度，让更多人接触和理解中华传统文化。学术研究：通古大模型为古籍研究提供了强大的技术支持，能帮助学者快速检索和分析古籍内容。