PPTAgent – 中科院推出的自动生成高质量演示文稿框架-爱论文

PPTAgent是什么

PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架，基于模仿人类工作流程的两阶段编辑方法，从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿，提取结构模式和内容模式，基于代码动作草拟大纲并生成幻灯片，确保内容的一致性和对齐。PPTAgent基于大型语言模型（LLM）的能力，将演示文稿生成过程分解为迭代的编辑工作流程，提高生成演示文稿的连贯性和适应性，还能更好地处理复杂的格式问题。 PPTAgent引入PPT Eval评估框架，从内容、设计和连贯性三个维度全面评估生成的演示文稿质量，为未来的演示文稿生成研究提供宝贵的资源和见解。

PPTAgent的主要功能

分析参考演示文稿：理解其结构模式和内容模式。草拟大纲：基于分析结果，创建详细的演示文稿大纲。生成幻灯片：基于代码动作，将大纲转化为具体的幻灯片内容，确保内容的一致性和对齐。编辑和修正：提供反馈机制，对生成的幻灯片进行编辑和自我修正，提高生成文稿的质量。综合评估：基于PPT PPT Eval框架，从内容、设计和连贯性三个维度评估生成的演示文稿质量。

PPTAgent的技术原理

第一阶段：演示文稿分析幻灯片聚类：将幻灯片分为两类：支持演示文稿结构的幻灯片（如开场幻灯片）和传达特定内容的幻灯片（如项目符号幻灯片）。用不同的聚类算法，基于文本或视觉特征对幻灯片进行聚类。对于结构幻灯片，用LLM推断每个幻灯片的功能角色；对于内容幻灯片，用层次聚类方法基于图像相似性进行聚类。模式提取：进一步分析幻灯片的内容模式，确保编辑的目的性。用LLM的情境感知能力，提取多样化的内容模式。每个元素通过类别、模态和内容来表示，基于LLM的指令遵循和结构化输出能力提取每个幻灯片的模式。第二阶段：演示文稿生成大纲生成：指导LLM创建包含多个条目的结构化大纲。每个条目指定参考幻灯片、相关文档部分索引及新幻灯片的标题和描述。用LLM的规划和总结能力，结合文档内容和参考演示文稿的语义信息，生成连贯且吸引人的大纲，指导后续的生成过程。幻灯片生成：在大纲的指导下，基于迭代编辑参考幻灯片来产生新幻灯片。实现五个专门的API，支持LLM编辑、删除和复制文本元素，及编辑和删除视觉元素。将幻灯片从原始XML格式转换为HTML表示，使LLM更容易理解和操作。LLM接收两种输入：基于部分索引的源文档文本和可用图像的标题。新幻灯片内容根据内容模式生成。LLM用生成的内容、参考幻灯片的HTML表示和API文档，产生可执行的编辑动作。在REPL环境中执行，系统在执行过程中检测错误并提供实时反馈，LLM基于中间结果迭代优化编辑动作，增强生成过程的稳健性。

PPTAgent的项目地址

GitHub仓库：https://github.com/icip-cas/PPTAgentarXiv技术论文：https://arxiv.org/pdf/2501.03936

PPTAgent的应用场景

教育领域：教师快速生成课程讲解的演示文稿，包含关键知识点、图表和示例，提高教学效率和学生的学习兴趣。企业培训：企业生成新员工培训的演示文稿，介绍公司文化、规章制度、业务流程等内容，帮助新员工快速了解公司环境。市场营销：市场团队生成产品推广演示文稿，包含产品特点、市场分析、用户案例等内容，用在客户会议或市场活动。项目管理：项目团队生成项目进度汇报的演示文稿，包含项目目标、进度情况、遇到的问题和解决方案等内容，用于向管理层或客户汇报。个人使用：个人生成个人演讲的演示文稿，包含演讲主题、关键观点、支持材料等内容，提高演讲效果。