Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架-爱论文

Poetry2Image是什么

Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架，哈尔滨工业大学提出。框架通过自动化的反馈和校正循环，增强了诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。Poetry2Image能提高图像生成的元素完整性和语义一致性，与五种流行的图像生成模型结合使用时，平均元素完整性达到70.63%，语义一致性达到80.09%。

Poetry2Image的主要功能

自动化反馈和校正：Poetry2Image通过使用外部诗歌数据集，建立了一个自动化的反馈和校正循环，能增强诗歌与图像之间的对齐度，提高生成图像的质量和准确性。减少人工干预：该框架降低了传统方法中所需的大量人工干预和专业知识需求，使图像生成过程更加高效。提高效率和质量：相较于传统的微调方法，Poetry2Image在保持生成图像质量的同时，显著减少了训练成本和时间。搜索和翻译：系统会在诗歌数据库中搜索用户提供的古诗，并找出它的现代汉语翻译和赏析。生成初始图像：基于诗歌的现代汉语翻译，系统会生成一幅初步的图像。提取关键元素：系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素。图像修正：系统会检查生成的图像是否包含了所有这些关键元素，并在必要时提出修改建议，比如添加缺失的元素或调整元素的位置。迭代优化：如果图像中的元素不完整或不正确，系统会根据建议再次生成图像，这个过程会不断重复，直到图像能够准确反映诗歌的意境。

Poetry2Image的技术原理

图像元素的识别与校正：基于开放词汇检测器（OVD）识别图像中的元素信息，然后通过LLM提供修改建议，这些建议以图像中的框选形式呈现，指导图像编辑模型对初始图像进行编辑。兼容性与训练成本：Poetry2Image没有对用于初始图像生成的文本到图像生成模型的限制，并且迭代校正操作消除了额外训练成本的需求，同时自动化的图像生成和反馈过程显著减少了手动注释。

Poetry2Image的项目地址

Github仓库：https://github.com/prajwalppv/Poetry2ImagearXiv技术论文：https://arxiv.org/pdf/2407.06196v1

Poetry2Image的应用场景

古诗词文化传播：Poetry2Image通过生成与古诗词意境相符的图像，促进了古诗词文化的传播，使得传统文化以更生动的形式被现代人所理解和欣赏。艺术创作辅助：能帮助艺术家和设计师在创作过程中，快速生成与古诗词相匹配的视觉元素，提供灵感和素材。教育与学习：在教育领域，Poetry2Image可以作为教学工具，帮助学生更好地理解和记忆古诗词，通过图像与诗词的结合，增强学习体验。图像生成技术研究：Poetry2Image提供了一个研究平台，用于探索和改进文本到图像的生成技术，特别是在处理具有丰富文化内涵和复杂语义的中文古诗词时。