WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。
AI教程资讯
2025-04-15
PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。
AI教程资讯
2025-04-15
DreamActor-M1是字节跳动推出的先进AI图像动画框架,能将静态人物照片转化为生动的动画视频。采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等控制信号,实现对人物面部表情和身体动作的精准控制。
AI教程资讯
2025-04-15
Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像(iT2I)框架。基于自然语言与用户进行多轮对话,实现高质量图像的生成、编辑和优化。
AI教程资讯
2025-04-15
MoCha AI 是 Meta 和滑铁卢大学联合开发的端到端对话角色视频生成模型。能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。MoCha 采用语音-视频窗口注意力机制,解决了视频压缩时音频分辨率不匹配以及唇部动作错位的问题。
AI教程资讯
2025-04-15
DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM)和自我原则点评调优(Self-Principled Critique Tuning, SPCT)等技术,显著提升了奖励模型的质量和推理时的可扩展性。
AI教程资讯
2025-04-15
OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包含11,163道来自国际奥林匹克竞赛的双语题目,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。
AI教程资讯
2025-04-15
AbletonMCP 是开源项目,基于模型上下文协议(MCP) 将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作。AbletonMCP 基于双向通信,支持用户基于 Claude AI 创建、修改 MIDI 和音频轨道,选择乐器与效果,编辑 MIDI 片段,及控制播放和会话。
AI教程资讯
2025-04-15
BabelDOC 是开源的智能 PDF 翻译工具,专为科学论文翻译设计。能在原文旁生成翻译文本,形成双语对照,无需切换窗口,方便阅读。能完整保留数学公式、表格和图形,不破坏原文布局。
AI教程资讯
2025-04-15
Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout 有 170 亿个活跃参数、16 个 “专家” 模型、1090 亿个总参数,支持 1000 万上下文,可处理 20 多小时视频,在单个 H100 GPU 上就能运行,性能超越 Gemma 3 等模型。
AI教程资讯
2025-04-15