CogAgent是什么
CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像,具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩,在GUI操作数据集上显著超越了现有的模型,如 Mind2Web 和 AITW。

来源:爱论文 时间:2025-02-17 10:24:25
CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像,具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩,在GUI操作数据集上显著超越了现有的模型,如 Mind2Web 和 AITW。
CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。
AI教程资讯
2023-04-14
OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,每个智能体拥有相同且独立的系统结构,能自主学习和理解完整的世界模型,独立理解环境。
AI教程资讯
2023-04-14
DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模型的内存使用和计算速度。检索头负责处理长距离依赖,需要完整的键值(KV)缓存,流式头关注最近token和注意力汇聚点,只需固定长度的KV缓存。
AI教程资讯
2023-04-14
HuggingChat macOS是Hugging Face推出的开源聊天应用程序,专为macOS用户设计,基于强大的开源语言模型,将先进的AI对话能力直接带到用户的桌面上。应用支持多种顶尖的开源大语言模型,如Qwen 2 5 72B、Command R+、Phi 3 5、Mistral 12B等,用户能轻松访问。
AI教程资讯
2023-04-14