当前位置: 网站首页 >AI教程资讯 >正文

GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建

来源:爱论文 时间:2025-01-31 13:30:37

GLM-PC是什么

GLM-PC是智谱AI基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜索总结等任务,支持远程和定时操作。GLM-PC能模拟人眼看、脑规划、手执行的方式使用电脑,具备跨平台能力,不依赖HTML或API,有更高的能力上限。目前处于内测阶段,旨在提升使用工具能力,探索自我学习能力。

GLM-PC

GLM-PC的主要功能

会议替身:帮助用户预定和参与会议,并发送会议总结。文档处理:支持文档的下载、发送及理解和总结文档内容。网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,并完成阅读、总结。远程和定时操作:用手机远程发送指令,GLM-PC能自主完成电脑操作,或设定在未来的某个时间点,在开机状态下定时执行任务。隐形屏幕:在用户工作时,在不占用用户屏幕的情况下自主完成工作,解放屏幕使用权。

GLM-PC内测申请地址

GLM-PC「邀请体验」已开启,需填写问卷申请内测。

如何使用GLM-PC

安装和设置:确保电脑是搭载M系列芯片的Mac电脑,推荐M1和M3系列设备。访问GLM-PC的官方网站获取GLM-PC的安装包。按照网站的指示完成下载和安装过程。用户授权:首次使用时,需要授权GLM-PC访问某些电脑功能和数据,以便够执行任务。输入指令:打开GLM-PC应用后,在对话框中输入想要进行的操作指令。例如,输入“查询B站热门内容”或“预定腾讯会议并发送会议邀请”。执行任务:GLM-PC评估指令并决定操作计划,然后自动执行任务。例如,它可能会打开浏览器搜索信息,或者打开日历应用预定会议。敏感操作确认:当遇到敏感操作时,GLM-PC自动暂停并等待用户的确认。用户需要点击控制条上的继续按钮继续任务。远程操作:如果需要通过手机远程操作电脑,在GLM-PC设置中打开“挂起模式”,远程发送指令。

GLM-PC的应用场景

信息处理:适配微信、飞书、钉钉,向联系人或群聊发送信息。会议安排:适配腾讯会议、飞书会议等,预定会议日程、发送会议邀请;定时加入指定会议。文档处理:支持文档下载、发送、理解和总结文档。网页内容处理:打开浏览器,在百度、公众号、知乎、小红书等平台搜索关键词,进行阅读总结或翻译。电子商务:在淘宝上购买特定尺码的羽绒服并完成购买流程。
上一篇:TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像
相关资讯 更多+
  • GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建
    GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建

    GLM-PC是智谱AI基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜索总结等任务,并支持远程和定时操作。GLM-PC能模拟人眼看、脑规划、手执行的方式使用电脑,具备跨平台能力,不依赖HTML或API,有更高的能力上限。

    AI教程资讯 2023-04-14

  • TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像
    TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像

    TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同,TryOffDiff的目标是从参考图像中提取出规范的服装图像。

    AI教程资讯 2023-04-14

  • GLM-Edge – 智谱开源的端侧大语言和多模态系列模型
    GLM-Edge – 智谱开源的端侧大语言和多模态系列模型

    GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1 5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1 5B 2B模型主要面向手机、车机等平台、4B 5B 模型主要面向PC等平台。基于GLM-4系列技术积累,调整模型结构和尺寸,实现模型性能、实机推理效果和落地便利性之间的最佳平衡。

    AI教程资讯 2023-04-14

  • FlagevalMM – 智源开源的多模态模型评测框架
    FlagevalMM – 智源开源的多模态模型评测框架

    FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程,提升评测效率,便于快速适配新任务和模型。

    AI教程资讯 2023-04-14

最新录入 更多+
确定