Skip to content

电脑贾维斯-智谱CogAgent初试

约 1947 字大约 6 分钟

CogAgent智谱AI电脑操作

2025-01-25

前言

大家对钢铁侠的智能助手“贾维斯”应该非常熟悉,这不,智谱发布了PC版本的“贾维斯” —— 勇敢“牛牛”(官方名称:GLM-PC,昵称:牛牛,这名字很牛)。

它不是对话工具、不是编码助手、也不是RPA,而是一种基于视觉效果进行识别,通过大模型实现分析、推理以及操作的工具。

只需要像对话一样发送指令,“牛牛”就像人一样“观察”、“思考”、“操作”,然后给出结果。

智谱GLM-PC

简介

以下直接使用官方介绍,方便大家精准了解一下。

GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。

自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来,我们不断优化升级,最新推出了「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。此外,我们也提供了对 Windows 系统的支持。

申请

目前采用申请制,过程非常简单,填写申请表,批量审批通过,我23号申请的,24号上午就已经开通了。

上文官网链接打开后如下。

20250124154019

填写申请表,加入用户群等待通知即可。

20250124154051

安装

上文官网顶部“内测下载”。

20250124154227

打开下载界面。

20250124154253

安装过程非常简单,如果不放心,可以参考官方文档。

https://cogagent.aminer.cn/static/agreement/安装指南.pdf

尝试

微信发祝福语(极速模式)

尝试下操作微信给好友发送新年祝福。

发送指令

指令:

给我一段有意思的春节祝福语,不要过长,发送给微信的“董鹏飞”

20250124141216

执行过程

以下步骤全部由“牛牛”自动执行,无人工干预。

  1. 自动调用模型生成祝福语。

2025012414162720250124141743

  1. 启动微信程序。

20250124141929

  1. 选择好友对话框。

20250124141857

  1. 确认发送。最终敏感操作需要人工确认,这个体验挺好的。

20250124142020

结果

最后一条是最终的效果。

20250124150455

个人体会:

  1. 整体过程是很不错的,个人感觉以下几点做的还是相当好的:
    • 开启微信。
    • 定位好友。
    • 确认发送的人工确认模式。
  2. 一些需要优化的点:
    • “深度思考”模式下微信开启状态识别有错误,已经打开微信,但是提示尚未开启,看群里不只是我这边个例。
    • 语言模型对当前时间不敏感,无法自动帮我推理出来祝福语中应该是蛇年。

搜索内容并总结(深度思考模式)

尝试下搜索指定内容并通过模型总结。

发送指令

使用百度搜索2025年春运高速通行免费信息,并整理成一段简短的概括文字

20250124150925

执行过程

  1. 打开百度。

20250124151226

  1. 搜索2025年春运高速通行免费。

此处发生以下偏差:由于搜索动作,有些是通过百度首页,有些通过搜索栏,此处“牛牛”选择了搜索栏,但是我的搜索栏设置的是“必应”。

20250124151525

  1. 浏览并挑选合适结果进入详情。

20250124151640

  1. 浏览详情并总结。

20250124151733

结果

20250124151854

个人体会

  1. 整体使用体验良好,成熟之后应用于搜索并整理资料的场景估计会提高很多效率。
  2. 需要优化的点:
    • 对搜索入口的处理不太精确:
      • 有时候打开了百度,又会找其他页签
      • 有时候通过主页进入搜索,有时候通过网址进入搜索
    • 搜索场景流程不够灵活,如果碰到搜索引擎给出聚合结果,结果详情页面其实是列表页面,此时,“牛牛”还是当做正文页面识别,出现错误。

总结

整体试用下来,感觉设计思路、实现效果已经远超预期了,毕竟,这应该是国内首例了。

后续我会为大家分享更多的复杂场景,大家感兴趣也可以尽快尝试一下。