外观
电脑贾维斯-智谱CogAgent初试
前言
大家对钢铁侠的智能助手“贾维斯”应该非常熟悉,这不,智谱发布了PC版本的“贾维斯” —— 勇敢“牛牛”(官方名称:GLM-PC,昵称:牛牛,这名字很牛)。
它不是对话工具、不是编码助手、也不是RPA,而是一种基于视觉效果进行识别,通过大模型实现分析、推理以及操作的工具。
只需要像对话一样发送指令,“牛牛”就像人一样“观察”、“思考”、“操作”,然后给出结果。
简介
以下直接使用官方介绍,方便大家精准了解一下。
GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。
自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来,我们不断优化升级,最新推出了「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。此外,我们也提供了对 Windows 系统的支持。
- 官网:https://cogagent.aminer.cn
- 用户文档:https://cogagent.aminer.cn/static/agreement/用户手册.pdf
- 技术文档:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
- 案例视频:https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
申请
目前采用申请制,过程非常简单,填写申请表,批量审批通过,我23号申请的,24号上午就已经开通了。
上文官网链接打开后如下。
填写申请表,加入用户群等待通知即可。
安装
上文官网顶部“内测下载”。
打开下载界面。
安装过程非常简单,如果不放心,可以参考官方文档。
https://cogagent.aminer.cn/static/agreement/安装指南.pdf
尝试
微信发祝福语(极速模式)
尝试下操作微信给好友发送新年祝福。发送指令
指令:
给我一段有意思的春节祝福语,不要过长,发送给微信的“董鹏飞”
执行过程
以下步骤全部由“牛牛”自动执行,无人工干预。
- 自动调用模型生成祝福语。
- 启动微信程序。
- 选择好友对话框。
- 确认发送。最终敏感操作需要人工确认,这个体验挺好的。
结果
最后一条是最终的效果。
个人体会:
- 整体过程是很不错的,个人感觉以下几点做的还是相当好的:
- 开启微信。
- 定位好友。
- 确认发送的人工确认模式。
- 一些需要优化的点:
- “深度思考”模式下微信开启状态识别有错误,已经打开微信,但是提示尚未开启,看群里不只是我这边个例。
- 语言模型对当前时间不敏感,无法自动帮我推理出来祝福语中应该是蛇年。
搜索内容并总结(深度思考模式)
尝试下搜索指定内容并通过模型总结。
发送指令
使用百度搜索2025年春运高速通行免费信息,并整理成一段简短的概括文字执行过程
- 打开百度。
- 搜索2025年春运高速通行免费。
此处发生以下偏差:由于搜索动作,有些是通过百度首页,有些通过搜索栏,此处“牛牛”选择了搜索栏,但是我的搜索栏设置的是“必应”。
- 浏览并挑选合适结果进入详情。
- 浏览详情并总结。
结果
个人体会:
- 整体使用体验良好,成熟之后应用于搜索并整理资料的场景估计会提高很多效率。
- 需要优化的点:
- 对搜索入口的处理不太精确:
- 有时候打开了百度,又会找其他页签
- 有时候通过主页进入搜索,有时候通过网址进入搜索
- 搜索场景流程不够灵活,如果碰到搜索引擎给出聚合结果,结果详情页面其实是列表页面,此时,“牛牛”还是当做正文页面识别,出现错误。
- 对搜索入口的处理不太精确:
总结
整体试用下来,感觉设计思路、实现效果已经远超预期了,毕竟,这应该是国内首例了。
后续我会为大家分享更多的复杂场景,大家感兴趣也可以尽快尝试一下。
