近日,清华大学联合智谱AI推出了新一代图像理解大模型CogAgent。该模型具备1120*1120超高分辨率的识别能力,不仅视觉问答、视觉定位能力有了大幅的提升,支持了多轮对话,而且还具备基于视觉的GUI Agent能力。
甚至我们可以……原神,启动!
User:Who are the teammates on the current mission? 当前任务中的队友是谁呢?
User:I'm looking for guidance on how to "Find out how to view a detailed map"? 我想了解如何“查看详细地图”?
CogAgent:Plan: 1. Identify the map icon on the screen. 2. Click on the map icon to open the detailed map view. 计划:1. 确定屏幕上的地图图标。2. 点击地图图标打开详细地图视图。
Next Action: Move the cursor over the top left corner of the screen and click on the compass-like icon with 'N' inside it. 下一步操作:将光标移动到屏幕左上角处,点击内有“N”的类似指南针的图标即可。
看来以后玩游戏可以少带点脑子了