近日,清華大學聯合智譜AI推出了新一代圖像理解大模型CogAgent。該模型具備1120*1120超高分辨率的識別能力,不僅視覺問答、視覺定位能力有了大幅的提升,支持了多輪對話,而且還具備基於視覺的GUI Agent能力。
甚至我們可以……原神,啟動!
User:Who are the teammates on the current mission? 當前任務中的隊友是誰呢?
User:I'm looking for guidance on how to "Find out how to view a detailed map"? 我想了解如何“查看詳細地圖”?
CogAgent:Plan: 1. Identify the map icon on the screen. 2. Click on the map icon to open the detailed map view. 計劃:1. 確定屏幕上的地圖圖標。2. 點擊地圖圖標打開詳細地圖視圖。
Next Action: Move the cursor over the top left corner of the screen and click on the compass-like icon with 'N' inside it. 下一步操作:將光標移動到屏幕左上角處,點擊內有“N”的類似指南針的圖標即可。
看來以後玩遊戲可以少帶點腦子了