microsoft/OmniParser: A simple screen parsing tool towards pure vision based GUI agent
04-14-2025
Link:
https://github.com/microsoft/OmniParser
Note:
OmniParser 是一个全面的屏幕解析工具,可以将用户界面截图解析为结构化和易于理解的元素,大大增强了 GPT-4V 生成可准确定位到界面相应区域的操作的能力。
← Back to articles