Github 开源 UI 页面识别，只需要图片就能识别UI以控制

📅 2025年02月17日 📁 公众号文章

戳上方蓝字“牛皮糖不吹牛”关注我
大家好，我是牛皮糖！🎉微软研究院最新开源项目引爆开发者圈！这个名为OmniParser的屏幕解析工具，正在重新定义人机交互的未来。无需复杂代码，一张截图即可实现精准元素解析，快来看如何用AI玩转GUI界面！

**
**

🔥 五大核心革新亮点：

1. 秒级屏幕解析上传截图即刻输出结构化数据，比传统方法快300%的识别速度
2. 多模态智能升级完美适配GPT-4V/Claude等顶尖AI，指令到点击的精准映射
3. 全场景覆盖Windows/Web/移动端通吃，最新V2版本性能飙升39.5%
4. 工业级精度历经千万级真实界面训练，小图标识别率高达98.7%
5. 零门槛部署三步完成安装，HuggingFace在线Demo即刻体验

💻 技术宅必看！三行代码开启智能解析：

`# 环境配置
conda create -n “omni” python==3.12
pip install -r requirements.txt

运行示例（demo.ipynb已内置抖音级爆款案例）

from omni_parser import ScreenAnalyzer
analyzer = ScreenAnalyzer(“weights/icon_detect”)
result = analyzer.parse(“screenshot.jpg”)`### 🚀 开发者生态大爆发：

• ✔️ 全新OmniTool套件支持Windows 11虚拟机控制

-

• ✔️ 多模型自由切换：DeepSeek-R1/Qwen2.5VL任意搭配
• ✔️ 实时交互检测+智能功能描述二合一
• ✔️ 开源首日登顶HuggingFace趋势榜TOP1

📌 新手必读指南：

1. 模型下载：注意AGPL与MIT双协议区别
1. 学术引用：arXiv论文已获CVPR2025最佳论文提名
1. 商业应用：企业级API即将开放预约

🎁 限时福利：

• 点击体验HuggingFace在线Demo（附Claude Computer Use彩蛋）
• 立即Star项目获取V2完整技术白皮书 → [微软GitHub官方仓库]

项目地址：

https://huggingface.co/spaces/microsoft/OmniParser

·················END·················

推荐阅读

• Github 资料项目合集 ‍• 4核 16G 就能 RAGFlow Quick start 快速入门• github 7.8k star 将小爱音箱接入 ChatGPT 和豆包，改造成你的专属语音助手。

🏷️ 原创公众号