Github 开源智谱打起的AI手机第一�?

推荐阅读

�?  Github 资料项目合集

•   50�?AI 开源项目合集•   AI 学习资料

  • 戳上方蓝字�?牛皮糖不吹牛*”关注我

大家好,我是牛皮糖!前面豆包手机火遍了整�?AI 圈,但是很快被所有的APP 所排挤�?AI 手机的热度就慢慢的下去了,但是后面智谱直接开源底�?AI 代码 AutoGLM ,并且直接支持商用,代码教程完�?—�?这一手就如同把葵花宝典直接公开。你学也不是,不学也不是。�?

I. 项目概述与核心模�?

Open-AutoGLM 是由智谱清言(Zhipu Qingyan)开源的一项框架,其开发团队历经两年打磨。该项目在发布后短短两天内,就获得了高关注度�?

*项目核心模型�? 本次开源同时带来了 H2GM 视觉语言模型�?

  • •�?参数量:* 该模型参数量�?9B�?

  • •�?多模态能力:* 这是一个多模态模型,能够理解屏幕内容,并根据自然语言描述自动完成各种手机操作�?

  • •�?发布意义�? 针对大厂商以隐私等理由拒绝了“豆包”等AI工具访问其应用的情况,Open-AutoGLM 提供了开源框架,可衍生出许多*个性化定制�?AI 智能�?(AI Agent)�?

II. 核心功能与技术特�?

Open-AutoGLM 主要通过三大核心能力实现手机自动化控制�?

  1. 多模态屏幕理解该功能基于 9B 参数的视觉模型。它能够智能识别屏幕上的*文字、图标、按�?�?UI 元素,从而准确理解当前界面和可操作区域�?

  2. 智能任务规划框架内置了�?18 条智能决策规�?,使其能够自动分解复杂任务。它还能处理各种异常情况,例如网络问题、页面加载失败或操作失败等�?

*部分智能决策规则示例�?

  • •�?加载等待策略�? 页面未加载时,最多连续等待三次�?

  • •�?网络重试�? 遇到网络问题,会自动点击重新加载按钮�?

  • •�?智能滑动查找�? 当找不到目标信息时,会尝试滑动页面查找�?

  • •�?购物状态处理:* 处理购物车时,如果购物车内已有商品,它会先清除,然后取消,再去操作指定商品(类似人类操作)。在外卖场景中,它会先清空再购买�?

  • •�?多商品同店购买:* 比如点购外卖时,会尽量在同一饭店购买�?

  1. ADB 自动化控制该项目通过标准的�?*ADB 协议来实现设备控制,并且不需�?Root(L)权�?*即可启动,保障了安全性和可靠性。它支持多达 14 种操作�?

  2. 其他核心特�? •�?相对坐标系统�? 能够试配任意分辨率的屏幕�?

  • •�?敏感操作保护�? 当操作涉及到支付或隐私时,会触发确认回调,用户可以自定义逻辑来防止误操作�?

  • •�?可视化思考过程:* 智能体的思考过程可以被可视化�?

  • •�?智能重试机制*�?

  • •�?OpenAI AI 兼容 API*�?

III. 工作原理及优�?

  1. 工作流程当用户使用自然语言发出指令时(例如:“打开小红书搜索美食攻略”),Open-AutoGLM 的工作原理大致如下:
    1. 通过 ADB 获取当前�?屏幕截图*�?
  • 2. 理解界面并生成“思考过程”�?

    1. 生成*具体的操纵指�?�?
    1. 通过 ADB 来执行指令�?
  1. 相较传统自动化脚本的优势- •�?内容理解与自适应�? 传统的自动化脚本会固定坐标,若界面发生变化便会失效。�?Open-AutoGLM 理解内容,能够自动适应变化�?
  • •�?弹窗处理�? 传统脚本遇到弹窗可能会卡住,�?AI Agent 能够识别并处理弹窗�?

IV. 支持�?14 种操作指�?

该框架的 14 个操作指令基本涵盖了手机自动化操作的大部分任务:

    1. 启动应用程序�?
    1. 点击指定坐标�?
    1. 输入文本�?
    1. 滑动屏幕�?
    1. 返回上一页�?
    1. 返回桌面�?
    1. 长按操作�?
    1. 双击操作�?
    1. 等待页面�?
    1. 请求用户接管�?
    1. 记录页面内容�?
    1. 总结和评论内容�?
    1. 询问用户选择�?
    1. 任务完成�?

V. 安装与部署指�?

该项目部署相对复杂,需要一定的编程基础支持�?

  1. 环境准备- 1. 安装 ADB 工具�?
    1. 配置安卓设备�?*启用开发者模�?和�?USB 调试�?
    1. 安装 ADBKitB�?

  1. 项目克隆与连�? 1. 安装 Python�?
    1. 克隆项目�?
    1. 验证 ADB 连接�?

  1. 模型部署要求模型部署对硬件有一定的要求�?
  • •�?本地部署要求�? 官方最低要求内�?大于或等�?32GB*�?

  • •�?替代方案�? 可以选择直接调用魔社区(Mo Community)上线的模型,避免自行部署�?

  1. 支持的应用范围项目支持的应用非常广泛,基本上覆盖了我们平时所使用的软件,例如�?
  • •�?社交工具�? 微信、QQ、微博�?

  • •�?购物平台�? 淘宝、京东、拼多多�?

  • •�?生活服务�? 美团外卖等�?

**
**

·················END·················

AI 时代到来,要大公司变小,小公司消失。在当下最好发展一份属于自己的副业 AI + 行业做副业 已经�?4000 名小伙伴加入了,如果你也想着�?AI 时代拥有一份属于自己的 AI 副业 戳链接 加入吧!这是一个赚钱训练营,AI 技能训练营密集的圈子,你可以每年参加各种副业赚钱训练营。公众号后台回复AI 副业星球即可获取26元优惠劵�?

项目地址�?

https://github.com/zai-org/Open-AutoGLM

 

关于AI工具

Github开源文本转语音神器Spark-TTS开源了,克隆声音仅需3秒?

github开源B站UP主都在用的下载神器!Cobalt让你轻松搬运高清素材!

Github 26k Stars 开源换脸神器

Github 开源无代码�?Web 数据提取平台�?分钟内训练机器人自动抓取网页数据