字节这操作,让人惊掉下巴!
这些能力的核心,是它能读懂手机屏幕上的各种按钮、文本和界面元素,然后模拟点击、输入、滑动等操作,完全像一个人拿着你的手机在操作一样。比如你说一句“帮我全网比价并下单”,豆包手机助手就会自动打开不同电商平台,搜索同款商品、比价格和配置,还会顺带帮你领券,最后把最便宜的那款放进购物车。这是一个面向手机厂商的系统级服务,它将豆包大模型深度融入操作系统,让用户只需动嘴,AI就能像人一样去操作手机中的应用,
最近,抖音旗下的豆包团队发布了“豆包手机助手”的技术预览版。
这是一个面向手机厂商的系统级服务,它将豆包大模型深度融入操作系统,让用户只需动嘴,AI就能像人一样去操作手机中的应用,
比如你说一句“帮我全网比价并下单”,豆包手机助手就会自动打开不同电商平台,搜索同款商品、比价格和配置,还会顺带帮你领券,最后把最便宜的那款放进购物车。遇到付款这种敏感步骤,它会提示你自己完成,避免风险。

此外,它还能按照你的指令在不同应用之间自由切换,完成查票订票、购买商品、批量下载文件、多平台查物流等一系列任务,几乎不需要你动手。
这些能力的核心,是它能读懂手机屏幕上的各种按钮、文本和界面元素,然后模拟点击、输入、滑动等操作,完全像一个人拿着你的手机在操作一样。也就是说,AI 能直接控制系统、跨 App 执行任务,甚至和硬件按键联动。
豆包之前已经和车企合作,这次又开始和手机厂商深度对接,可以看出字节正在不断为豆包寻找更多真正能落地的大规模使用场景。
不过,豆包这样的操作,应该很难成功,因为他直接架空了各大APP,肯定会遭到其他厂商的抵制。
毕竟,现在各大厂商为了争夺流量入口大打出手,为了一个外卖入口,就各种内卷,各种补贴,你让他们把用户流量让给你豆包?怎么可能?!
一旦这些厂商用技术封锁、协议限制、法律手段来反制,豆包助手的使用体验必然会大幅下滑。
反倒是腾讯、阿里这种有完整生态链的,做 AI Agent 的阻力会小很多。它们能直接调用自家 API,不用走模拟点击那套路线,自然更稳定。字节的生态相比这两家还是弱不少。
手机厂商也不是没机会,从系统底层动手能做到的事情反而更多。比如小米,自己就有 MiMo,多模态能力一直在迭代,小爱同学甚至已经能做到订外卖、看屏幕、给你解释内容这些。对小米而言,豆包能实现的功能,大多数他们也能做,只是豆包更有动力和第三方深度合作。
当然,往下限去考虑,这件事是否有那么重要?
手机生态已经非常成熟,能明显影响用户体验的点其实很少。而且用户也未必相信 AI 给出的结果。如果豆包比价不准、订票订错,你还是会自己上手操作。
iPhone会是关键观察样本。如果苹果没有推出 GUI Agent 也活得很好,那这条路线就难说是“未来”。其他厂商跟进的动力自然下降。(苹果倒是有端侧识屏 AI,但进度实在太慢了。)
总的来说,豆包这是一次很大胆的尝试,但要想真正改变行业格局,可能性并不大。
推荐阅读:广州值得加入的互联网公司
此外,我建立了各大城市的产品交流群,想进群小伙伴加微信:chanpin626 我拉你进群。(加过微信:chanpin628或yw5201a1的别加,分享内容一样,有一个号就行)

关注微信公众号:产品刘 可领取大礼包一份。

··················END··················

RECOMMEND
推荐阅读

点击“阅读原文”
查看更多干货
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)