早就想利用大模型实现操作的功能了,但是一直没什么思路,因为大模型总是只能输出文字或者代码,但是代码不总是准确能执行,倒不如大模型输出的代码基本是需要修改才能运行的,无论是环境还是屏幕分辨率都存在细微的差别,大模型视觉识别的精度也比较差,如果只是识别文字,那当然没什么问题,但是如果要识别到某个像素这就很困难了,而自动化操作的api基本是靠像素点来确定的,就算你传入的图像是高像素的,大模型在处理的时候通常都会进行压缩操作,针对常用的app还能去适配,对于小众的app基本不可能去适配,但是荣耀MagicOS 9.0的yoyo宣称零适配任意应用!