Ferret-UI是一个新的MLLLM,专门为提高对移动UI屏幕的理解而设计。具备引用、定位和推理能力,处理UI屏幕上的任务。具有“任何分辨率”技术,通过放大细节解决小对象识别问题。涉及任务制定、训练样本收集、模型架构与数据集建立等,表现突出在高级任务的对话能力。
点击前往Ferret-UI官网体验入口
需求人群:
适用于移动UI屏幕的理解和操作,提高对UI元素的识别精度。
使用场景示例:
iOS18 的应用界面自动操作 移动应用UI屏幕识别与操作 高级任务中的对话能力展示产品特色:
引用、定位和推理能力 任何分辨率技术 训练样本收集与任务制定 模型架构与数据集建立 高级任务中的对话能力