Apple разрабатывает локального ИИ-агента Ferret-UI Lite, который с всего 3 миллиардами параметров взаимодействует с интерфейсами приложений напрямую на устройстве, без облачных серверов. Эта модель, основанная на предыдущих работах Ferret и Ferret-UI, решает проблему обработки мобильных UI-экранов, где мелкие элементы вроде иконок и текста требуют повышенной детализации.
Архитектура и оптимизации
Ferret-UI Lite использует динамическое кроппинг и зум на этапе инференса: модель сначала предсказывает область интереса, обрезает её и анализирует заново, компенсируя ограничения малого размера по сравнению с 72-миллиардными аналогами. Для обучения задействована многоагентная система, генерирующая синтетические данные из реальных взаимодействий с Android, веб- и десктоп-GUI в бенчмарках вроде AndroidWorld и OSWorld. Она имитирует ошибки, неожиданные состояния и стратегии восстановления, что делает данные ближе к реальным сценариям.
Производительность и применение
Модель превосходит или равна конкурентам в 24 раза крупнее по параметрам в задачах grounding и коротких взаимодействий, но уступает в многошаговых сценариях из-за аппаратных ограничений устройств. Это открывает путь к приватным агентам на iPhone или MacBook, где ИИ автономно кликает, вводит данные и навигирует по приложениям по голосовым командам пользователя. Исследователи подчёркивают фокус на on-device работе для конфиденциальности данных.
Перспективы интеграции в экосистему Apple
Ferret-UI Lite эволюционирует семейство Ferret, начатое в 2023 году для any-granularity распознавания в изображениях, теперь адаптированное под UI с поддержкой высокого разрешения и платформ. Хотя тесты шли на не-Apple окружениях, архитектура идеально ложится в Apple Intelligence, усиливая Siri или будущие ассистенты на устройствах с A- или M-чипами. Полная статья исследования доступна по оригинальной ссылке для детального разбора бенчмарков.
