Apple представляет UniGen 1.5: единую ИИ-модель для просмотра, создания и редактирования изображений

UniGen 1.5

Apple представила UniGen 1.5 — инновационную модель ИИ, которая объединяет в себе возможности понимания изображений, их генерации и редактирования в единой архитектуре, без необходимости в отдельных модулях для каждой задачи. Разработчики из Apple взяли за основу предыдущую UniGen, добавив постобучение под названием Edit Instruction Alignment, где модель сначала генерирует детальное текстовое описание желаемого результата редактирования на основе исходного изображения и инструкции, а затем применяет reinforcement learning с унифицированной системой вознаграждений для генерации и правок.

Эволюция от UniGen к 1.5

Исследователи отметили ключевую проблему: стандартные модели слабо справляются с тонкими или специфическими правками, поскольку плохо интерпретируют инструкции. Новый этап Edit Instruction Alignment решает это, обучая систему предсказывать семантику целевого изображения через текст, что повышает точность перед финальной генерацией. Далее применяется RL с общим механизмом наград, адаптированным под диапазон от мелких корректировок до радикальных трансформаций, что позволяет модели эффективно работать в едином фреймворке.

Результаты на бенчмарках

UniGen 1.5 демонстрирует лидерство на тестах GenEval (0.89) и DPG-Bench (86.83), обходя такие модели, как BAGEL и BLIP3o, а в редактировании изображений набирает 4.31 на ImgEdit, превосходя OminiGen2 и приближаясь к проприетарным аналогам вроде GPT-Image-1. Примеры показывают убедительную генерацию по тексту и правки, где модель точно следует указаниям, сохраняя визуальное качество. Однако слабые места остаются: генерация текста с ошибками в символах и потеря идентичности объектов, например, изменение текстуры шерсти у кошки или цвета перьев птицы.

Перспективы для Apple

Этот прорыв закладывает основу для будущих мультимодальных моделей в экосистеме Apple, где унифицированный ИИ может интегрироваться в iOS, macOS и приложения вроде Photos или Final Cut Pro, упрощая рабочие процессы для пользователей. Исследователи подчеркивают потенциал для дальнейшего улучшения в текстовой генерации и сохранении идентичности, что сделает модель еще конкурентоспособнее на рынке ИИ для визуального контента. Полный отчет доступен в оригинальной публикации, где детализированы методологии и данные экспериментов.

Подписывайтесь на наш Telegram, VK.
MacNoob - живая помощь с iPhone и MAC
Добавить комментарий

Вы можете подписаться на новые комментарии к статье без комментирования.