Apple представила Manzano — унифицированную мультимодальную модель большого языка, которая одновременно решает задачи визуального понимания изображений и генерации изображений по текстовым описаниям. Эта разработка устраняет ключевой конфликт существующих моделей: понимание требует непрерывных эмбеддингов для детального анализа, а генерация — дискретных токенов для последовательного предсказания.
Гибридный токенизатор
Гибридный токенизатор Manzano использует общий визуальный энкодер на базе ViT, подключенный к двум легковесным адаптерам: непрерывному для понимания (сжатие STC 3×3 и проекция MLP в пространство LLM) и дискретному для генерации (FSQ-квантизация с кодбуком 64K и проекция). Такой подход обеспечивает единое семантическое пространство токенов, минимизируя конфликт задач в LLM-декодере, который предсказывает последовательности текста или дискретных визуальных токенов авторегрессивно. Диффузионный декодер DiT-Air (от 0.9B до 3.52B параметров) преобразует предсказанные токены в пиксели с прогрессивным ростом разрешения до 2048×2048.
Тренировочный процесс
Токенизатор предварительно обучают на данных понимания с малым LLM (300M), затем основной LLM-декодер (от 300M до 30B) — на смеси 1.6T токенов: 40% понимание изображений (2.3B пар + interleaved), 40% генерация (1B пар), 20% текст. Продолжающая предобучение на 83B высококачественных токенов и SFT на инструкционных данных (41% понимание, 45% генерация) балансируют веса лоссов (текст:изображение = 1:0.5). Декодер обучают отдельно на flow-matching с синтетическими подписями.
Результаты производительности
Модель Manzano-3B превосходит унифицированные аналоги вроде Janus-Pro-7B и Bagel-14B по пониманию (например, 88.2% на ChartQA, 85.7% на OCRBench) и генерации (77% GenEval, 35% WISE), конкурируя со специалистами вроде Qwen2.5VL-3B и SD3. Масштабирование LLM до 30B дает монотонный прирост: +10-18% по категориям понимания и +12% по WISE. Человеческая оценка подтверждает улучшение структурной целостности при росте декодера.
Возможности редактирования
Manzano расширяет функционал на редактирование: совместное кондиционирование LLM и декодера на референсных изображениях позволяет выполнять instruction-guided editing, стиль-трансфер, inpainting/outpainting и depth estimation с сохранением семантики и пиксельного контроля.
