Apple создала эффективную языковую модель для глубокого понимания длинных видео

Apple AI

Apple разработала специализированную версию модели SlowFast-LLaVA, чтобы эффективно анализировать и понимать длинные видеозаписи. В основе модели лежит идея, что для понимания видео языковая модель (LLM) должна разбивать видео на отдельные кадры, извлекать из них визуальные признаки, анализировать изменения во времени и сопоставлять это с языковым описанием. При этом классический подход обработки каждого кадра является неэффективным из-за большого количества повторяющейся информации, что приводит к превышению контекстного окна модели — максимального объема информации, которую она способна удержать одновременно.

Проблемы существующих видеомоделей, отмеченные исследователями Apple, касаются трех ключевых моментов: зависимость от длинных контекстов и большого количества кадров (что снижает переносимость на меньшие модели), сложность многоэтапного обучения с использованием закрытых данных и узкая специализация моделей только на видео, что ограничивает их универсальность.

Apple адаптировала SlowFast-LLaVA, опираясь на двухпоточный принцип: медленный поток анализирует меньшее количество кадров с высоким разрешением для определения содержания, а быстрый — большее количество кадров с меньшим уровнем детализации для отслеживания движений. Модель сначала дообучалась на изображениях для формирования базовых визуальных навыков, затем совместно на публичных наборах данных изображений и видео, что позволило ей усвоить временную структуру без потери качества понимания изображений.

Результатом стала серия моделей SlowFast-LLaVA-1.5 с параметрами 1B, 3B и 7B, которые превосходят более крупные аналоги по ряду задач, касающихся длинных видео, включая бенчмарки LongVideoBench и MLVU. Особенно впечатляет производительность самого маленького варианта модели (1B). Также модель хорошо показывает себя и на задачах с изображениями, требующих знаний, математической логики, оптического распознавания символов и работы с текстом.

Технический компромисс заключается в максимальном входном объеме в 128 кадров — 96 из которых идут в быстрый поток, а 32 — в медленный, равномерно распределенные по длине видео. Такой подход ограничивает модель в восприятии всех ключевых кадров длинных видео и может ввести в заблуждение относительно скорости воспроизведения видео. Улучшение возможно за счет более тонкой настройки параметров и визуального энкодера, однако высокая стоимость памяти для кэширования активаций усложняет дообучение на длинных видео. В будущих исследованиях предполагается применение методов экономии памяти, например, стохастического обратного распространения ошибки.

В итоге, Apple создала передовую и сравнительно компактную видеомодель, обученную на публичных данных, делая ее доступной для сообщества через GitHub и Hugging Face. Этот прорыв открывает новые возможности для анализа длинных видеозаписей с помощью языковых моделей, что важно для множества приложений от понимания контента до интерактивных ассистентов.

Такой ход Apple демонстрирует акцент компании на оптимизации и универсальности искусственного интеллекта для видеоконтента с сохранением высокой эффективности и качества распознавания, что является значительным шагом вперед в развитии технологий машинного восприятия и обработки видео.

Подписывайтесь на наш Telegram, VK.
MacNoob - живая помощь с iPhone и MAC
Добавить комментарий

Вы можете подписаться на новые комментарии к статье без комментирования.