В 2025 году Apple представила инновационный подход к обучению своих ИИ-моделей, который позволяет использовать пользовательские данные для повышения качества Apple Intelligence, при этом не нарушая приватность. Давайте разберёмся, как устроена эта система, почему она важна и какие у неё есть перспективы.
Проблема синтетических данных
До недавнего времени Apple обучала свои ИИ-модели преимущественно на синтетических данных. Такой подход полностью исключает использование реальных писем и сообщений пользователей, что соответствует принципам конфиденциальности компании. Однако синтетические данные не всегда отражают реальные сценарии общения: они плохо подходят для сложных задач, таких как анализ длинных писем, построение резюме или генерация релевантных ответов. В результате качество работы ИИ-функций было ограничено.
Новый подход: сравнение с реальными письмами на устройстве
Apple внедряет систему, в которой синтетические сообщения сравниваются с реальными письмами пользователей, но исключительно на устройстве, без передачи данных в облако. Процесс выглядит так:
- Apple генерирует большой набор синтетических сообщений, имитирующих разные стили и темы переписки.
- Для каждого сообщения создаётся embedding — специальное математическое представление его смысла и структуры.
- Эти embedding отправляются на устройства пользователей, которые согласились участвовать в программе Device Analytics.
- Устройство локально выбирает небольшую выборку реальных писем пользователя, вычисляет для них embedding и определяет, какие из синтетических embedding наиболее похожи на реальные сообщения.
- На сервер Apple отправляется только информация о том, какие embedding оказались наиболее релевантными. Содержимое писем при этом не передаётся.
- Apple агрегирует эти обезличенные сигналы с множества устройств, чтобы понять, какие синтетические сообщения лучше всего отражают реальные паттерны общения. Эти данные используются для дообучения и тестирования ИИ-моделей.
Дифференциальная конфиденциальность
В основе системы лежит принцип дифференциальной конфиденциальности. Это значит, что в агрегируемые данные добавляется случайный шум, чтобы даже при анализе большого количества сигналов невозможно было восстановить информацию о конкретном пользователе. Данные никогда не покидают устройство в открытом виде, а Apple получает только обобщённую статистику.
Преимущества и ограничения
Главное преимущество подхода Apple — возможность улучшать качество ИИ без доступа к личным данным пользователей. Это позволяет компании сохранять свои строгие стандарты приватности и одновременно догонять конкурентов по качеству ИИ-сервисов. Такой метод масштабируется на миллионы устройств и не требует хранения пользовательских писем на серверах.
Однако у системы есть и ограничения. Во-первых, участие в программе возможно только с согласия пользователя. Во-вторых, объём данных для обучения ограничен, а качество синтетических данных напрямую влияет на итоговую эффективность модели. Кроме того, реализация и проверка безопасности такой системы требует значительных усилий.
Перспективы и влияние на рынок
Apple открыто признаёт, что в области ИИ пока уступает OpenAI и Google, которые могут обучать свои модели на реальных пользовательских данных. Новый подход позволяет Apple значительно повысить качество своих ИИ-функций — например, генерации резюме писем, умных ответов и Writing Tools — не жертвуя приватностью. Если система окажется успешной, она может стать новым стандартом для индустрии, где защита данных становится всё более важной.
Внедрение технологии начнётся с бета-версий iOS 18.5 и macOS 15.5. Это может стать значимым шагом как для Apple, так и для всей отрасли.
Apple делает ставку на технологию, которая позволяет использовать пользовательские данные для обучения ИИ без риска раскрытия личной информации. Такой подход может стать компромиссом между качеством и приватностью, а также задать новую планку для всей индустрии потребительских технологий.