ИИ для глубокой интерпретации качества речи и атипичных голосов

Микрофон

Apple представила новое исследование в области искусственного интеллекта, посвящённое не только распознаванию речи, но и интерпретации того, как она произносится. Это принципиально новый подход, который может значительно расширить возможности accessibility на устройствах компании.

Ключевая инновация — Voice Quality Dimensions (VQD):
Apple внедрила фреймворк для анализа речи по так называемым “измерениям качества голоса” (Voice Quality Dimensions). К ним относятся:

  • Интеллигибельность (понятность речи).
  • Нечёткие согласные (размытые или смазанные согласные).
  • Грубость голоса (шероховатый, напряжённый тембр).
  • Натуральность (естественность звучания).
  • Монотонность по громкости (отсутствие динамики по громкости).
  • Монотонность по тону (отсутствие интонационных перепадов).
  • Дыхательность (воздушный, шепчущий оттенок голоса).

Именно эти параметры традиционно анализируют логопеды и специалисты по нарушениям речи при диагностике заболеваний, связанных с неврологией или поражением голосового аппарата. Теперь Apple обучает свои модели выявлять эти признаки автоматически.

Как это работает:
Большинство современных моделей распознавания речи обучены на “здоровых” голосах, из-за чего они часто не справляются с атипичной речью — например, у людей с болезнью Паркинсона, БАС или ДЦП. Apple использовала крупный открытый датасет с аннотированной атипичной речью и обучила лёгкие диагностические модели (probes), которые накладываются поверх существующих систем распознавания речи.

Вместо того чтобы просто транскрибировать речь, эти модели анализируют, как звучит голос, по семи основным параметрам. Для извлечения аудиофичей использовались пять моделей: CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE. Далее probes предсказывали значения VQD на основе этих признаков. Результаты показали высокую точность по большинству измерений, хотя для некоторых параметров точность варьировалась.

Преимущества подхода:

  • Объяснимость: Модель не просто выдаёт “чёрный ящик” с оценкой, а может указать конкретные голосовые признаки, повлиявшие на классификацию. Это крайне важно для клинической диагностики и прозрачности AI-систем.
  • Дальнейшее применение: Apple протестировала систему и на эмоциональной речи (датасет RAVDESS). Даже без обучения на эмоциональном аудио, VQD-модели выдали интуитивно понятные оценки: например, злые голоса были менее монотонны по громкости, спокойные — менее грубые, а грустные — более монотонные. В перспективе это позволит сделать голосовых ассистентов, таких как Siri, более эмпатичными и адаптивными к состоянию пользователя.

Apple делает серьёзный шаг в сторону клинически значимых, объяснимых и инклюзивных AI-технологий для анализа речи. Это открывает новые горизонты не только для диагностики и реабилитации, но и для развития более “человечных” голосовых интерфейсов в экосистеме iOS и macOS.

Подписывайтесь на наш Telegram, VK.
MacNoob - живая помощь с iPhone и MAC
Добавить комментарий

Вы можете подписаться на новые комментарии к статье без комментирования.