Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Начало работы
  • Распознавание речи
    • О технологии
    • Потоковое распознавание
    • Распознавание аудиофайлов
      • Синхронное распознавание
      • Асинхронное распознавание
    • Модели распознавания
    • Расширение модели распознавания речи
    • Загрузка данных для дообучения модели
  • Синтез речи
    • О технологии
    • Список голосов
    • Настройка генерации речи
    • Использование SSML
    • Список поддерживаемых фонем в SSML
    • SpeechKit Brand Voice
      • О технологии SpeechKit Brand Voice
      • Формат входных данных Brand Voice Adaptive
      • Загрузка данных для Brand Voice
  • Форматы аудио
  • Интеграция телефонии
  • Использование API
    • Аутентификация в API
    • Формат ответа
    • Диагностика ошибок
    • Справочники API распознавания
      • API v2
        • API потокового распознавания
        • API синхронного распознавания
        • API асинхронного распознавания
      • API v3 gRPC (англ.)
        • Overview
        • Recognizer
    • Примеры использования API распознавания
      • Потоковое распознавание API v3
      • Потоковое распознавание API v2
      • Синхронное распознавание API v2
      • Асинхронное распознавание формата LPCM — API v2
      • Асинхронное распознавание формата OggOpus — API v2
    • Справочники API синтеза
      • API v1
      • API v3 gRPC (англ.)
        • Overview
        • Synthesizer
    • Примеры использования API синтеза
      • Синтез API v3
  • SpeechKit Hybrid
    • О технологии
    • Системные требования
    • Синтез речи
    • Распознавание речи
    • Мониторинг
    • Справочники API gRPC (англ.)
      • Аутентификация в API
      • Синтез речи
        • Overview
        • Synthesizer
      • Потоковое распознавание
        • Overview
        • Recognizer
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Релизы
    • Релизы распознавания
    • Релизы синтеза
    • Архив релизов
  • Публичные материалы
  • Вопросы и ответы
  1. Распознавание речи
  2. Расширение модели распознавания речи

Расширение модели распознавания речи

Статья создана
Yandex Cloud
  • Автотюнинг
  • Дообучение модели
    • Данные для дообучения
    • Загрузка данных для дообучения
    • Тестирование качества дообучения
    • Сроки готовности модели

SpeechKit предоставляет два способа, которыми можно повысить качество распознавания речи.

Автотюнинг

По умолчанию SpeechKit не сохраняет переданные пользователем данные. Однако самый эффективный способ улучшать модель распознавания речи — это обучать ее на реальных пользовательских данных.

Чтобы повысить качество распознавания, вы можете использовать автотюнинг модели. Автотюнинг позволит сохранять переданные в запросах данные и использовать их для дальнейшего обучения. Для этого API-запросах указывайте HTTP-заголовок x-data-logging-enabled: true. Пример запроса с включенным логированием см. в разделе Диагностика ошибок.

Автотюнинг позволяет повышать качество распознавания в процессе работы модели без дополнительных действий с вашей стороны.

Дообучение модели

Основная модель распознавания речи предназначена для работы с общей лексикой, однако ее может быть недостаточно для распознавания специфичной лексики. С помощью дообучения модель можно научить распознавать доменно-специфичные термины из разных областей:

  • медицина — диагнозы, биологические термины, названия лекарств;
  • бизнес — названия компаний;
  • торговля — номенклатура товаров (ювелирные изделия, электротехника и т.п.);
  • финансы — банковские термины и названия банковских продуктов.

Данные для дообучения

Для дообучения необходимы следующие данные:

  • Глоссарий — полный список терминов. В глоссарии могут содержаться как слова, присутствующие на аудиозаписях для тестирования, так и другая лексика. Глоссарий должен быть предоставлен в отдельном файле, каждый термин размещается в файле на отдельной строке.
  • Текстовые шаблоны — однородные фразы, на основе которых модель будет синтезировать высказывания. Длина шаблона вместе с переменными не должна превышать 200 символов.

Глоссарий и текстовые шаблоны должны быть представлены в формате TSV в нормализованном виде:

  • Числительные — расшифрованы прописью.
  • Латинские слова и символы — заменены на транскрипцию.
  • Сокращения — полностью прописаны.
  • Аббревиатуры — расшифрованы полностью или заменены на транскрипцию.

— Безвозмездно, т.е. даром, отдадим 2 кг картошки, модель спирали ДНК и журналы Cloud of Science за 2020 г.
— Безвозмездно, то есть даром, отдадим два килограмма картошки, модель спирали дэ эн ка и журналы Клауд оф сайенс за две тысячи двадцатый год.

Из полученных файлов будут подготовлены текстовые данные. В переменную часть шаблонов подставляются термины из глоссариев. Чтобы дообучение было эффективным, необходимо достаточное количество данных:

  • Не менее 1 тысячи высказываний.
  • Не менее 3-5 фраз, желательно пропорционально частоте использования термина в реальных задачах.

Например, файлы-глоссарии first-name.tsv, middle-name.tsv и last-name.tsv для дообучения модели колл-центра могут содержать имена, отчества и фамилии клиентов.

first-name.tsv middle-name.tsv last-name.tsv
Никита
Кирилл
Павел
...
Александрович
Петрович
Казимирович
...
Романов
Алексеев
Кукушкин
...

Если фразы-шаблоны предполагают, что термины из глоссария могут склоняться, для каждой формы нужно создать отдельный файл-глоссарий. Например, файлы с именами в творительном падеже будут содержать записи:

first-name-ablative.tsv middle-name-ablative.tsv last-name-ablative.tsv
Никитой
Кириллом
Павлом
...
Александровичем
Петровичем
Казимировичем
...
Романовым
Алексеевым
Кукушкиным
...

Тогда файл с шаблонами templates.tsv может состоять из записей вида

Добрый день, вы {first-name=first-names.tsv} {middle-name=middle-names.tsv} {last-name=last-names.tsv}?
Здравствуйте, я могу поговорить с {first-name=first-names-ablative.tsv} {middle-name=middle-names-ablative.tsv}?

Загрузка данных для дообучения

О том, как загрузить данные для дообучения, см. раздел Импорт данных для дообучения модели.

Тестирование качества дообучения

Для тестирования обученной модели используются следующие наборы данных:

  1. Корзина для оценки конкретной задачи, сформированная на основе полученных аудиозаписей.
  2. Корзина для оценки общей лексики.
  3. (Опционально) Аудиозаписи длительностью не менее 1 часа для оценки качества дообучения модели. Структура записанных высказываний должна повторять предоставленные шаблоны.

Оценка качества распознавания речи выполняется на основе метрики WER (Word Error Rate). Чем меньше полученная метрика, тем точнее распознан фрагмент речи. Дообучение считается успешным, если качество распознавания специфичной лексики значительно улучшилось, и при этом качество распознавания общей лексики также улучшилось или не изменилось. Самостоятельно оценить качество распознавания речи можно в Yandex DataSphere.

Если новая версия модели после дообучения удовлетворяет требованиям метрик оценки качества, она будет подготовлена к релизу в статусе general:rc.

Сроки готовности модели

Изменения поступают в модель general:rc в течение 4 недель по стандартному циклу подготовки релиза.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Автотюнинг
  • Дообучение модели
  • Данные для дообучения
  • Загрузка данных для дообучения
  • Тестирование качества дообучения
  • Сроки готовности модели