Google обновляет свои речевые API с улучшенными функциями

Google обновил свои API  интерфейсы Text-to-Speech и Speech-to-Text с рядом улучшений функций наряду с поддержкой большего количества языков.

Для многих разработчиков добавление 17 новых голосов на основе WaveNet для различных языков станет основным моментом сегодняшнего обновления.

WaveNet — это технология Google, которая использует машинное обучение для создания естественного звучания голоса при выполнении преобразования текста в речь.

Text-to-Speech теперь поддерживает в общей сложности 30 стандартных голосов и 26 голосов WaveNet на 14 языках.

Среди новых функций — добавление «аудио-профилей» для настройки выхода для используемого динамика. Например, выход для наушников, звуковых панелей или встроенного динамика телефона будет лучше всего звучать при пользовательской настройке.

С другой стороны, Speech-to-Text также получил значительные улучшения.

Наиболее впечатляющей особенностью является возможность распознавать несколько динамиков в записи голоса для автоматической транскрипции. Однако количество докладчиков должно быть указано заранее.

Наряду с поддержкой дополнительных языков преобразования текста в речь, Google также поддерживает больше для преобразования речи в текст. После выбора до четырех языков API автоматически определит, на каком языке говорят.

Наконец, добавление «оценки достоверности слова» помогает обеспечить точность.

С каждым запросом Speech-to-Text API будет возвращать показатель достоверности, что он правильно услышал слово, прежде чем сделать его действующим. Если возвращается низкая достоверность, и важно сделать это правильно, разработчик может предложить пользователю повторить.

«Например, если пользователь вводит« пожалуйста, назначьте встречу с Джоном на завтра в 2 часа дня »в свое приложение, вы можете предложить пользователю повторить« Джон »или« 2 часа дня », если либо у вас низкий уровень доверия, но не повторять за «пожалуйста», даже если имеет низкую достоверность, так как это не критично для этого конкретного предложения », — объясняет команда.

Учитывая трудности, с которыми некоторые службы распознавания голоса сталкиваются с моим акцентом, эта последняя функция может помочь уменьшить неловкие ошибки.

Добавить комментарий

Войти с помощью: