Транскрибация звонков: что это, как работает и кому она нужна

В 2024 году размер рынка распознавания речи оценивается в 7,14 млрд долларов, а к 2030-му ожидается рост до 15,87 млрд долларов. Развитие технологий транскрибации, в том числе с использованием искусственного интеллекта, привело к тому, что такие программы достигли уровня профессиональных расшифровщиков. Поэтому их успешно внедряют в бизнес-процессы в различных отраслях.

Что такое транскрибация

Транскрибация — это технология преобразования речи в текст, который затем можно читать, переводить, редактировать, распечатывать, размещать на сайтах.

Транскрибирование используют для обработки записанных на диктофон лекций, записей телефонных разговоров в контакт-центре или рабочих видеозвонков, а также с его помощью генерируют субтитры к видео.

Инструмент применяют и для того, чтобы программы и сервисы понимали человека. Например, для диктовки текста вместо его набора и для общения с голосовыми помощниками.

Транскрибировать исходные материалы можно двумя способами:

Автоматически — через отдельные программы или онлайн-сервисы. Например, в iOS и macOS достаточно нажать на иконку микрофона, чтобы включить режим диктовки. В IP-телефонии для этой цели применяют подключаемые модули от поставщиков услуг.
Вручную. Это медленный способ с низкой эффективностью, к которому прибегали, когда технологии автоматического распознавания плохо работали. Сейчас его чаще используют для корректировки результатов автоматического распознавания или если нужно расшифровать исходный материал плохого качества. Например, запись со множеством помех и посторонних звуков.

История транскрибации

Первоначально фиксировать устную речь помогала стенография — всё записывали специальными знаками и сокращениями. Впоследствии символы переводили в слова и составляли протокол.

Этот метод потерял актуальность после появления технических средств для записи аудио и видео. Но необходимость в трансформации речи в текст сохранилась. Примерно в середине XX века специалисты начали создавать устройства для транскрибации, а в 90-х годах появились программы, способные решать эту задачу.

Настоящего прорыва удалось достичь из-за использования нейросетей и внедрения трансформеров, представленных в 1997 году специалистами из Google Brain.

Первые приложения допускали много неточностей, не учитывали произношения, неправильно расставляли знаки препинания и окончания. Но по мере совершенствования алгоритмов качество распознавания повышалось. Внедрение технологий машинного обучения сейчас позволяет практически полностью избежать ошибок.

Например, Automatic Speech Recognition, или ASR, не просто транскрибирует аудио, но и может распознавать говорящих, добавлять временные метки, фильтровать ненормативную лексику, убирать слова-паразиты, делать перевод, расставлять знаки препинания.

Виды автоматического распознавания речи

Существует три основные технологии, с помощью которых проводят транскрибирование текста. Их используют в зависимости от типа исходного материала, поставленных задач, области применения и др.

Потоковый

Речь расшифровывается в реальном времени. Этот метод применяют в контакт-центрах, во время телефонных разговоров или видеоконференций. Полученный текст нужен для составления субтитров или других подобных целей. Потоковое транскрибирование необходимо также для взаимодействия с голосовым меню, персональными ассистентами в телефонах и умных колонках.

Основная задача — распознавать речь с той же скоростью, с какой её произносит человек.

Синхронный

В этом случае записанный файл расшифровывается предварительно. Например, в кол-центрах преобразуют сохранённые разговоры в текст для последующего автоматического или ручного анализа. Также этот способ применяют боты в мессенджерах, чтобы превратить записанное отправителем голосовое сообщение в текстовое.

Здесь важна скорость трансформации аудио в текст, даже если из-за этого появятся небольшие ошибки.

Асинхронный

Предназначено для транскрибации записанных лекций, видеозаписей, выступлений на конференции, длительных совещаний. В асинхронном режиме расшифровывают большие записи длительностью по несколько часов, объём которых занимает десятки гигабайт на накопителях.

В этом случае упор делают не на скорость обработки, а на качество результата.

Как работает транскрибация

Технически человеческая речь представляет собой набор определённых паттернов, каждому из которых соответствует конкретная буква или их сочетание. Приложение для транскрибации распознаёт их в речи, затем формирует связные фразы и предложения. Для правильного выбора окончаний программа одновременно анализирует контекст.

В упрощённой форме процесс выглядит следующим образом:

Программа анализирует сигнал, очищает речь от помех, после чего разбивает на фрагменты. Они проходят через акустическую модель, которая выделяет отдельные звуки и их сочетания.
Далее компьютер соотносит выделенные спектрограммы речи с определёнными символами. С помощью специальных алгоритмов приложение анализирует полученную последовательность слов и вносит в них корректировки.
Из полученных материалов формируется файл, который пользователь получает в одном из стандартных форматов. Если распознанная речь нужна для работы автоматизированных систем, дальнейшая обработка зависит от заданных алгоритмов.

В процессе транскрибирования в настоящее время задействован искусственный интеллект. Благодаря самообучению он постепенно допускает всё меньше ошибок, может понимать смысл распознанного текста и обрабатывать его так, как нужно пользователю.

Сегодня самой передовой технологией ASR считается Whisper от OpenAI. Тестирование на произвольном наборе записей показало: процент ошибок в словах при её использовании составил 8,81%, что ниже других популярных систем распознавания. Хотя Whisper ещё не превзошёл уровень транскрибатора-человека, его точность уже вплотную приблизилась к нему.

Преимущества использования программного распознавания

Автоматическая транскрибация, по сравнению с ручной расшифровкой, видео и аудио имеет следующие преимущества:

Скорость работы. Короткие записи приложения обрабатывают в течение 5–20 секунд. У человека на это уйдёт не менее 10 минут.
Работа в режиме реального времени. Приложения воспринимают речь и превращают её в текст одновременно с говорящим, что удобно для создания субтитров и перевода.
Обработка больших объёмов информации. С помощью автоматического распознавания можно обрабатывать любое количество записанных аудио и видеофайлов практически непрерывно. Процесс не требует участия человека, а качество работы не снижается по мере утомляемости и «замыливания» восприятия.
Фильтрация помех. Программные алгоритмы могут выделять речь на фоне посторонних звуков и точнее транскрибировать её, даже если она плохо воспринимается человеческим ухом.

С точки зрения бизнеса преимущество автоматической транскрибации заключается в повышении эффективности работы и качества обслуживания клиентов. Наиболее важные плюсы:

Увеличение производительности труда — работники могут не вводить текст руками, а получать расшифровки встреч и телефонных звонков, не затрачивая на это много рабочего времени.
Повышение качества обслуживания клиентов — автоматическая расшифровка телефонных звонков позволяет анализировать работу сотрудников, оценивать качество разговоров, узнавать причины отказов, совершенствовать воронку продаж.
Автоматизация звонков — с помощью технологии ASR в паре с голосовым роботом можно полностью отказаться от живого менеджера в некоторых сферах. Цифровой помощник будет сам вести диалог с клиентом, понимать сказанное и генерировать ответные фразы.

Транскрибация востребована контакт-центрами, где взаимодействие с клиентами постоянно ведётся только голосом. Преобразование записей в текст облегчает ведение карточки клиентов и помогает интегрировать облачные АТС с CRM и другим корпоративным ПО, запустить омниканальную коммуникацию.

Для интеграции сервисов по распознаванию речи в информационную инфраструктуру компании используют готовые модули или программный интерфейс — API.

Недостатки автоматического перевода речи в текст

Основной минус технологий автоматической транскрибации — недостаточная точность. Даже хорошо натренированный ИИ допускает ошибки из-за особенностей диалектов, специфичной терминологии, сленга. Точность растёт и уже эквивалентна или превосходит профессиональных расшифровщиков, поэтому человек подключается только в ответственных задачах, таких как судебные заседания или медицинские записи, когда ошибки влекут существенные последствия.

Использование большинства сервисов транскрибации платное. Но такие затраты быстро окупаются благодаря повышению производительности труда менеджеров и освобождению их от рутинных операций.

В каких сферах применяется транскрибация

Технологию трансформации аудио в текст легко адаптировать для любых сфер с голосовым общением с клиентами. Пока основную нагрузку берут на себя сотрудники контакт-центров и отделов продаж, но внедрение ASR и голосовых роботов с ИИ позволит автоматизировать часть процесса.

Например, обслуживание клиентов по телефону требует больших затрат на содержание и обучение специалистов. В то же время технология распознавания текста позволяет системе понимать вопросы пользователя и давать на них типовые ответы — только в случае нестандартной ситуации звонок переведут на живого оператора. Это позволит экономить миллионы, так как, согласно статистике, стоимость одного обращения для компании составляет до 5,6 $.

Роботов, которые понимают речь человека, можно использовать для обработки заказов товаров и услуг. Около 62% поколения Y и 75% поколения Z предпочитают различные сервисы самообслуживания обращению в техническую поддержку. Транскрибация позволяет голосом выбирать цвет или размер, модель или количество приобретаемых товаров.

Ещё один пример использования — запись на приём к врачу, тренеру и другим специалистам. Робот избавит от необходимости самостоятельно отвечать на звонок и нанимать оператора.

Актуальность ASR подтверждает тот факт, что к 2026 году прогнозируемый уровень автоматизации работы контакт-центров составит 10%, в то время как в 2022-м он был равен лишь 1,8%. В 2024 году, согласно прогнозам, компании используют около 8,4 млрд голосовых помощников, которые работают на технологии обработки естественного языка и машинного обучения.

Какие задачи поможет решить перевод голоса в текст

Транскрибация лишь превращает речь человека в слова и предложения. Однако инструмент можно интегрировать с различным программным обеспечением, что позволит решать следующие задачи:

Сопровождение аудиоконтента. Посетители семинара или обучающего курса могут получить материалы в текстовом формате в качестве подарка или бонуса.
Протоколирование встреч. Необязательно привлекать стенографиста или синхронного переводчика при проведении деловых совещаний и других бизнес-мероприятий. Транскрибированный текст легко перевести на любой язык и применять для составления формального протокола.
Голосовое управление. ASR позволяет распознавать команды: отображает текущую погоду, вызывает такси.
Голосовые помощники. Возможности интерактивных голосовых меню часто ограничены числом цифровых клавиш на телефоне. Технология транскрибации позволяет заменить их роботами, которые понимают речь человека и могут вести с собеседником осмысленную беседу.
Массовый анализ звонков в поддержку. Вместо выборочных проверок супервизором 100% звонков анализируются программно.

Обратите внимание, что транскрибация является частью работы любого голосового помощника. Программа сначала воспринимает голос и переводит его в текст, после чего анализирует его на наличие нужных ключевых слов и выполняет действия по заданному алгоритму.

Инструменты и сервисы

Транскрибация видео и аудио производится с помощью различных сервисов в зависимости от целей и области использования.

Какие варианты доступны:

Распознавание речи от MTT. Инструмент для контакт-центров, с помощью которого можно автоматизировать и улучшить качество обслуживания клиентов, снизить нагрузку на операторов. Система позволяет пользователям получить данные, которые нельзя передать кнопками или через IVR. Если объединить этот сервис с речевой аналитикой, у бизнеса появится возможность анализировать телефонные разговоры, оценивать качество работы сотрудников, находить и устранять узкие места.
Whisper от OpenAI. Система распознавания речи, которая может преобразовывать произносимые слова в текст с минимальным количеством ошибок, невзирая на помехи, фоновые шумы, акцент и диалект говорящего. Этот инструмент можно использовать для протоколирования встреч, генерации субтитров и создания голосовых интерфейсов.
SpeechKit от «Яндекса». Сервис для распознавания и синтеза речи. Он может преобразовывать голосовые команды в текст, а также озвучивать файлы. Используется для автоматизации работы контакт-центров, в умных колонках и программных голосовых интерфейсах.
SluteSpeech от Сбера. Платформа для транскрибации и синтеза речи. Распознаёт слова говорящего, выделяя его на фоне реплик других людей, может определять эмоции, учитывает пунктуацию. Синтезирует голос с корректными паузами и ударениями, правильно произносит цифры и адреса, понимает букву «ё».
Speech-to-Text от Google. Инструмент для преобразования аудиоинформации в текст с возможностью интеграции в другие приложения через API. Поддерживает несколько языков и акцентов, может работать в онлайн-режиме или транскрибировать записи. Используется для создания субтитров, обработки звонков в контакт-центрах.

Заключение

Транскрибирование — это возможность перевести голосовые файлы в текст, систематизировать имеющуюся в них информацию и использовать для обучения, анализа, оптимизации бизнес-процессов, наполнения сайтов контентом и других целей.

Бизнес повысит производительность работы сотрудников, улучшит качество обслуживания, сделает услуги более доступными для некоторых категорий клиентов. Текст позволит точнее анализировать данные для маркетинговых целей и оптимизировать рекламные бюджеты.