Загрузите запись интервью — получите чистый текст с разделением спикеров, тайм-кодами и готовым DOCX. Распознаём прямую речь, имена и термины. Без ручной перепечатки и без отправки записи за рубеж.
Расскажите, с чего начался проект и кто стоял у истоков?
Всё началось в 2019 году, когда мы с командой из четырёх человек собрались в маленьком офисе на Покровке…
И какой была первая версия продукта?
Расшифровка (транскрибация) интервью — перевод записанной беседы в текстовый вид, где видно, кто и что говорит, в какой момент времени и дословно. Это базовый этап работы журналиста, рекрутера, социолога и UX-исследователя: пока разговор не переведён в текст, с ним нельзя ни цитировать, ни анализировать, ни согласовывать.
Раньше это делали вручную: включали запись, ставили на паузу каждые несколько секунд и перепечатывали. На один час интервью у опытного расшифровщика уходит 4–7 часовработы. Биржи фриланса берут за это от 15 до 40 рублей за минуту записи и делают расшифровку 1–3 дня.
Транскрибаторавтоматизирует этот этап. Вы загружаете запись интервью — в Telegram-бота или в веб-кабинет — и через пару минут получаете готовый текст: с разделением реплик по спикерам, тайм-кодами и выгрузкой в DOCX, который сразу можно открыть в Word и редактировать.
Главное отличие — скорость и цена. Алгоритму всё равно, час перед ним записи или шесть: он обрабатывает её за минуты и стоит в десятки раз дешевлеручной работы. При этом современные модели распознавания речи (мы используем Whisper v3) на чистой записи дают точность, сопоставимую с человеком, и сами расставляют пунктуацию.
Ручная расшифровка по-прежнему нужна там, где запись очень шумная, говорят с сильным акцентом или важна юридическая дословность каждого слова. Во всех остальных случаях разумнее получить автоматический черновик за 2 минуты и потратить полчаса на вычитку, чем три дня перепечатывать с нуля.
Никаких программ, плагинов и настроек. Запись интервью превращается в текст в три действия — прямо в Telegram или в браузере.
Диктофон, Zoom, телефонный звонок, видеокамера. Форматы MP3, M4A, WAV, MP4, MOV до 2 ГБ и 6 часов. Можно просто переслать голосовое из чата.
Whisper v3 переводит речь в текст и отделяет реплики говорящих: «Спикер 1», «Спикер 2». Расставляет пунктуацию и тайм-коды.
Получаете DOCX с форматированием, SRT для субтитров и AI-конспект с ключевыми тезисами интервью — открываете в Word и работаете.
Для интервью разделение спикеров важнее всего остального. Бот сам определяет, где вопрос интервьюера, а где ответ собеседника, и размечает реплики. Вам не нужно вручную проставлять «— Вопрос» и «— Ответ».
Каждая реплика снабжена тайм-кодом, поэтому спорное место в тексте легко сверить с оригиналом записи за пару секунд — удобно при согласовании цитат и фактчекинге.
Три типичных сценария: было — как мучились с записями раньше, стало — как это работает с ботом.
После каждого интервью — вечер с наушниками: запустить, отмотать, перепечатать фразу, снова отмотать. Час разговора растягивался на полдня расшифровки до того, как вообще начать писать.
Запись летит в бота сразу из диктофона. Через 2 минуты — готовый текст с репликами и тайм-кодами. Остаётся вычитать и выбрать цитаты.
«Сэкономил по дню на каждом большом тексте. Теперь интервью расшифровывается, пока я еду домой.»Артём, корреспондент делового издания
А что было самым сложным решением за этот год?
Самым сложным было закрыть прибыльное направление, чтобы сфокусироваться на главном продукте…
И как команда это восприняла?
После серии собесов в памяти каша. Заметки обрывочные, по ним сложно сравнивать кандидатов, а пересматривать часовые записи в Zoom ради одной фразы — никто не будет.
Запись встречи из Zoom уходит в бота. На выходе — текст с разделением «Рекрутер / Кандидат» и конспект с ключевыми ответами. Делитесь файлом с нанимающим менеджером.
«Нанимающие наконец читают, а не слушают. Решения по кандидатам стали быстрее на пару дней.»Марина, IT-рекрутер
Расскажите про самый сложный проект в продакшене.
Мы переписывали биллинг под нагрузкой 40 тысяч RPSбез даунтайма…
Какую роль вы там играли лично?
15 глубинных интервью на исследование — это 15 часов записей. Расшифровка съедала бюджет проекта и неделю времени, прежде чем можно было начать кодировать ответы и искать паттерны.
Все записи прогоняются пачкой за вечер. Единый формат текста с тайм-кодами легко грузится в инструменты для тематического анализа. Бюджет уходит на инсайты, а не на перепечатку.
«Раньше расшифровка была самой дорогой и скучной частью исследования. Теперь это фоновая задача.»Денис, UX-research lead
Опишите, как вы в последний раз пользовались приложением.
Я открыл его в метро и сразу запутался в меню, не понял, куда нажимать…
А что вы ожидали увидеть на этом экране?
Скачайте результат в том виде, который нужен под вашу задачу: статья, субтитры, анализ или цитаты.
Спикеры, абзацы и тайм-коды. Открываете в Word и сразу редактируете.
Тайм-кодированные субтитры для видео-интервью на YouTube и в соцсетях.
Простой текст без форматирования — для загрузки в инструменты анализа.
Что выгоднее для часового интервью — посчитали по времени, цене и удобству.
«Делаю подкаст-интервью. Раньше показ-ноуты собирал руками по записи, теперь SRT и расшифровка готовы раньше, чем я смонтирую звук.»
«Веду 8 собеседований в день. Текст с разделением на рекрутера и кандидата — спасение для отчётов. Нанимающие читают и отвечают быстрее.»
«Пробовала зарубежный сервис — не прошла оплата без карты иностранного банка. Здесь СБП и всё на русском, плюс данные не уходят за границу.»
Не нашли ответ? Напишите в поддержку прямо в Telegram — отвечаем живые люди.
Начать бесплатноЗависит от длины записи и тарифа. Эффективная цена — от 1,33 до 2,66 ₽ за минуту. Часовое интервью обойдётся примерно в 80–160 ₽. Первые 10 минут после запуска бота — бесплатно.
Да. Система определяет смену голоса и размечает реплики как «Спикер 1», «Спикер 2» и так далее — до 8 участников. В веб-кабинете спикеров можно переименовать (например, «Интервьюер» / «Эксперт»), и это подставится во все реплики.
Для русского языка на чистой записи — до 95%. На записях с шумом, эхом или сильным акцентом точность ниже, но остаётся пригодной для черновика. Совет: записывайте интервью ближе к говорящему и в тихом помещении — это заметно повышает качество.
Аудио: MP3, M4A, OGG, OPUS, WAV. Видео: MP4, MOV, MKV, AVI — звук извлечётся автоматически. Размер до 2 ГБ, длительность до 6 часов. Голосовые сообщения Telegram любой длины можно просто переслать боту.
На серверах в России. Файлы и расшифровки хранятся 24 часа и автоматически удаляются. Мы не передаём записи третьим лицам и не используем их для обучения моделей. Это важно для интервью с персональными данными — соответствие ФЗ-152.
Нет. Откройте Telegram-бота и пришлите запись — расшифровка придёт в чат. Регистрация в веб-кабинете нужна, если удобнее работать в браузере, хранить историю интервью и переименовывать спикеров.
Да, поддерживается 57 языков, включая английский, узбекский, казахский, белорусский и армянский. Язык определяется автоматически. Смешанную речь (например, русский с вставками английских терминов) бот тоже распознаёт.
ЮKassa (карты Visa, Mastercard, МИР), СБП и Telegram Stars. Купленные минуты не сгорают и тратятся по мере использования.
Пришлите запись в Telegram-бота или зарегистрируйтесь в веб-кабинете. Через 2 минуты получите текст с разделением спикеров и готовый DOCX.