Преобразование речи в текст ChatGPT

Благодаря возможностям ChatGPT Speech to Text вы можете легко преобразовывать аудиофайлы в письменный текст. Вы можете попрощаться с утомительной задачей расшифровки и перейти к более эффективному способу обработки аудиоконтента. В этой статье вы узнаете, как преобразовать звук в текст, используя возможности ChatGPT.

Введение

Около двух недель назад OpenAI представила ChatGPT Whisper AP . Первоклассная модель Whisper с открытым исходным кодом крупной версии 2 от OpenAI предлагает две конечные точки в API преобразования речи в текст: транскрипцию и перевод.

Эти конечные точки позволяют пользователям:

Транскрибировать аудио с исходного языка,
Переведите и транскрибируйте аудио на английский язык.

Однако обратите внимание, что загрузка файлов в настоящее время ограничена 25 МБ. На сегодняшний день API поддерживает следующие типы файлов: mp3 , mp4 , mpeg , mpga , m4a , wav и webm .

Быстрый старт

Чтобы использовать API транскрипции ChatGPT, вам необходимо предоставить аудиофайл, который вы хотите транскрибировать, и указать желаемый формат выходного файла для транскрипции.

# Note: you need to be using OpenAI Python v0.27.0 
# for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

По умолчанию вы получите ответ в формате JSON:

{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger.
....
}

Если вам нужно включить дополнительные параметры в свой запрос, вы можете просто добавить больше строк формы с соответствующими параметрами. Если вы хотите указать выходной формат как текст, вы можете добавить следующую строку:

...
--form file=@openai.mp3 \
--form model=whisper-1 \
--form response_format=text

Переводы

API переводов принимает аудиофайл на любом из поддерживаемых языков и транскрибирует аудио на английский язык. Важно отметить, что это отличается от конечной точки /Transcriptions, где выходные данные выводятся на исходном языке ввода, а не переводятся на английский язык.

Перевести пример аудио:

# Note: you need to be using OpenAI Python v0.27.0
# for the code below to work
import openai
audio_file= open("/path/to/file/german.mp3", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)

В этом случае аудиовход был на немецком языке, а результирующий текстовый вывод выглядит следующим образом:

"Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"

В настоящее время поддерживается только перевод на английский язык.

Поддерживаемые языки

ChatGPT Speech to Text APIs в настоящее время поддерживают следующие языки через конечную точку транскрипции и перевода :

африкаанс, арабский, армянский, азербайджанский, белорусский, боснийский, болгарский, каталанский, китайский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, галисийский, немецкий, греческий, иврит, хинди, венгерский, исландский, индонезийский, Итальянский, японский, каннада, казахский, корейский, латышский, литовский, македонский, малайский, маратхи, маори, непальский, норвежский, персидский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, суахили, шведский, тагальский, Тамильский, тайский, турецкий, украинский, урду, вьетнамский и валлийский.

Хотя базовая модель обучалась на 98 различных языках. Выше отображаются только те языки, для которых коэффициент ошибок в словах (WER) составляет менее 50%. Это стандартный отраслевой эталон для измерения точности модели преобразования речи в текст.

Точность может быть значительно снижена, поскольку модель по-прежнему может предоставлять результаты для языков, не указанных в списке.

Более длинные входы

Whisper API имеет ограничение по умолчанию для аудиофайлов размером 25 МБ. Если ваш аудиофайл превышает этот предел, вам нужно будет разделить его на фрагменты по 25 МБ или меньше или использовать сжатый аудиоформат.

Стоит отметить, что для оптимальной производительности рекомендуется избегать прерывания звука в середине предложения, так как это может привести к некоторой потере контекста.

Подсказка

Используя приглашение , вы можете повысить качество расшифровок, создаваемых Whisper API. Модель стремится соответствовать стилю подсказки, а это означает, что если в подсказке используются заглавные буквы и знаки препинания, модель, скорее всего, сделает то же самое.

Подсказки могут оказаться невероятно полезными для исправления определенных слов или сокращений, которые модель часто неправильно идентифицирует в аудио.

Тем не менее важно отметить, что наша текущая система подсказок имеет больше ограничений, чем другие языковые модели, и обеспечивает лишь ограниченный контроль над генерируемым звуком.

Comments: 6

Isalviaisa 19.03.2023 in 06:45

Каждый раз, когда в Chatgpt появляются новые инструменты, это будущее.

Ответить
Nikolas 27.03.2023 in 12:59

Очень удобно, помогает в работе и сохраняет время. Ко всем прочему, понятный и доступный практически для любого человека функционал.

Ответить
Дмитрий 30.03.2023 in 17:03

Весьма не сложно повторить и использовать данную фичу, например для создания субтитров из ролика. Буду пользоваться. Спасибо.

Ответить
Андрей 06.04.2023 in 14:25

Мне кажется это очень удобная функция. вливание нового функционала это всегда шаг к улучшению.

Ответить
Толик 08.04.2023 in 13:36

Приятно видеть, что боты развиваются семимильными шагами и с каждым обновлением добавляются новые возможности, которые упрощают и, что самое главное, ускоряют взаимодействие.

Ответить
Марина 13.04.2023 in 19:21

Учитывая вашу инструкцию, ничего сложного в том, чтобы заставить chatGPT переводить вам из аудио в текс, нет. Спасибо, буду использовать.

Ответить

Добавить комментарий