Транскрипция видео с использованием Azure Speech и MoviePy

Транскрипция видео с использованием Azure Speech и MoviePy

Видеоконтент становится более распространенным, чем когда-либо прежде. Однако извлечение ценной информации из видео может оказаться трудоемким и сложным занятием. Именно здесь в игру вступает Azure Speech — мощная служба, предоставляемая Azure AI Services. Azure Speech предлагает современные возможности распознавания речи, позволяющие нам точно и легко расшифровывать произнесенные слова в видео.

В этой записи блога рассматривается плавная интеграция Azure Speech и КивиПи, популярная библиотека Python для редактирования и манипулирования видео, позволяющая легко транскрибировать видео в текстовые файлы. Объединив эти две технологии, вы сможете автоматизировать процесс транскрипции и извлечь ценную текстовую информацию из вашего видеоконтента всего за несколько простых шагов.

Зачем использовать Azure Speech и MoviePy?

Azure Speech имеет множество ключевых функций, включая возможности преобразования речи в текст и совместимость с различными аудио- и видеоформатами. В нем подчеркиваются преимущества использования Azure AI Services, такие как надежность, масштабируемость и простота интеграции.

Далее блог углубляется в MoviePy, предоставляя обзор его возможностей и возможностей обработки различных форматов видеофайлов. В нем объясняется, как можно использовать MoviePy для извлечения звука из видео, что является важным шагом для последующего процесса транскрипции.

Предварительный просмотр инструкций по настройке речи Azure с помощью MoviePy

Предоставляются инструкции по необходимым шагам по настройке, включая создание ресурса Azure Speech на портале Azure и установку необходимых пакетов Python, таких как Azure SDK и библиотека MoviePy.

После завершения настройки в блоге представлено пошаговое описание процесса транскрипции. Он охватывает загрузку видео с помощью MoviePy, извлечение звуковой дорожки и отправку аудиоданных в службу речи Azure для транскрипции. В нем объясняется, как Azure Speech использует передовые модели машинного обучения для точного преобразования произнесенных слов в текст.

Сочетание Azure Speech и MoviePy может упростить процесс расшифровки видео в текстовые файлы. Используя возможности распознавания речи Azure и универсальность MoviePy, пользователи могут эффективно извлекать и использовать текстовую информацию из своих видеоресурсов.

Благодаря подробному описанию и аналитической информации читатели смогут использовать эти технологии, что позволит им сэкономить время, повысить производительность и раскрыть скрытый потенциал своего видеоконтента.

Архитектура:

Службы искусственного интеллекта Azure, ранее известные как Azure Cognitive Services.

Azure Speech, краткое введение:

Azure Speech — это мощная служба Azure AI Services, которая предоставляет расширенные возможности распознавания речи. Он предназначен для преобразования устной речи в письменный текст, что позволяет разработчикам расшифровывать аудио- и видеоконтент с поразительной точностью. С помощью Azure Speech вы можете использовать передовые модели машинного обучения для извлечения значимой информации из ваших аудио- и видеоресурсов.

Одной из его ключевых особенностей является надежная функция преобразования речи в текст, которая точно преобразует произнесенные слова в текст, что делает его идеальным для таких задач, как транскрипция, приложения с голосовым управлением и голосовые помощники. Кроме того, Azure Speech совместим с широким спектром аудио- и видеоформатов, что позволяет легко обрабатывать и расшифровывать контент из различных источников. Эта совместимость обеспечивает гибкость и простоту интеграции, позволяя вам использовать возможности распознавания речи в различных приложениях и отраслях.

MoviePy, краткое введение:

MoviePy — это универсальная библиотека Python, которая предоставляет разработчикам широкий спектр возможностей редактирования и манипулирования видео. Он упрощает процесс работы с видеофайлами, позволяя выполнять такие задачи, как обрезка видео, конкатенация, применение эффектов и многое другое.

С помощью MoviePy вы можете легко извлекать аудиодорожки из видео, что является важным шагом для целей транскрипции. Он поддерживает различные форматы видеофайлов, включая такие популярные, как MP4, AVI и MOV, обеспечивая совместимость с широким спектром видеоисточников. Интуитивно понятный API-интерфейс MoviePy и подробная документация делают его доступным как для начинающих, так и для опытных пользователей, что упрощает выполнение задач по обработке видео. Его расширяемость и гибкость делают его идеальным выбором для операций, связанных с видео, в проектах Python, позволяя разработчикам эффективно обрабатывать видеофайлы и легко интегрировать их в свои рабочие процессы.

Пошаговое руководство:

Используйте MoviePy для извлечения звука из видео:

Шаг 1. Создайте виртуальную сеть.

Идти к https://portal.azure.com
Войдите, если у вас уже есть учетная запись, в противном случае создайте ее.
Создать новую подписку
Создайте новую виртуальную сеть Azure, используя шаблон ARM или создав его вручную. Шаблоны Azure ARM (Azure Resource Manager) позволяют декларативно создавать и развертывать всю инфраструктуру Azure.
Создайте подсеть, в которой будет находиться виртуальная машина с Moviepy.

Шаг 2. Портал Azure. Создайте виртуальную машину, на которой будет размещаться MoviePy.

Создайте новый ресурс: нажмите кнопку «Создать ресурс» в левой части портала Azure.
Создайте виртуальную машину (ВМ) в Azure:
- Выберите виртуальную машину: на панели «Новое» найдите «Виртуальная машина» и выберите «Виртуальная машина» из списка доступных вариантов.
- Выберите вариант развертывания: Azure предлагает две модели развертывания виртуальных машин: Resource Manager и Classic. Выберите модель развертывания Resource Manager, чтобы получить доступ к новейшим функциям и возможностям.
- Настройте базовые сведения. Предоставьте необходимую информацию, такую как подписка, группа ресурсов и имя виртуальной машины. Выберите регион, в котором вы хотите развернуть виртуальную машину.
- Выберите образ. Выберите образ операционной системы для вашей виртуальной машины, например Windows или Linux. Вы можете выбрать один из множества предварительно настроенных образов, доступных в Azure Marketplace.
- Выберите размер. Выберите размер виртуальной машины в соответствии с вашими требованиями, учитывая такие факторы, как ЦП, память и емкость хранилища.
- Настройте дополнительные функции: настройте дополнительные параметры, такие как сеть, хранилище, параметры доступности и параметры управления, в соответствии с вашими потребностями. При необходимости вы также можете настроить дополнительные параметры.
- Настройте аутентификацию: укажите имя пользователя и пароль или ключ SSH для учетных данных для входа в виртуальную машину. Это будет использоваться для удаленного доступа к виртуальной машине.
- Просмотрите и создайте: дважды проверьте все сделанные вами конфигурации и нажмите кнопку «Создать», чтобы начать процесс развертывания.
- Развертывание монитора. Azure начнет подготовку виртуальной машины в соответствии с вашими спецификациями. Вы можете отслеживать ход выполнения на портале Azure.
- Доступ к виртуальной машине и управление ею. После завершения развертывания вы можете получить доступ к виртуальной машине и управлять ею через портал Azure, Azure CLI, PowerShell или любой другой предпочтительный метод.
Подключитесь к виртуальной машине с помощью SSH, чтобы обновить и установить программное обеспечение на шаге 3.

Шаг 3. Настройка виртуальной машины и установка программного обеспечения:

Обновите виртуальную машину:
Установите Python PIP:
- sudo apt-get установить python3-pip
Установите MoviePy:
Установите службы Azure AI:
- sudo pip установить azure-cognitiveservices-speech
Создайте файл в вашем любимом редакторе (я буду использовать vi):

из импорта Moviepy.editor *

video_file = “ВАШ ФАЙЛ ФИЛЬМА”

выходной_файл = “ВАШ ФАЙЛ ФИЛЬМА.wav”

#загружаем видеоклип

видео = VideoFileClip(видео_файл)

#извлекаем звук из видео

аудио = видео.аудио

# Установите нужные параметры звука

audio_params = {

“кодек”: “pcm_s16le”,

“fps”: 16000, # Установите желаемую частоту дискретизации: 16000 Гц

# “fps”: 8000, # Альтернативно установите частоту дискретизации 8000 Гц

“nchannels”: 1, # Моно аудио

“bitrate”: “16k” # Установите желаемый битрейт

}

Параметры звука очень важны: частота кадров в секунду (кадры в секунду) и битрейт должны быть установлены таким образом, чтобы они были совместимы с речевой службой Azure.

Шаг 4. Запустите файл и извлеките аудио:

Шаг 5. Настройте службу речи Azure:

Войдите на портал Azure. Перейдите на веб-сайт портала Azure (portal.azure.com) и войдите в систему, используя учетные данные своей учетной записи Azure.
Создайте новый ресурс. Нажмите кнопку «Создать ресурс» (+) в левой части портала Azure.
Найдите и выберите службу «Речь». На панели «Новое» найдите «Речь» и выберите «Речь» из списка доступных опций.
Настройте основные параметры: предоставьте необходимую информацию, такую как подписка, группа ресурсов и имя речевой службы. Выберите регион, в котором вы хотите развернуть службу.

Выберите ценовую категорию: выберите ценовую категорию в соответствии с вашими требованиями. Служба речи Azure предлагает различные уровни с разными возможностями и ценами.

Настройте дополнительные параметры: настройте дополнительные параметры, такие как количество одновременных запросов, местоположение и параметры хранения. При необходимости вы также можете настроить дополнительные параметры.
Просмотрите и создайте: дважды проверьте все сделанные вами конфигурации и нажмите кнопку «Создать», чтобы начать процесс развертывания.
Доступ к службе речи и управление ею. После завершения развертывания вы сможете получить доступ к службе речи и управлять ею через портал Azure.

Получите ключ подписки. Чтобы использовать службу «Речь», вам понадобится ключ подписки. Перейдите на портал Azure, перейдите к созданной вами службе речи и найдите раздел «Ключи и конечная точка». Получите оттуда ключ подписки. (вам это понадобится для сценария Python)

Шаг 6. Настройте скрипт и запустите задание транскрипции:

импортировать azure.cognitiveservices.speech как Speechsdk

время импорта

# Настройте конфигурацию речи Azure.

voice_key = “ВАШ КЛЮЧ”

service_region = “ВАШ РЕГИОН”

речь_конфигурация = речиsdk.SpeechConfig(подписка=speech_key, регион=service_region)

# Устанавливаем путь к аудиофайлу

audio_file = “FreddyDubon.wav”

# Настраиваем конфигурацию звука

audio_config = Speechsdk.audio.AudioConfig (имя файла = аудио_файл)

# Создайте объект распознавателя речи

Speech_recouncer = SpeechSdk.SpeechRecouncer(speech_config=speech_config, audio_config=audio_config)

# Создайте пустой список для хранения результатов транскрипции

транскрипции = []

# Определить обработчик событий для непрерывного распознавания

защита Continuous_recognition_handler (evt):

если evt.result.reason == Speechsdk.ResultReason.RecouncedSpeech:

транскрипции.append(evt.result.text)

# Начать непрерывное распознавание

речь_recouncer.recognition.connect(continious_recognition_handler)

речь_recouncer.start_continious_recognition()

# Дождитесь завершения распознавания

timeout_секунды = 600 # Установите значение таймаута (в секундах) в зависимости от длины вашего аудиофайла.

timeout_expiration = time.time() + timeout_секунды

в то время как time.time() < timeout_expiration:

time.sleep(1) # Отрегулируйте продолжительность сна по мере необходимости

# Остановить постоянное распознавание

речь_recouncer.stop_continious_recognition()

# Объединяем транскрипции в одну строку

транскрипция = ‘ ‘.join(транскрипции)

# Записываем транскрипцию в файл

выходной_файл = “транскрипция.txt”

с open(output_file, “w”) в качестве файла:

file.write(транскрипция)

print(“Транскрипция сохранена в: ” + выходной_файл)

Шаг 7. Запустите скрипт и дождитесь создания текстового файла транскрипции. Примечание. В зависимости от размера видео обработка транскрипции может занять некоторое время.

2023-08-09 16:51:31

1693196703
#Транскрипция #видео #использованием #Azure #Speech #MoviePy

Транскрипция видео с использованием Azure Speech и MoviePy

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply