Транскрипция видео с использованием Azure Speech и MoviePy
Видеоконтент становится более распространенным, чем когда-либо прежде. Однако извлечение ценной информации из видео может оказаться трудоемким и сложным занятием. Именно здесь в игру вступает Azure Speech — мощная служба, предоставляемая Azure AI Services. Azure Speech предлагает современные возможности распознавания речи, позволяющие нам точно и легко расшифровывать произнесенные слова в видео.
В этой записи блога рассматривается плавная интеграция Azure Speech и КивиПи, популярная библиотека Python для редактирования и манипулирования видео, позволяющая легко транскрибировать видео в текстовые файлы. Объединив эти две технологии, вы сможете автоматизировать процесс транскрипции и извлечь ценную текстовую информацию из вашего видеоконтента всего за несколько простых шагов.
Зачем использовать Azure Speech и MoviePy?
Azure Speech имеет множество ключевых функций, включая возможности преобразования речи в текст и совместимость с различными аудио- и видеоформатами. В нем подчеркиваются преимущества использования Azure AI Services, такие как надежность, масштабируемость и простота интеграции.
Далее блог углубляется в MoviePy, предоставляя обзор его возможностей и возможностей обработки различных форматов видеофайлов. В нем объясняется, как можно использовать MoviePy для извлечения звука из видео, что является важным шагом для последующего процесса транскрипции.
Предварительный просмотр инструкций по настройке речи Azure с помощью MoviePy
Предоставляются инструкции по необходимым шагам по настройке, включая создание ресурса Azure Speech на портале Azure и установку необходимых пакетов Python, таких как Azure SDK и библиотека MoviePy.
После завершения настройки в блоге представлено пошаговое описание процесса транскрипции. Он охватывает загрузку видео с помощью MoviePy, извлечение звуковой дорожки и отправку аудиоданных в службу речи Azure для транскрипции. В нем объясняется, как Azure Speech использует передовые модели машинного обучения для точного преобразования произнесенных слов в текст.
Сочетание Azure Speech и MoviePy может упростить процесс расшифровки видео в текстовые файлы. Используя возможности распознавания речи Azure и универсальность MoviePy, пользователи могут эффективно извлекать и использовать текстовую информацию из своих видеоресурсов.
Благодаря подробному описанию и аналитической информации читатели смогут использовать эти технологии, что позволит им сэкономить время, повысить производительность и раскрыть скрытый потенциал своего видеоконтента.
Архитектура:
Службы искусственного интеллекта Azure, ранее известные как Azure Cognitive Services.
Azure Speech, краткое введение:
Azure Speech — это мощная служба Azure AI Services, которая предоставляет расширенные возможности распознавания речи. Он предназначен для преобразования устной речи в письменный текст, что позволяет разработчикам расшифровывать аудио- и видеоконтент с поразительной точностью. С помощью Azure Speech вы можете использовать передовые модели машинного обучения для извлечения значимой информации из ваших аудио- и видеоресурсов.
Одной из его ключевых особенностей является надежная функция преобразования речи в текст, которая точно преобразует произнесенные слова в текст, что делает его идеальным для таких задач, как транскрипция, приложения с голосовым управлением и голосовые помощники. Кроме того, Azure Speech совместим с широким спектром аудио- и видеоформатов, что позволяет легко обрабатывать и расшифровывать контент из различных источников. Эта совместимость обеспечивает гибкость и простоту интеграции, позволяя вам использовать возможности распознавания речи в различных приложениях и отраслях.
MoviePy, краткое введение:
MoviePy — это универсальная библиотека Python, которая предоставляет разработчикам широкий спектр возможностей редактирования и манипулирования видео. Он упрощает процесс работы с видеофайлами, позволяя выполнять такие задачи, как обрезка видео, конкатенация, применение эффектов и многое другое.
С помощью MoviePy вы можете легко извлекать аудиодорожки из видео, что является важным шагом для целей транскрипции. Он поддерживает различные форматы видеофайлов, включая такие популярные, как MP4, AVI и MOV, обеспечивая совместимость с широким спектром видеоисточников. Интуитивно понятный API-интерфейс MoviePy и подробная документация делают его доступным как для начинающих, так и для опытных пользователей, что упрощает выполнение задач по обработке видео. Его расширяемость и гибкость делают его идеальным выбором для операций, связанных с видео, в проектах Python, позволяя разработчикам эффективно обрабатывать видеофайлы и легко интегрировать их в свои рабочие процессы.
Пошаговое руководство:
Используйте MoviePy для извлечения звука из видео:
Шаг 1. Создайте виртуальную сеть.
- Идти к https://portal.azure.com
- Войдите, если у вас уже есть учетная запись, в противном случае создайте ее.
- Создать новую подписку
- Создайте новую виртуальную сеть Azure, используя шаблон ARM или создав его вручную. Шаблоны Azure ARM (Azure Resource Manager) позволяют декларативно создавать и развертывать всю инфраструктуру Azure.
- Создайте подсеть, в которой будет находиться виртуальная машина с Moviepy.
Шаг 2. Портал Azure. Создайте виртуальную машину, на которой будет размещаться MoviePy.
- Создайте новый ресурс: нажмите кнопку «Создать ресурс» в левой части портала Azure.
- Создайте виртуальную машину (ВМ) в Azure:
- Выберите виртуальную машину: на панели «Новое» найдите «Виртуальная машина» и выберите «Виртуальная машина» из списка доступных вариантов.
- Выберите вариант развертывания: Azure предлагает две модели развертывания виртуальных машин: Resource Manager и Classic. Выберите модель развертывания Resource Manager, чтобы получить доступ к новейшим функциям и возможностям.
- Настройте базовые сведения. Предоставьте необходимую информацию, такую как подписка, группа ресурсов и имя виртуальной машины. Выберите регион, в котором вы хотите развернуть виртуальную машину.
- Выберите образ. Выберите образ операционной системы для вашей виртуальной машины, например Windows или Linux. Вы можете выбрать один из множества предварительно настроенных образов, доступных в Azure Marketplace.
- Выберите размер. Выберите размер виртуальной машины в соответствии с вашими требованиями, учитывая такие факторы, как ЦП, память и емкость хранилища.
- Настройте дополнительные функции: настройте дополнительные параметры, такие как сеть, хранилище, параметры доступности и параметры управления, в соответствии с вашими потребностями. При необходимости вы также можете настроить дополнительные параметры.
- Настройте аутентификацию: укажите имя пользователя и пароль или ключ SSH для учетных данных для входа в виртуальную машину. Это будет использоваться для удаленного доступа к виртуальной машине.
- Просмотрите и создайте: дважды проверьте все сделанные вами конфигурации и нажмите кнопку «Создать», чтобы начать процесс развертывания.
- Развертывание монитора. Azure начнет подготовку виртуальной машины в соответствии с вашими спецификациями. Вы можете отслеживать ход выполнения на портале Azure.
- Доступ к виртуальной машине и управление ею. После завершения развертывания вы можете получить доступ к виртуальной машине и управлять ею через портал Azure, Azure CLI, PowerShell или любой другой предпочтительный метод.
- Подключитесь к виртуальной машине с помощью SSH, чтобы обновить и установить программное обеспечение на шаге 3.
Шаг 3. Настройка виртуальной машины и установка программного обеспечения:
- Обновите виртуальную машину:
- Установите Python PIP:
- sudo apt-get установить python3-pip
- Установите MoviePy:
- Установите службы Azure AI:
- sudo pip установить azure-cognitiveservices-speech
- Создайте файл в вашем любимом редакторе (я буду использовать vi):
из импорта Moviepy.editor *
video_file = “ВАШ ФАЙЛ ФИЛЬМА”
выходной_файл = “ВАШ ФАЙЛ ФИЛЬМА.wav”
#загружаем видеоклип
видео = VideoFileClip(видео_файл)
#извлекаем звук из видео
аудио = видео.аудио
# Установите нужные параметры звука
audio_params = {
“кодек”: “pcm_s16le”,
“fps”: 16000, # Установите желаемую частоту дискретизации: 16000 Гц
# “fps”: 8000, # Альтернативно установите частоту дискретизации 8000 Гц
“nchannels”: 1, # Моно аудио
“bitrate”: “16k” # Установите желаемый битрейт
}
- Параметры звука очень важны: частота кадров в секунду (кадры в секунду) и битрейт должны быть установлены таким образом, чтобы они были совместимы с речевой службой Azure.
Шаг 4. Запустите файл и извлеките аудио:
Шаг 5. Настройте службу речи Azure:
- Войдите на портал Azure. Перейдите на веб-сайт портала Azure (portal.azure.com) и войдите в систему, используя учетные данные своей учетной записи Azure.
- Создайте новый ресурс. Нажмите кнопку «Создать ресурс» (+) в левой части портала Azure.
- Найдите и выберите службу «Речь». На панели «Новое» найдите «Речь» и выберите «Речь» из списка доступных опций.
- Настройте основные параметры: предоставьте необходимую информацию, такую как подписка, группа ресурсов и имя речевой службы. Выберите регион, в котором вы хотите развернуть службу.
- Выберите ценовую категорию: выберите ценовую категорию в соответствии с вашими требованиями. Служба речи Azure предлагает различные уровни с разными возможностями и ценами.
- Настройте дополнительные параметры: настройте дополнительные параметры, такие как количество одновременных запросов, местоположение и параметры хранения. При необходимости вы также можете настроить дополнительные параметры.
- Просмотрите и создайте: дважды проверьте все сделанные вами конфигурации и нажмите кнопку «Создать», чтобы начать процесс развертывания.
- Доступ к службе речи и управление ею. После завершения развертывания вы сможете получить доступ к службе речи и управлять ею через портал Azure.
- Получите ключ подписки. Чтобы использовать службу «Речь», вам понадобится ключ подписки. Перейдите на портал Azure, перейдите к созданной вами службе речи и найдите раздел «Ключи и конечная точка». Получите оттуда ключ подписки. (вам это понадобится для сценария Python)
Шаг 6. Настройте скрипт и запустите задание транскрипции:
импортировать azure.cognitiveservices.speech как Speechsdk
время импорта
# Настройте конфигурацию речи Azure.
voice_key = “ВАШ КЛЮЧ”
service_region = “ВАШ РЕГИОН”
речь_конфигурация = речиsdk.SpeechConfig(подписка=speech_key, регион=service_region)
# Устанавливаем путь к аудиофайлу
audio_file = “FreddyDubon.wav”
# Настраиваем конфигурацию звука
audio_config = Speechsdk.audio.AudioConfig (имя файла = аудио_файл)
# Создайте объект распознавателя речи
Speech_recouncer = SpeechSdk.SpeechRecouncer(speech_config=speech_config, audio_config=audio_config)
# Создайте пустой список для хранения результатов транскрипции
транскрипции = []
# Определить обработчик событий для непрерывного распознавания
защита Continuous_recognition_handler (evt):
если evt.result.reason == Speechsdk.ResultReason.RecouncedSpeech:
транскрипции.append(evt.result.text)
# Начать непрерывное распознавание
речь_recouncer.recognition.connect(continious_recognition_handler)
речь_recouncer.start_continious_recognition()
# Дождитесь завершения распознавания
timeout_секунды = 600 # Установите значение таймаута (в секундах) в зависимости от длины вашего аудиофайла.
timeout_expiration = time.time() + timeout_секунды
в то время как time.time() < timeout_expiration:
time.sleep(1) # Отрегулируйте продолжительность сна по мере необходимости
# Остановить постоянное распознавание
речь_recouncer.stop_continious_recognition()
# Объединяем транскрипции в одну строку
транскрипция = ‘ ‘.join(транскрипции)
# Записываем транскрипцию в файл
выходной_файл = “транскрипция.txt”
с open(output_file, “w”) в качестве файла:
file.write(транскрипция)
print(“Транскрипция сохранена в: ” + выходной_файл)
Шаг 7. Запустите скрипт и дождитесь создания текстового файла транскрипции. Примечание. В зависимости от размера видео обработка транскрипции может занять некоторое время.
2023-08-09 16:51:31
1693196703
#Транскрипция #видео #использованием #Azure #Speech #MoviePy