Recunoașterea vorbirii folosind API-ul Google Speech și Python: 4 pași

Cuprins:

Pasul 1: ReSpeaker USB 4-Mic Array
Pasul 2: Instalați bibliotecile necesare
Pasul 3: Text-to-speech în Python cu biblioteca Pyttsx3
Pasul 4: Unirea tuturor: Construirea recunoașterii vorbirii cu Python folosind API-ul Google Recunoaștere vorbire și biblioteca Pyttsx3

2025 Autor: John Day | [email protected]. Modificat ultima dată: 2025-01-23 15:04

Recunoaștere a vorbirii

Recunoașterea vorbirii este o parte a procesării limbajului natural, care este un subdomeniu al inteligenței artificiale. Mai simplu spus, recunoașterea vorbirii este capacitatea unui software de calculator de a identifica cuvinte și fraze în limbajul vorbit și de a le converti în text lizibil de către om. Este utilizat în mai multe aplicații, cum ar fi sistemele de asistență vocală, automatizarea casei, chatbots bazate pe voce, robot care interacționează prin voce, inteligență artificială etc.

Există diferite API-uri (Interfață de programare a aplicațiilor) pentru recunoașterea vorbirii. Acestea oferă servicii gratuite sau plătite. Acestea sunt:

CMU Sfinx
Recunoaștere vorbire Google
API Google Cloud Speech
Wit.ai
Recunoaștere vocală Microsoft Bing
API Houndify
IBM Speech To Text
Snowboy Hotword Detection

Vom folosi Recunoașterea vorbirii Google aici, deoarece nu necesită nicio cheie API. Acest tutorial își propune să ofere o introducere despre modul de utilizare a bibliotecii Google Speech Recognition pe Python cu ajutorul microfonului extern, cum ar fi ReSpeaker USB 4-Mic Array de la Seeed Studio. Deși nu este obligatoriu utilizarea microfonului extern, poate fi utilizat chiar și microfonul încorporat al laptopului.

Pasul 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic este un dispozitiv cu patru microfoane conceput pentru aplicații AI și voce, care a fost dezvoltat de Seeed Studio. Are 4 microfoane omnidirecționale încorporate de înaltă performanță concepute pentru a vă ridica vocea de oriunde din cameră și 12 indicatoare LED RGB programabile. Microfonul ReSpeaker USB acceptă sistemele de operare Linux, macOS și Windows. Detalii puteți găsi aici.

Microfonul USB ReSpeaker vine într-un pachet frumos care conține următoarele elemente:

Un ghid de utilizare
ReSpeaker USB Mic Array
Cablu micro USB la USB

Deci suntem gata să începem.

Pasul 2: Instalați bibliotecile necesare

Pentru acest tutorial, presupun că utilizați Python 3.x.

Să instalăm bibliotecile:

pip3 instalează SpeechRecognition

Pentru macOS, mai întâi va trebui să instalați PortAudio cu Homebrew, apoi să instalați PyAudio cu pip3:

instalați brew portaudio

Executăm comanda de mai jos pentru a instala pyaudio

pip3 instalează pyaudio

Pentru Linux, puteți instala PyAudio cu apt:

sudo apt-get install python-pyaudio python3-pyaudio

Pentru Windows, puteți instala PyAudio cu pip:

pip instalează pyaudio

Creați un nou fișier python

nano get_index.py

Inserați pe get_index.py sub fragmentul de cod:

import pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') for i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("ID dispozitiv de intrare", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Rulați următoarea comandă:

python3 get_index.py

În cazul meu, comanda oferă următoarea ieșire pe ecran:

ID dispozitiv 1 - ReSpeaker 4 Mic Array (UAC1.0)

ID dispozitiv 2 de intrare - Microfon MacBook Air

Schimbați device_index la numărul de index conform alegerii dvs. în fragmentul de cod de mai jos.

importați recunoașterea vorbirii ca sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: print ("say something! …") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print („Ați spus:„ + recog), cu excepția sr. UnknownValueError: print („Google Speech Recognition nu a putut înțelege sunetul”), cu excepția sr. RequestError ca e: print („Nu s-au putut solicita rezultate de la serviciul Google Speech Recognition; {0}”. Format (e))

Indexul dispozitivului a fost ales 1 datorită ReSpeaker 4 Mic Array va fi ca sursă principală.

Pasul 3: Text-to-speech în Python cu biblioteca Pyttsx3

Există mai multe API-uri disponibile pentru a converti textul în vorbire în python. Una dintre astfel de API-uri este pyttsx3, care este cel mai bun pachet disponibil text-la-vorbire, după părerea mea. Acest pachet funcționează în Windows, Mac și Linux. Verificați documentația oficială pentru a vedea cum se face acest lucru.

Instalați pachetul Utilizați pip pentru a instala pachetul.

pip instalează pyttsx3

Dacă vă aflați în Windows, veți avea nevoie de un pachet suplimentar, pypiwin32 de care va avea nevoie pentru a accesa API-ul vorbitor nativ Windows.

pip instalează pypiwin32

Mai jos este fragmentul de cod pentru text în vorbire folosind pyttsx3:

import pyttsx3

motor = pyttsx3.init ()

engine.setProperty („rate”, 150) # Procent de viteză

engine.setProperty („volum”, 0.9) # Volumul 0-1

engine.say („Bună ziua, lume!”)

engine.runAndWait ()

Pasul 4: Unirea tuturor: Construirea recunoașterii vorbirii cu Python folosind API-ul Google Recunoaștere vorbire și biblioteca Pyttsx3

Codul de mai jos este responsabil pentru recunoașterea vorbirii umane folosind Google Speech Recognition și conversia textului în vorbire folosind biblioteca pyttsx3.

importați recunoașterea vorbirii ca sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) cu vorbire ca sursă: audio = r.adjust_for_ambient_noise (sursă) audio = r.listen (sursă) try: recog = r.recognize_google (audio, language = 'en-US') print ("Ai spus:" + recog) engine.say (" Ați spus: „+ recog) engine.runAndWait () cu excepția sr. UnknownValueError: engine.say („ Google Speech Recognition nu a putut înțelege sunetul”) engine.runAndWait () cu excepția sr. RequestError ca e: engine.say („ Could not solicitați rezultate de la serviciul Google Speech Recognition; {0} ". format (e)) engine.runAndWait ()

Tipărește ieșirea pe terminal. De asemenea, va fi convertit și în vorbire.

Ai spus: Londra este capitala Marii Britanii

Sper că acum aveți o mai bună înțelegere a modului în care funcționează recunoașterea vorbirii în general și, cel mai important, cum să implementați acest lucru folosind Google Speech Recognition API cu Python.

Dacă aveți întrebări sau feedback? Lasă un comentariu mai jos. Rămâneți aproape!

Recomandat:

Recunoașterea vorbirii cu Arduino (Bluetooth + LCD + Android): 6 pași

Recunoașterea vorbirii cu Arduino (Bluetooth + LCD + Android): În acest proiect, vom face recunoașterea vorbirii cu Arduino, modulul Bluetooth (HC-05) și LCD. să construim propriul dispozitiv de recunoaștere a vorbirii

Recunoașterea dispozitivelor în timp real folosind urmele EM: 6 pași

Recunoașterea dispozitivelor în timp real folosind urmele EM: Acest dispozitiv este destinat să clasifice diferite dispozitive electronice în funcție de semnalele lor EM. Pentru diferite dispozitive, acestea au semnale EM diferite emise de acesta. Am dezvoltat o soluție IoT pentru a identifica dispozitivele electronice folosind Particle

Recunoașterea stelelor folosind viziunea computerizată (OpenCV): 11 pași (cu imagini)

Recunoașterea stelelor folosind viziunea computerizată (OpenCV): această instrucțiune vă va descrie cum să creați un program de viziune computerizată pentru a identifica automat tiparele stelelor dintr-o imagine. Metoda folosește biblioteca OpenCV (Open-Source Computer Vision) pentru a crea un set de cascade HAAR instruite care pot fi

Recunoașterea și identificarea feței Arduino Face ID folosind OpenCV Python și Arduino .: 6 pași

Recunoașterea și identificarea feței | Arduino Face ID Folosind OpenCV Python și Arduino .: Recunoașterea facială AKA Face ID este una dintre cele mai importante caracteristici de pe telefoanele mobile din zilele noastre. Așadar, am avut o întrebare „pot să am un id al feței pentru proiectul meu Arduino”? iar răspunsul este da … Călătoria mea a început după cum urmează: Pasul 1: Acces la noi

Tehnologie de asistență pentru dificultățile vorbirii folosind MakeyMakey W / Scratch: 4 pași

Tehnologie de asistență pentru dificultăți de vorbire Utilizarea MakeyMakey W / Scratch: Dispozitivul meu de tehnologie de asistență este utilizat pentru a ajuta cu dizabilități de vorbire sau cu vorbire limitată. Este. menit să ajute în procesul de învățare

Recunoașterea vorbirii folosind API-ul Google Speech și Python: 4 pași

Cuprins:

Recunoaștere a vorbirii

Pasul 1: ReSpeaker USB 4-Mic Array

Pasul 2: Instalați bibliotecile necesare

Pasul 3: Text-to-speech în Python cu biblioteca Pyttsx3

Pasul 4: Unirea tuturor: Construirea recunoașterii vorbirii cu Python folosind API-ul Google Recunoaștere vorbire și biblioteca Pyttsx3

Recomandat:

Recunoașterea vorbirii cu Arduino (Bluetooth + LCD + Android): 6 pași

Recunoașterea dispozitivelor în timp real folosind urmele EM: 6 pași

Recunoașterea stelelor folosind viziunea computerizată (OpenCV): 11 pași (cu imagini)

Recunoașterea și identificarea feței Arduino Face ID folosind OpenCV Python și Arduino .: 6 pași

Tehnologie de asistență pentru dificultățile vorbirii folosind MakeyMakey W / Scratch: 4 pași

Alimentare de înaltă tensiune: 4 pași

Cubesat cu senzor de calitate a aerului și Arduino: 4 pași

Temperatura și umiditatea CubeSat: 7 pași

BI - CONTOR DIRECTIONAL DE VISITARE CU 8051 (AT89S52): 4 pași

RC Thrust Dyno: 10 pași

PiPlate: Raspberry Pi Circuit Prototyping Design: 4 Etape

Ceasul lunii cu dragonul: 8 pași (cu imagini)

Sistem de alertă a solului cu umiditate scăzută pentru planta dvs.: 5 pași

Minecraft interactiv Nu introduceți sabie / semn (ESP32-CAM): 15 pași (cu imagini)

Arduino autonom 3.3V W / ceas extern de 8 MHz programat de la Arduino Uno prin ICSP / ISP (cu monitorizare serială!): 4 pași

Cutie de expunere față-verso UV: 5 pași (cu imagini)

Semafor / Feu Tri-Color!: 11 pași

Broșă Open Heart LilyPad Arduino: 5 pași (cu imagini)

Identificare IPod: 5 pași

Postarea pe BlogSpot prin e-mail: 6 pași

Construiește o carcasă pentru PC din lemn: 8 pași