Aan de slag met Google Cloud’s Text-to-Speech API

In deze tutorial laten we je stap voor stap zien hoe je de Google Cloud Text-to-Speech API kunt installeren en gebruiken, inclusief voorbeelden en codefragmenten.

Introductie van Google’s Text-to-Speech API

Als softwareontwikkelaar heb je vaak de behoefte om verschillende APIs te integreren in je applicaties om hun functionaliteit te verbeteren. De Text-to-Speech API van Google Cloud is een krachtig hulpmiddel dat tekst omzet in natuurlijk klinkende spraak.

De meest voorkomende gebruiksvoorbeelden voor de Google TTS API zijn:

  • Toegankelijkheid: Een van de belangrijkste toepassingen van TTS-technologie is het verbeteren van toegankelijkheid voor mensen met visuele beperkingen of leesproblemen. Door tekst om te zetten in spraak, stelt de API gebruikers in staat om digitale inhoud via audio te benaderen, waardoor het voor hen gemakkelijker wordt om websites te navigeren, artikelen te lezen en online diensten te gebruiken.
  • Virtuele assistenten: De TTS API wordt vaak gebruikt om virtuele assistenten en chatbots te ondersteunen, waardoor ze in staat zijn om op een meer menselijke manier met gebruikers te communiceren. Dit verbetert de gebruikerservaring en stelt ontwikkelaars in staat om meer interactieve en aantrekkelijke applicaties te creëren.
  • E-Learning: In the education sector, the Google TTS API can be utilized to create audio versions of textbooks, articles, and other learning materials. This enables students to consume educational content while on the go, multitasking, or simply preferring to listen rather than read.
  • Audioboeken: Met de Google TTS API kun je geschreven inhoud omzetten in audioboeken, waardoor gebruikers een alternatieve manier krijgen om boeken, artikelen en ander geschreven materiaal te genieten. Dit bespaart niet alleen tijd en middelen op handmatige nasynchronisatie, maar maakt ook snelle inhoudscreatie en distributie mogelijk.
  • Taal Leren: De API ondersteunt meerdere talen, waardoor het een waardevol hulpmiddel is voor toepassingen voor taal leren. Door het genereren van nauwkeurige en natuurlijk klinkende spraak kan de TTS API gebruikers helpen hun luistervaardigheden,uitspraak en algemene taalbegrip te verbeteren.
  • Content Marketing: Bedrijven kunnen de TTS API inzetten om audioversies te maken van hun blogberichten, artikelen en andere marketingmateriaal. Dit stelt hen in staat een breder publiek te bereiken, inclusief degenen die liever naar inhoud luisteren in plaats van deze te lezen.
  • Telecommunicatie: De TTS API kan worden geïntegreerd in Interactive Voice Response (IVR) systemen, waardoor bedrijven klantenserviceoproepen kunnen automatiseren, informatie kunnen verstrekken aan beller en hen naar de juiste afdelingen kunnen leiden. Dit helpt bedrijven tijd en middelen te besparen terwijl ze een hoog niveau van klanttevredenheid behouden.

Gebruik van Google’s voor Text-to-Speech API

Vereisten

Voordat we beginnen, zorgervoor dat je het volgende hebt:

  • A Google Cloud Platform (GCP) account. If you don’t have one, sign up for a free trial here.
  • Basis kennis van Python programmeren.
  • A text editor or integrated development environment of your choice.

Stap1: Schakel de Text-to-Speech API in

  • Log in op uw GCP-account en navigeer naar de GCP-console.
  • Klik op het project-dropdown en maak een nieuw project aan of selecteer een bestaand project.
  • Klik in de linkernavigatiebalk op APIs & Services > Library.
  • Zoek naar Text-to-Speech API en klik op het resultaat.
  • Klik op Inschakelen om de API in te schakelen voor uw project.

Stap 2: API-referenties aanmaken

  • Klik in de linkernavigatiebalk op APIs & Services > Referenties.
  • Klik op Referenties aanmaken en selecteer Service account.
  • Vul de vereiste gegevens in en klik op Aanmaken.
  • Op de Geef deze serviceaccount toegang tot project pagina, selecteer de Cloud Text-to-Speech API Gebruiker rol en klik op Doorgaan.
  • Klik op Klaar om de serviceaccount aan te maken.
  • Klik in de Service Accounts lijst op de zojuist gemaakte serviceaccount.
  • Onder Toetsen, klik Toevoegen Toets en selecteer JSON.
  • Download het JSON-toetsbestand en sla het veilig op, aangezien het gevoelige informatie bevat.

Stap 3: Stel je Python-omgeving in

  • Installeer de Google Cloud SDK door de instructies hier te volgen.

  • Installeer de Google Cloud Text-to-Speech bibliotheek voor Python:

      pip install --upgrade google-cloud-texttospeech
    
  • Stel de GOOGLE_APPLICATION_CREDENTIALS omgevingsvariabele in naar het pad van het JSON-toetsbestand dat je eerder hebt gedownload:

      export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/keyfile.json"
    

    (Vervang /path/to/your/keyfile.json door het eigenlijke pad naar je JSON-toetsbestand.)

Stap 4: Maak een Python Script

Maak een nieuw Python script (zoals text_to_speech.py) en voeg de volgende code toe:

from google.cloud import texttospeech
def synthesize_speech(text, output_filename):

# Maak een Text-to-Speech client
client = texttospeech.TextToSpeechClient()

# Stel de tekstinvoer in
input_text = texttospeech.SynthesisInput(text=text)

# Configureer de steminstellingen
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)

# Stel de audioconfiguratie in
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)

# Voer de text-to-speech aanvraag uit
response = client.synthesize_speech(
input=input_text, voice=voice, audio_config=audio_config
)

# Sla de audio op in een bestand
with open(outputwb") as out:
out.write(response.audio_content)
print(f"Audio content written to '{output_filename}'")

# Test de text-to-speech functie
synthesize_speech("Hello, world!", "output.mp3")

Dit script definieert een synthesize_speech functie die een tekststring en een bestandsnaam voor de uitvoer als argumenten neemt. Het gebruikt de Google Cloud Text-to-Speech API om de tekst om te zetten in spraak en slaat de resulterende audio op als een MP3-bestand.

Stap 5: Voer het script uit

Voer het Python-script uit vanaf de opdrachtregel:

python text_to_speech.py

Dit zal een output.mp3 bestand maken dat de gesproken versie bevat van de invoertekst “Hello, world!”.

Stap 6 (optioneel): Pas de stem- en audioconfiguraties aan

Je kunt de stem- en audiobesturingselementen aanpassen door de voice en audio_config variabelen in de synthesize_speech functie aan te passen. Als voorbeeld, om de taal te veranderen, vervang je en-US door een ander taalcode (zoals es-ES voor Spaans). Om het geslacht te veranderen, vervang je texttospeech.SsmlVoiceGender.FEMALE door texttospeech.SsmlVoiceGender.MALE. Voor meer opties, verwijzen we naar de Text-to-Speech API documentatie.

Afstemmen van Google’s Text-To-Speech Parameters

Google’s Speech-to-Text API biedt een breed scala aan configuratieparameters die ontwikkelaars in staat stellen om het gedrag van de API af te stemmen om specifieke gebruiksgevallen te ondersteunen. Sommige van de meest voorkomende configuratieparameters en hun gebruiksgevallen zijn:

  • Audio Codering: specificeert de codering van het audiobestand dat naar de API wordt verzonden. De ondersteunde coderingen omvatten FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, en SPEEX_WITH_HEADER_BYTE. Ontwikkelaars kunnen de juiste codering kiezen op basis van de bron van de input, de kwaliteit van de audio en de doelapplicatie.
  • Audio Beoordelingssnelheid: specificeert de snelheid waarmee het audiobestand wordt bemonsterd. De ondersteunde beoordelingssnelheden omvatten 8000, 16000, 22050 en 44100 Hz. Ontwikkelaars kunnen de juiste beoordelingssnelheid kiezen op basis van de bron van de input en de vereisten van de doelapplicatie.
  • Taalcode: specificeert de taal van de ingevoerde spraak. De ondersteunde talen omvatten een breed scala aan opties zoals Engels, Spaans, Frans, Duits, Mandarijn, en vele anderen. Ontwikkelaars kunnen deze parameter gebruiken om ervoor te zorgen dat de API de ingevoerde spraak accuraat transcritteert in de juiste taal.
  • Model: stelt ontwikkelaars in staat om te kiezen tussen verschillende transcriptiemodellen die door Google worden aangeboden. De beschikbare modellen omvatten standaard, video, telefoongesprek, en command_and_search. Ontwikkelaars kunnen het juiste model kiezen op basis van de bron van de input en de vereisten van de doelapplicatie.
  • Spraakcontexten: stelt ontwikkelaars in staat om specifieke woorden of zinnen te specificeren die waarschijnlijk in de ingevoerde spraak voorkomen. Dit kan de nauwkeurigheid van de transcriptie verbeteren door de API context te bieden voor de ingevoerde spraak.

Deze configuratieparameters kunnen op verschillende manieren worden gecombineerd om aangepaste configuraties te creëren die het beste aansluiten bij specifieke gebruiksgevallen. Bijvoorbeeld, een ontwikkelaar zou de API kunnen configureren om een telefoongesprek in het Spaans te transcritteren met behulp van een specifiek transcriptiemodel en een aangepaste lijst van spraakcontexten om de nauwkeurigheid te verbeteren.

Over het algemeen is Google’s Speech-to-Text API een krachtig hulpmiddel voor het transcritteren van spraak naar tekst, en de mogelijkheid om de configuratie ervan aan te passen maakt het nog veelzijdiger. Door zorgvuldig de juiste configuratieparameters te selecteren, kunnen ontwikkelaars de prestaties en nauwkeurigheid van de API optimaliseren voor een breed scala aan gebruiksgevallen.

Conclusie

In deze tutorial hebben we laten zien hoe je aan de slag kunt gaan met Google Cloud’s Text-to-Speech API, inclusief het instellen van je GCP-account, het maken van API-referenties, het installeren van de benodigde bibliotheken en het schrijven van een Python-script om tekst of SSML om te zetten in spraak. Je kunt nu deze functionaliteit integreren in je toepassingen om de gebruikerservaring te verbeteren, audiocontent te creëren of ondersteuning voor toegankelijkheidsfuncties te bieden.

Veelgestelde Vragen (FAQs) over Google Cloud’s Text-to-Speech API

Wat zijn de belangrijkste functies van Google Cloud’s Text-to-Speech API?

Google Cloud’s Text-to-Speech API is een krachtig hulpmiddel dat tekst omzet in natuurlijk klinkende spraak. Het biedt een breed scala aan functies, waaronder meer dan 200 stemmen in meer dan 40 talen en varianten, waardoor je veel flexibiliteit hebt wat betreft taalonafhankelijkheid. Daarnaast biedt het een selectie aan met neurale netwerken aangedreven stemmen voor ongelooflijk realistische spraak. De API ondersteunt SSML-tags, waardoor je pauzes kunt toevoegen, getallen, datum- en tijdnotatie en andere uitspraakinstructies kunt geven. Het biedt ook een hoog niveau van aanpassing, inclusief toonhoogte, spraaksnelheid en volumegetal.

Hoe kan ik aan de slag met Google Cloud’s Text-to-Speech API?

Om aan de slag te gaan met Google Cloud’s Text-to-Speech API, moet je eerst een Google Cloud-project instellen en de Text-to-Speech API voor dat project inschakelen. Vervolgens kun je je project authenticeren en verzoeken aan de API starten. De API gebruikt een eenvoudige syntaxis voor het omzetten van tekst in spraak en je kunt de stem en de indeling van de spraakuitvoer aanpassen.

Is Google Cloud’s Text-to-Speech API gratis te gebruiken?

De Text-to-Speech API van Google Cloud is niet volledig gratis. Het heeft een prijsmodel gebaseerd op het aantal tekens dat u omzet in spraak. Google biedt echter wel een gratis abonnement voor de API, waarmee u een bepaald aantal tekens per maand kunt omzetten zonder kosten.

Hoe kan ik de Text-to-Speech API van Google Cloud integreren in mijn toepassing?

U kunt de Text-to-Speech API van Google Cloud integreren in uw toepassing door HTTP POST-verzoeken te sturen naar de API. U moet de tekst die u wilt omzetten in spraak inbegrepen hebben in het verzoek, samen met eventuele aanpassingen die u wilt toepassen. De API zal vervolgens een geluidsgegevensantwoord retourneren, dat u kunt afspelen of opslaan als een geluidsbestand.

Mag ik de Text-to-Speech API van Google Cloud voor commerciële doeleinden gebruiken?

Ja, u kunt de Text-to-Speech API van Google Cloud voor commerciële doeleinden gebruiken. U dient echter te weten dat het gebruik van de API onderworpen is aan de gebruiksvoorwaarden van Google en dat u misschien voor de API moet betalen als u de limieten van het gratis abonnement overschrijdt.

Welke talen worden ondersteund door de Text-to-Speech API van Google Cloud?

De Text-to-Speech API van Google Cloud ondersteunt meer dan 40 talen en varianten, waaronder Engels, Spaans, Frans, Duits, Italiaans, Nederlands, Russisch, Chinees, Japans en Koreaans. Dit maakt het tot een veelzijdig hulpmiddel voor toepassingen die meerdere talen moeten ondersteunen.

Hoe kan ik de stem aanpassen in de Text-to-Speech API van Google Cloud?

Je kunt de stem in Google Cloud’s Text-to-Speech API aanpassen door een stemnaam, taalcode en SSML geslacht op te geven in je API-aanvraag. Je kunt ook de toonhoogte, spreeksnelheid en volumeversterking van de stem aanpassen.

Kan ik Google Cloud’s Text-to-Speech API offline gebruiken?

Nee, Google Cloud’s Text-to-Speech API is een cloudgebaseerd dienst en vereist een internetverbinding om te functioneren. Je moet HTTP-aanvragen sturen naar de API, en de API retourneert audiobestanden via het internet.

Wat is de geluidskwaliteit van de door Google Cloud’s Text-to-Speech API gegenereerde spraak?

De geluidskwaliteit van de door Google Cloud’s Text-to-Speech API gegenereerde spraak is zeer hoog. De API gebruikt geavanceerde neurale netwerken om natuurlijk klinkende spraak te genereren die bijna niet te onderscheiden is van menselijke spraak.

Kan ik Google Cloud’s Text-to-Speech API gebruiken om een audioboek te maken?

Ja, je kunt Google Cloud’s Text-to-Speech API gebruiken om een audioboek te maken. Je kunt grote hoeveelheden tekst omzetten in hoogwaardige spraak, en je kunt de stem aanpassen om bij de inhoud van het boek te passen. Let wel dat het maken van een audioboek met de API een grote hoeveelheid gegevens kan betekenen en kosten kan oproepen als je de limieten van de gratis laag overschrijdt.

Source:
https://www.sitepoint.com/started-with-google-clouds-text-to-speech-api/