Erste Schritte mit der Text-to-Speech-API von Google Cloud

In diesem Tutorial führen wir Sie durch den Prozess der Einrichtung und Verwendung der Text-to-Speech-API von Google Cloud, einschließlich Beispielen und Code-Schnipseln.

Einführung in die Text-to-Speech-API von Google

Als Softwareentwickler benötigen Sie häufig die Integration verschiedener APIs in Ihre Anwendungen, um deren Funktionalität zu verbessern. Die Text-to-Speech-API von Google Cloud ist ein leistungsfähiges Werkzeug, das Text in natürlich klingende Sprache umwandelt.

Die häufigsten Anwendungsfälle für die Google TTS API umfassen:

Barrierefreiheit: Eines der Hauptanwendungsgebiete von TTS-Technologie ist die Verbesserung der Barrierefreiheit für Personen mit Sehbeeinträchtigungen oder Leseschwierigkeiten. Durch die Umwandlung von Text in Sprache ermöglicht die API Benutzern den Zugang zu digitalem Inhalt über Audio, was es für sie einfacher macht, Webseiten zu navigieren, Artikel zu lesen und sich mit Online-Diensten auseinanderzusetzen
Virtuelle Assistenten: Die TTS API wird oft verwendet, um virtuelle Assistenten und Chatbots zu betreiben, die es ihnen ermöglichen, mit Benutzern auf eine menschlichere Weise zu kommunizieren. Dies verbessert die Benutzerfreundlichkeit und ermöglicht Entwicklern die Schaffung von ansprechenderen und interaktiveren Anwendungen.
E-Learning: In the education sector, the Google TTS API can be utilized to create audio versions of textbooks, articles, and other learning materials. This enables students to consume educational content while on the go, multitasking, or simply preferring to listen rather than read.
Hörbücher: Die Google TTS API kann verwendet werden, um geschriebenes Material in Hörbücher umzuwandeln, was Benutzern eine alternative Möglichkeit bietet, Bücher, Artikel und andere geschriebene Materialien zu genießen. Dies spart nicht nur Zeit und Ressourcen für die manuelle Erzählung, sondern ermöglicht auch eine schnelle Inhaltserstellung und -verteilung.
Sprachlernen: Die API unterstützt mehrere Sprachen und ist daher ein wertvolles Werkzeug für Sprachlernanwendungen. Durch die Erzeugung genauer und natürlich klingender Sprache kann die TTS-API den Benutzern dabei helfen, ihre Hörfähigkeiten, Aussprache und allgemeine Sprachverständnisse zu verbessern.
Content-Marketing: Unternehmen können die TTS-API nutzen, um Audioversionen von ihren Blog-Beiträgen, Artikeln und anderen Marketingmaterialien zu erstellen. Dies ermöglicht es ihnen, ein breiteres Publikum zu erreichen, einschließlich solcher, die es vorziehen, Inhalte zu hören statt sie zu lesen.
Telekommunikation: Die TTS-API kann in interaktiven Voice-Response-Systemen (IVR) integriert werden, wodurch Unternehmen Kundenserviceanrufe automatisieren, Informationen an Anrufer liefern und sie an die entsprechenden Abteilungen weiterleiten können. Dies hilft Unternehmen, Zeit und Ressourcen zu sparen, während sie ein hohes Maß an Kundenzufriedenheit gewährleisten.

Verwenden von Google’s Text-to-Speech API

Voraussetzungen

Bevor wir beginnen, stellen Sie sicher, dass Sie Folgendes haben:

A Google Cloud Platform (GCP) account. If you don’t have one, sign up for a free trial here.
Grundlegende Kenntnisse der Python-Programmierung.
A text editor or integrated development environment of your choice.

Schritt 1: Aktivieren der Text-to-Speech API

Melden Sie sich bei Ihrem GCP-Konto an und navigieren Sie zum GCP-Konsolen.
Klicken Sie auf das Projekt-Dropdown und erstellen Sie ein neues Projekt oder wählen Sie ein vorhandenes aus.
Klicken Sie im linken Seitenbereich auf APIs & Services > Bibliothek.
Suchen Sie nach Text-to-Speech API und klicken Sie auf das Ergebnis.
Klicken Sie auf Aktivieren, um die API für Ihr Projekt zu aktivieren.

Schritt 2: Erstellen von API-Zertifikaten

Klicken Sie im linken Seitenbereich auf APIs & Services > Zertifikate.
Klicken Sie auf Zertifikate erstellen und wählen Sie Dienstkonto.
Geben Sie die erforderlichen Details ein und klicken Sie auf Erstellen.
Auf der Diesem Dienstkonto Zugriff auf das Projekt gewähren Seite wählen Sie die Cloud Text-to-Speech API-Benutzer Rolle und klicken Sie auf Weiter.
Klicken Sie auf Fertig, um das Dienstkonto zu erstellen.
Klicken Sie in der Dienstkonten-Liste auf das neu erstellte Dienstkonto.
Unter Schlüssel klicken Sie auf Schlüssel hinzufügen und wählen JSON.
Laden Sie die JSON-Schlüsseldatei herunter und speichern Sie sie sicher, da sie sensible Informationen enthält.

Schritt 3: Richten Sie Ihre Python-Umgebung ein

Installieren Sie das Google Cloud SDK, indem Sie die Anweisungen hier befolgen.
Installieren Sie die Google Cloud Text-to-Speech-Bibliothek für Python:
```
  pip install --upgrade google-cloud-texttospeech
```
Setzen Sie die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den Pfad der zuvor heruntergeladenen JSON-Schlüsseldatei:
```
  export GOOGLE_APPLICATION_CREDENTIALS="/pfad/zu/ihrer/schlüsseldatei.json"
```
(Ersetzen Sie /pfad/zu/ihrer/schlüsseldatei.json durch den tatsächlichen Pfad zu Ihrer JSON-Schlüsseldatei.)

Schritt 4: Erstellen Sie ein Python-Skript

Erstelle ein neues Python-Skript (wie z.B. text_to_speech.py) und füge den folgenden Code hinzu:

from google.cloud import texttospeech
def synthesize_speech(text, output_filename):

# Erstelle einen Text-zu-Sprache-Client
client = texttospeech.TextToSpeechClient()

# Setze die Texteingabe
input_text = texttospeech.SynthesisInput(text=text)

# Konfiguriere die Stimmeinstellungen
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)

# Setze die Audio-Konfiguration
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)

# Führe die Text-zu-Sprache-Anfrage aus
response = client.synthesize_speech(
input=input_text, voice=voice, audio_config=audio_config
)

# Speichere das Audio in einer Datei
with open(outputwb") as out:
out.write(response.audio_content)
print(f"Audio content written to '{output_filename}'")

# Teste die Text-zu-Sprache-Funktion
synthesize_speech("Hello, world!", "output.mp3")

Dieses Skript definiert eine synthesize_speech Funktion, die einen Textstring und einen Ausgabedateinamen als Argumente verwendet. Es nutzt die Google Cloud Text-to-Speech API, um den Text in Sprache zu konvertieren, und speichert das resultierende Audio als MP3-Datei.

Schritt 5: Führe das Skript aus

Führe das Python-Skript von der Kommandozeile aus:

python text_to_speech.py

Dies erstellt eine output.mp3 Datei, die die gesprochene Version des Eingabetextes “Hallo, Welt!” enthält.

Schritt 6 (optional): Passende die Stimme und Audio-Einstellungen an

Sie können die Sprach- und Audioeinstellungen anpassen, indem Sie die Variablen voice und audio_config innerhalb der Funktion synthesize_speech ändern. Um beispielsweise die Sprache zu ändern, ersetzen Sie en-US durch einen anderen Sprachcode (zum Beispiel es-ES für Spanisch). Um das Geschlecht zu ändern, ersetzen Sie texttospeech.SsmlVoiceGender.FEMALE durch texttospeech.SsmlVoiceGender.MALE. Für weitere Optionen wenden Sie sich bitte an die Text-to-Speech API Dokumentation.

Feinabstimmung der Text-zu-Sprache-Parameter von Google

Die Speech-to-Text API von Google bietet eine Vielzahl von Konfigurationsparametern, die Entwicklern ermöglichen, das Verhalten der API auf spezifische Anwendungsfälle abzustimmen. Zu den häufigsten Konfigurationsparametern und ihren Anwendungsfällen gehören:

Audio-Codierung: gibt das Codierungsformat des zu übermittelnden Audiodatei an. Die unterstützten Codierungsformate umfassen FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS und SPEEX_WITH_HEADER_BYTE. Entwickler können das geeignete Codierungsformat basierend auf der Eingabequelle, der Audioqualität und der Zielanwendung auswählen.
Audio-Abtastrate: gibt die Rate an, mit der die Audiodatei abgetastet wird. Die unterstützten Abtastraten umfassen 8000, 16000, 22050 und 44100 Hz. Entwickler können die geeignete Abtastrate basierend auf der Eingabequelle und den Anforderungen der Zielanwendung auswählen.
Sprachcode: legt die Sprache des Eingabesprechens fest. Die unterstützten Sprachen umfassen eine breite Palette von Optionen wie Englisch, Spanisch, Französisch, Deutsch, Mandarin und viele andere. Entwickler können diesen Parameter verwenden, um sicherzustellen, dass die API das Eingabesprechen korrekt transkribiert, in der entsprechenden Sprache.
Modell: ermöglicht Entwicklern, zwischen verschiedenen von Google bereitgestellten Transkriptionsmodellen zu wählen. Die verfügbaren Modelle umfassen Standard, Video, Telefonanruf und Befehl_und_Suche. Entwickler können das geeignete Modell basierend auf dem Eingabequelle und den Anforderungen der Zielanwendung auswählen.
Sprachkontexte: ermöglicht Entwicklern, bestimmte Wörter oder Phrasen anzugeben, die wahrscheinlich im Eingabesprechen auftreten. Dies kann die Genauigkeit der Transkription verbessern, indem der API der Kontext für das Eingabesprechen bereitgestellt wird.

Diese Konfigurationsparameter können auf verschiedene Weisen kombiniert werden, um benutzerdefinierte Konfigurationen zu erstellen, die bestimmten Anwendungsfällen am besten entsprechen. Zum Beispiel könnte ein Entwickler die API so konfigurieren, dass ein Telefonat auf Spanisch mit einem bestimmten Transkriptionsmodell und einer benutzerdefinierten Liste von Sprachkontexten transkribiert wird, um die Genauigkeit zu verbessern.

Insgesamt ist Googles Spracherkennungs-API ein leistungsfähiges Werkzeug zur Umwandlung von Sprache in Text, und die Fähigkeit, ihre Konfiguration anzupassen, macht sie noch vielseitiger. Durch sorgfältiges Auswählen der geeigneten Konfigurationsparameter können Entwickler die Leistung und Genauigkeit der API für eine Vielzahl von Anwendungsfällen optimieren.

Schlussfolgerung

In diesem Tutorial haben wir Ihnen gezeigt, wie Sie mit der Text-to-Speech-API von Google Cloud beginnen können, einschließlich der Einrichtung Ihres GCP-Kontos, der Erstellung von API-Zertifikaten, der Installation der erforderlichen Bibliotheken und des Schreibens eines Python-Skripts zum Konvertieren von Text oder SSML in Sprache. Sie können diese Funktionalität jetzt in Ihre Anwendungen integrieren, um die Benutzererfahrung zu verbessern, Audiocontent zu erstellen oder Barrierefreiheitsfunktionen zu unterstützen.

Häufig gestellte Fragen (FAQs) zur Text-to-Speech-API von Google Cloud

Was sind die Hauptmerkmale der Text-to-Speech-API von Google Cloud?

Die Text-to-Speech-API von Google Cloud ist ein leistungsstarkes Werkzeug, das Text in natürlich klingende Sprache umwandelt. Sie bietet eine Vielzahl von Funktionen, einschließlich über 200 Stimmen in mehr als 40 Sprachen und Varianten, was Ihnen viel Flexibilität in Bezug auf Sprachunterstützung bietet. Sie bietet auch eine Auswahl an von neuronalen Netzwerken angetriebenen Stimmen für unglaublich realistische Sprache. Die API unterstützt SSML-Tags, mit denen Sie Pausen, Zahlen, Datums- und Zeitformatierungen sowie andere Ausspracheanweisungen hinzufügen können. Sie bietet auch ein hohes Maß an Anpassungsmöglichkeiten, einschließlich Tonhöhe, Sprechrhythmus und Lautstärkeregelung.

Wie kann ich mit der Text-to-Speech-API von Google Cloud beginnen?

Um mit der Text-to-Speech-API von Google Cloud zu beginnen, müssen Sie zunächst ein Google Cloud-Projekt einrichten und die Text-to-Speech-API für dieses Projekt aktivieren. Anschließend können Sie Ihr Projekt authentifizieren und Anfragen an die API stellen. Die API verwendet eine einfache Syntax zum Konvertieren von Text in Sprache und Sie können die Stimme und das Format der Sprachausgabe anpassen.

Ist die Text-to-Speech-API von Google Cloud kostenlos zu verwenden?

Die Text-to-Speech-API von Google Cloud ist nicht völlig kostenlos. Sie basiert auf einem Preismodell, das auf die Anzahl der zu Sprache konvertierten Zeichen abzielt. Google bietet jedoch eine kostenlose Ebene für die API an, die Ihnen ermöglicht, eine bestimmte Anzahl von Zeichen pro Monat kostenlos zu konvertieren.

Wie kann ich die Text-to-Speech-API von Google Cloud in meine Anwendung integrieren?

Sie können die Text-to-Speech-API von Google Cloud in Ihre Anwendung integrieren, indem Sie HTTP POST-Anfragen an die API senden. Sie müssen den Text, den Sie in Sprache konvertieren möchten, in der Anfrage enthalten, zusammen mit den gewünschten Anpassungsoptionen. Die API gibt dann eine Audio-Datenantwort zurück, die Sie abspielen oder als Audio-Datei speichern können.

Kann ich die Text-to-Speech-API von Google Cloud für kommerzielle Zwecke verwenden?

Ja, Sie können die Text-to-Speech-API von Google Cloud für kommerzielle Zwecke verwenden. Sie sollten jedoch wissen, dass die Nutzung der API den Google-Nutzungsbedingungen unterliegt und Sie möglicherweise für die API bezahlen müssen, wenn Sie die Grenzen der kostenlosen Ebene überschreiten.

Welche Sprachen unterstützt die Text-to-Speech-API von Google Cloud?

Die Text-to-Speech-API von Google Cloud unterstützt über 40 Sprachen und Varianten, einschließlich Englisch, Spanisch, Französisch, Deutsch, Italienisch, Niederländisch, Russisch, Chinesisch, Japanisch und Koreanisch. Dies macht es zu einem vielseitigen Werkzeug für Anwendungen, die mehrere Sprachen unterstützen müssen.

Wie kann ich die Stimme in der Text-to-Speech-API von Google Cloud anpassen?

Sie können die Stimme in Google Cloud’s Text-to-Speech API anpassen, indem Sie einen Stimmenamen, eine Sprachkennung und ein SSML-Geschlecht in Ihrer API-Anfrage angeben. Sie können auch die Tonhöhe, die Sprechgeschwindigkeit und das Lautstärkeverhältnis der Stimme einstellen.

Kann ich Google Cloud’s Text-to-Speech API offline verwenden?

Nein, Google Cloud’s Text-to-Speech API ist eine cloudbasierte Dienst und benötigt eine Internetverbindung, um zu funktionieren. Sie müssen HTTP-Anfragen an die API senden, und die API gibt Audiodaten über das Internet zurück.

Wie hoch ist die Audioqualität der von Google Cloud’s Text-to-Speech API generierten Sprache?

Die Audioqualität der von Google Cloud’s Text-to-Speech API generierten Sprache ist sehr hoch. Die API verwendet fortgeschrittene neuronale Netzwerke zur Erzeugung natürlich klingender Sprache, die sich fast nicht von menschlicher Sprache unterscheidet.

Kann ich Google Cloud’s Text-to-Speech API verwenden, um eine Hörbuch zu erstellen?

Ja, Sie können Google Cloud’s Text-to-Speech API verwenden, um eine Hörbuch zu erstellen. Sie können große Mengen an Text in hochwertige Sprache umwandeln und die Stimme an die Inhalte des Buches anpassen. Beachten Sie jedoch, dass die Erstellung eines Hörbuchs mit der API eine erhebliche Datenmenge umfassen und Kosten verursachen kann, wenn Sie die Grenzen des kostenlosen Tarifs überschreiten.