Come iniziare con l’API Text-to-Speech di Google Cloud

In questo tutorial, ti guideremo attraverso il processo di configurazione e utilizzo dell’API Text-to-Speech di Google Cloud, inclusa la presentazione di esempi e frammenti di codice.

Introduzione all’API Text-to-Speech di Google

Come ingegnere del software, spesso è necessario integrare varie API nei tuoi applicativi per migliorarne la funzionalità. L’API Text-to-Speech di Google Cloud è uno strumento potente che converte il testo in parlato naturale.

Le applicazioni più comuni per l’API Google TTS includono:

Accessibilità: Una delle principali applicazioni della tecnologia TTS è migliorare l’accessibilità per individui con disabilità visive o difficoltà di lettura. Convertendo il testo in parlato, l’API consente agli utenti di accedere al contenuto digitale attraverso l’audio, rendendo più facile per loro navigare nei siti web, leggere articoli e interagire con i servizi online
Assistenti virtuali: L’API TTS viene spesso utilizzata per alimentare assistenti virtuali e chatbot, dando loro la capacità di comunicare con gli utenti in modo più umano. Ciò migliora l’esperienza utente e consente agli sviluppatori di creare applicazioni più coinvolgenti e interattive.
E-Learning: In the education sector, the Google TTS API can be utilized to create audio versions of textbooks, articles, and other learning materials. This enables students to consume educational content while on the go, multitasking, or simply preferring to listen rather than read.
Audiobook: L’API Google TTS può essere utilizzata per convertire i contenuti scritti in audiobook, offrendo un modo alternativo agli utenti di godersi libri, articoli e altri materiali scritti. Ciò non solo risparmia tempo e risorse sulla narrazione manuale, ma consente anche una rapida creazione e distribuzione di contenuti.
Apprendimento delle Lingue: L’API supporta più lingue, rendendola uno strumento prezioso per le applicazioni di apprendimento delle lingue. Generando discorsi accurati e che sembrano naturali, l’API TTS può aiutare gli utenti a migliorare le loro abilità di ascolto, pronuncia e comprensione complessiva della lingua.
Content Marketing: Le aziende possono sfruttare l’API TTS per creare versioni audio dei loro post di blog, articoli e altri materiali di marketing. Ciò consente loro di raggiungere un pubblico più ampio, compresi quelli che preferiscono ascoltare il contenuto piuttosto che leggerlo.
Telecomunicazioni: L’API TTS può essere integrata nei sistemi di Risposta Vocale Interattiva (IVR), consentendo alle aziende di automatizzare le chiamate al servizio clienti, fornire informazioni ai chiamanti e indirizzarli ai dipartimenti appropriati. Questo aiuta le aziende a risparmiare tempo e risorse mantenendo un alto livello di soddisfazione del cliente.

Utilizzo dell’API Text-to-Speech di Google

Prerequisiti

Prima di iniziare, assicurati di avere quanto segue:

A Google Cloud Platform (GCP) account. If you don’t have one, sign up for a free trial here.
Conoscenza di base della programmazione Python.
A text editor or integrated development environment of your choice.

Passo 1: Abilita l’API Text-to-Speech

Accedi al tuo account GCP e naviga verso la console GCP.
Fai clic sul menu a discesa del progetto per crearne uno nuovo o selezionarne uno esistente.
Nella barra laterale a sinistra, clicca su API e Servizi > Biblioteca.
Cerca API Text-to-Speech e clicca sul risultato.
Fai clic su Abilita per abilitare l’API per il tuo progetto.

Passo 2: Creare le credenziali dell’API

Nella barra laterale a sinistra, clicca su API e Servizi > Credenziali.
Fai clic su Crea credenziali e seleziona Account di servizio.
Compila i dettagli richiesti e clicca su Crea.
Nella pagina Concedi all’account di servizio l’accesso al progetto, seleziona il ruolo Utente dell’API Cloud Text-to-Speech e clicca su Continua.
Fai clic su Fatto per creare l’account di servizio.
Nell’elenco Account di servizio, clicca sull’account di servizio appena creato.
Sotto Chiavi, clicca su Aggiungi Chiave e seleziona JSON.
Scarica il file della chiave JSON e conservalo in modo sicuro, poiché contiene informazioni sensibili.

Passo 3: Configura il tuo ambiente Python

Installa il Google Cloud SDK seguendo le istruzioni qui.
Installa la libreria Google Cloud Text-to-Speech per Python:
```
  pip install --upgrade google-cloud-texttospeech
```
Imposta la variabile di ambiente GOOGLE_APPLICATION_CREDENTIALS con il percorso del file della chiave JSON che hai scaricato in precedenza:
```
  export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/keyfile.json"
```
(Sostituisci /path/to/your/keyfile.json con il percorso effettivo del tuo file della chiave JSON.)

Passo 4: Crea uno Script Python

from google.cloud import texttospeech
def synthesize_speech(text, output_filename):


# Creare un client di Text-to-Speech

client = texttospeech.TextToSpeechClient()


# Impostare l'input di testo

input_text = texttospeech.SynthesisInput(text=text)


# Configurare le impostazioni della voce

voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)


# Impostare la configurazione audio

audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)


# Eseguire la richiesta di Text-to-Speech

response = client.synthesize_speech(
input=input_text, voice=voice, audio_config=audio_config
)


# Salvare l'audio in un file

with open(outputwb") as out:
out.write(response.audio_content)
print(f"Audio content written to '{output_filename}'")


# Testare la funzione Text-to-Speech

synthesize_speech("Hello, world!", "output.mp3")

Questo script definisce una funzione synthesize_speech che prende una stringa di testo e un nome di file di output come argomenti. Utilizza l’API Google Cloud Text-to-Speech per convertire il testo in parlato e salva il risultato audio come file MP3.

Passo 5: Eseguire lo script

Eseguire lo script Python dalla linea di comando:

python text_to_speech.py

Ciò creerà un file output.mp3 contenente la versione parlata del testo di input “Hello, world!”.

Passo 6 (opzionale): Personalizzare le impostazioni della voce e dell’audio

Puoi personalizzare le impostazioni della voce e dell’audio modificando le variabili voice e audio_config nella funzione synthesize_speech. Ad esempio, per cambiare la lingua, sostituisci en-US con un codice di lingua diverso (come es-ES per lo spagnolo). Per cambiare il genere, sostituisci texttospeech.SsmlVoiceGender.FEMALE con texttospeech.SsmlVoiceGender.MALE. Per ulteriori opzioni, fare riferimento alla documentazione dell’API Text-to-Speech.

Regolazione dei parametri di Google Text-To-Speech

L’API Google Speech-to-Text offre una vasta gamma di parametri di configurazione che consentono agli sviluppatori di regolare il comportamento dell’API per soddisfare casi d’uso specifici. Alcuni dei parametri di configurazione più comuni e i loro casi d’uso includono:

Codifica Audio: specifica il formato di codifica dell’audio del file inviato all’API. I formati di codifica supportati includono FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, e SPEEX_WITH_HEADER_BYTE. Gli sviluppatori possono scegliere il formato di codifica appropriato in base alla sorgente di input, alla qualità audio e all’applicazione target.
Frequenza di campionamento audio: specifica la frequenza con cui il file audio viene campionato. Le frequenze di campionamento supportate includono 8000, 16000, 22050 e 44100 Hz. Gli sviluppatori possono selezionare la frequenza di campionamento appropriata in base alla sorgente di input e alle esigenze dell’applicazione target.
Codice Lingua: specifica la lingua della voce di input. Le lingue supportate includono una vasta gamma di opzioni come inglese, spagnolo, francese, tedesco, mandarino e molte altre. Gli sviluppatori possono utilizzare questo parametro per garantire che l’API trascriva accuratamente la voce di input nella lingua appropriata.
Modello: consente agli sviluppatori di scegliere tra diversi modelli di trascrizione forniti da Google. I modelli disponibili includono predefinito, video, phone_call, e command_and_search. Gli sviluppatori possono scegliere il modello appropriato in base alla sorgente di input e alle esigenze dell’applicazione target.
Contesti parlati: consente agli sviluppatori di specificare parole o frasi specifiche che sono probabili di apparire nella voce di input. Ciò può migliorare l’accuratezza della trascrizione fornendo all’API il contesto per la voce di input.

Questi parametri di configurazione possono essere combinati in vari modi per creare configurazioni personalizzate che meglio si adattano a casi d’uso specifici. Ad esempio, uno sviluppatore potrebbe configurare l’API per trascrivere una telefonata in spagnolo utilizzando un modello di trascrizione specifico e un elenco personalizzato di contesti parlati per migliorare l’accuratezza.

In generale, l’API di Speech-to-Text di Google è uno strumento potente per trascrivere la voce in testo, e la capacità di personalizzarne la configurazione lo rende ancora più versatile. Selezionando attentamente i parametri di configurazione appropriati, gli sviluppatori possono ottimizzare le prestazioni e l’accuratezza dell’API per una vasta gamma di casi d’uso.

Conclusione

In questo tutorial, ti abbiamo mostrato come iniziare con l’API Text-to-Speech di Google Cloud, inclusa l’impostazione del tuo account GCP, la creazione delle credenziali API, l’installazione delle librerie necessarie e la scrittura di uno script Python per convertire il testo o l’SSML in parlato. Ora puoi integrare questa funzionalità nei tuoi applicativi per migliorare l’esperienza utente, creare contenuti audio o supportare le funzionalità di accessibilità.

Domande frequenti (FAQs) sull’API Text-to-Speech di Google Cloud

Quali sono le principali caratteristiche dell’API Text-to-Speech di Google Cloud?

L’API Text-to-Speech di Google Cloud è uno strumento potente che converte il testo in parlato con un suono naturale. Offre una vasta gamma di funzionalità, tra cui oltre 200 voci in più di 40 lingue e varianti, offrendoti molta flessibilità in termini di supporto linguistico. Offre anche una selezione di voci basate su reti neurali per un parlato incredibilmente realistico. L’API supporta i tag SSML, consentendoti di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni di pronuncia. Offre anche un alto livello di personalizzazione, inclusa la regolazione dell’intonazione, del ritmo di conversazione e del controllo del guadagno del volume.

Come posso iniziare con l’API Text-to-Speech di Google Cloud?

Per iniziare con l’API Text-to-Speech di Google Cloud, devi prima impostare un progetto Google Cloud e abilitare l’API Text-to-Speech per quel progetto. Puoi quindi autenticare il tuo progetto e iniziare a inviare richieste all’API. L’API utilizza una semplice sintassi per convertire il testo in parlato e puoi personalizzare la voce e il formato dell’output parlato.

L’API Text-to-Speech di Google Cloud è gratuita da usare?

L’API di Google Cloud Text-to-Speech non è completamente gratuita. È dotata di un modello di prezzo basato sul numero di caratteri che si convertono in parlato. Tuttavia, Google offre una fascia gratuita per l’API, che consente di convertire un certo numero di caratteri al mese gratuitamente.

Come posso integrare l’API di Google Cloud Text-to-Speech nel mio applicativo?

Puoi integrare l’API di Google Cloud Text-to-Speech nel tuo applicativo inviando richieste HTTP POST all’API. Devi includere il testo che desideri convertire in parlato nella richiesta, insieme a eventuali opzioni di personalizzazione che desideri applicare. L’API restituirà una risposta con dati audio, che puoi riprodurre o salvare come file audio.

Posso utilizzare l’API di Google Cloud Text-to-Speech per scopi commerciali?

Sì, puoi utilizzare l’API di Google Cloud Text-to-Speech per scopi commerciali. Tuttavia, devi essere consapevole che l’uso dell’API è soggetto ai termini di servizio di Google e potresti dover pagare per l’API se superi i limiti della fascia gratuita.

In quali lingue supporta l’API di Google Cloud Text-to-Speech?

L’API di Google Cloud Text-to-Speech supporta oltre 40 lingue e varianti, tra cui inglese, spagnolo, francese, tedesco, italiano, olandese, russo, cinese, giapponese e coreano. Questo la rende uno strumento versatile per applicazioni che necessitano di supportare più lingue.

Come posso personalizzare la voce nell’API di Google Cloud Text-to-Speech?

Puoi personalizzare la voce nell’API di Text-to-Speech di Google Cloud specificando un nome di voce, un codice di lingua e un genere SSML nella tua richiesta API. Puoi anche regolare il tono, la velocità di parlata e il guadagno di volume della voce.

Posso usare l’API di Text-to-Speech di Google Cloud offline?

No, l’API di Text-to-Speech di Google Cloud è un servizio basato sul cloud e richiede una connessione Internet per funzionare. Devi fare richieste HTTP all’API, e l’API restituisce dati audio tramite Internet.

Qual è la qualità audio della voce generata dall’API di Text-to-Speech di Google Cloud?

La qualità audio della voce generata dall’API di Text-to-Speech di Google Cloud è molto alta. L’API utilizza avanzati neural network per generare una voce naturale che è quasi indistinguibile dalla parlata umana.

Posso usare l’API di Text-to-Speech di Google Cloud per creare un audiolibro?

Sì, puoi usare l’API di Text-to-Speech di Google Cloud per creare un audiolibro. Puoi convertire grandi quantità di testo in parlato di alta qualità, e puoi personalizzare la voce per adattarla al contenuto del libro. Tuttavia, dovresti essere consapevole che creare un audiolibro con l’API potrebbe comportare una quantità significativa di dati e potrebbe comportare costi se superi i limiti della fascia gratuita.