كيفية البدء باستخدام واجهة برمجة التطبيقات (API) لتحويل النص إلى كلام في جوجل كلاود

في هذا البرنامج التعليمي، سنرشدك خلال عملية إعداد واستخدام واجهة برمجة التطبيقات (API) لتحويل النص إلى الصوت في جوجل كلاود، بما في ذلك الأمثلة ومقاطع الكود.

تقديم API جوجل لتحويل النص إلى الصوت

كمهندس نظم، غالبًا ما تحتاج إلى دمج مختلف APIs في تطبيقاتك لتعزيز وظائفها. واجهة برمجة التطبيقات (API) لتحويل النص إلى الصوت في جوجل كلاود هي أداة قوية تحول النص إلى خطاب طبيعي الصوت.

الاستخدامات الشائعة لـ API Google TTS هي:

الوصولية: إحدى التطبيقات الأساسية لتقنية TTS هي تحسين الوصولية للأفراد الذين يعانون من ضعف البصر أو الصعوبات في القراءة. من خلال تحويل النص إلى خطاب، تمكن الواجهة من الوصول إلى المحتوى الرقمي عبر الصوت، مما يجعل من السهل عليهم تنقل المواقع وقراءة المقالات والتفاعل مع الخدمات المتنقلة
المساعدين الافتراضيين: غالبًا ما يتم استخدام API TTS لتشغيل المساعدين الافتراضيين والبرامج التي تقوم بالدردشة مع المستخدمين بطريقة أكثر تشبه البشر. هذا يحسن تجربة المستخدم ويسمح للمطورين بإنشاء تطبيقات أكثر تشويقًا وتفاعلية.
E-Learning: In the education sector, the Google TTS API can be utilized to create audio versions of textbooks, articles, and other learning materials. This enables students to consume educational content while on the go, multitasking, or simply preferring to listen rather than read.
كتب صوتية: يمكن استخدام API Google TTS لتحويل المحتوى المكتوب إلى كتب صوتية، مما يوفر طريقة أخرى للمستخدمين للاستمتاع بالكتب والمقالات والمواد المكتوبة الأخرى. هذا لا يقلل فقط من الوقت والموارد المستغرقة في الأداء اليدوي ولكن أيضًا يسمح بإنشاء وتوزيع المحتوى بسرعة.
تعلم اللغات: تدعم الواجهة البرمجية (API) عدة لغات، مما يجعلها أداة قيمة لتطبيقات تعلم اللغات. من خلال توليد خطاب دقيق وطبيعي، يمكن لـ API النطق (TTS) مساعدة المستخدمين على تحسين مهارات الاستماع والنطق وفهم اللغة بشكل عام.
التسويق المحتوى: يمكن للشركات استغلال API النطق لإنشاء نسخ صوتية من مقالات مدوناتهم ومقالات أخرى ومواد تسويقية أخرى. هذا يمكّنهم من الوصول إلى جمهور أوسع، بما في ذلك أولئك الذين يفضلون الاستماع إلى المحتوى بدلاً من قراءته.
الاتصالات: يمكن دمج API النطق في أنظمة تفاعلية الاستعلامات (IVR)، مما يسمح للشركات بأتمتة دعم العملاء وتقديم المعلومات للمتصلين وتوجيههم إلى الإدارات المناسبة. هذا يساعد الشركات على توفير الوقت والموارد بينما تحافظ على مستوى عالٍ من رضا العملاء.

استخدام واجهة برمجة تطبيقات Google لـ API النطق إلى الصوت

المتطلبات الأساسية

قبل أن نبدأ، تأكد من أن لديك ما يلي:

A Google Cloud Platform (GCP) account. If you don’t have one, sign up for a free trial here.
المعرفة الأساسية ببرمجة Python.
A text editor or integrated development environment of your choice.

الخطوة 1: تمكين API النطق

قم بتسجيل الدخول إلى حساب GCP الخاص بك وانتقل إلى وحدة تحكم GCP.
انقر فوق قائمة المشروع وقم بإنشاء مشروع جديد أو اختر مشروع موجود.
في الشريط الجانبي الأيسر، انقر فوق APIs & Services > Library.
ابحث عن Text-to-Speech API وانقر على النتيجة.
انقر تمكين لتمكين الميزة لمشروعك.

الخطوة 2: إنشاء بيانات اعتماد الميزة

في الشريط الجانبي الأيسر، انقر فوق APIs & Services > Credentials.
انقر إنشاء بيانات اعتماد واختر حساب خدمة.
قم بملء التفاصيل المطلوبة وانقر إنشاء.
على صفحة منح حساب الخدمة الإذن للوصول إلى المشروع، اختر الدور مستخدم API Cloud Text-to-Speech وانقر استمر.
انقر تم لإنشاء حساب الخدمة.
في قائمة حسابات الخدمة، انقر على حساب الخدمة المنشأ حديثًا.
تحت المفاتيح، انقر فوق إضافة مفتاح واختر JSON.
قم بتنزيل ملف مفتاح JSON والاحتفاظ به في مكان آمن، حيث يحتوي على معلومات حساسة.

الخطوة 3: إعداد بيئة Python الخاصة بك

قم بتثبيت Google Cloud SDK حسب التعليمات هنا.
قم بتثبيت مكتبة Google Cloud Text-to-Speech لـ Python:
```
  pip install --upgrade google-cloud-texttospeech
```
قم بتعيين متغير البيئة GOOGLE_APPLICATION_CREDENTIALS إلى مسار ملف المفتاح JSON الذي قمت بتنزيله سابقًا:
```
  export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/keyfile.json"
```
(استبدل /path/to/your/keyfile.json بالمسار الفعلي لملف JSON الخاص بك.)

الخطوة 4: إنشاء سكربت Python

أنشئ ملف Python جديد (مثل text_to_speech.py) وأضف التعليمات البرمجية التالية:

from google.cloud import texttospeech
def synthesize_speech(text, output_filename):

# إنشاء عميل تحويل النص إلى صوت
client = texttospeech.TextToSpeechClient()

# تحديد النص المدخل
input_text = texttospeech.SynthesisInput(text=text)

# تكوين إعدادات الصوت
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
)

# تحديد تكوين الصوت
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)

# إجراء طلب تحويل النص إلى صوت
response = client.synthesize_speech(
input=input_text, voice=voice, audio_config=audio_config
)

# حفظ الصوت في ملف
with open(outputwb") as out:
out.write(response.audio_content)
print(f"Audio content written to '{output_filename}'")

# اختبار وظيفة تحويل النص إلى صوت
synthesize_speech("Hello, world!", "output.mp3")

يعرض هذا ال스크ربت دالة synthesize_speech تأخذ كلمة نصية واسم ملف الإخراج كوسيطات. يستخدم API تحويل النص إلى صوت في Google Cloud لتحويل النص إلى صوت ويحفظ النتيجة الصوتية كملف MP3.

الخطوة 5: تشغيل الملف البرمجي

قم بتنفيذ الملف البرمجي Python من سطر الأوامر:

python text_to_speech.py

سيخلق هذا ملف output.mp3 يحتوي على نسخة صوتية من النص المدخل “Hello, world!”.

الخطوة 6 (اختياري): تخصيص إعدادات الصوت والصوتية

يمكنك تخصيص إعدادات الصوت والصوت عبر تعديل متغيرات voice و audio_config داخل الدالة synthesize_speech. على سبيل المثال، لتغيير اللغة، استبدل en-US برمز لغة مختلف (مثل es-ES للغة الإسبانية). لتغيير الجنس، استبدل texttospeech.SsmlVoiceGender.FEMALE بـ texttospeech.SsmlVoiceGender.MALE. لمزيد من الخيارات، انظر إلى وثائق واجهة برمجة التطبيقات لتحويل النص إلى خطاب.

ضبط معلمات تحويل Google النصي إلى خطاب

واجهة برمجة التطبيقات تحويل الخطاب إلى نص Google توفر مجموعة واسعة من المعلمات التكوينية التي تسمح للمطورين بضبط سلوك الواجهة لتلبية استخدامات محددة. بعض المعلمات التكوينية الشائعة واستخداماتها تشمل:

ترميز الصوت: يحدد تنسيق ترميز ملف الصوت الذي يتم إرساله إلى الواجهة. تشمل التنسيقات المدعومة FLAC، LINEAR16، MULAW، AMR، AMR_WB، OGG_OPUS، و SPEEX_WITH_HEADER_BYTE. يمكن للمطورين اختيار تنسيق الترميز المناسب بناءً على المصدر الإدخالي، جودة الصوت، والتطبيق المستهدف.
معدل أخذ عينات الصوت: يحدد معدل أخذ العينات لملف الصوت. تشمل المعدلات المدعومة 8000، 16000، 22050، و 44100 هرتز. يمكن للمطورين اختيار المعدل المناسب بناءً على المصدر الإدخالي ومتطلبات التطبيق المستهدف.
كود اللغة: يحدد اللغة التي يتم توصيل الكلام بها. تشمل اللغات المدعومة مجموعة واسعة من الخيارات مثل الإنجليزية، الإسبانية، الفرنسية، الألمانية، الماندرين، وغيرها الكثير. يمكن للمطورين استخدام هذا المعلم لضمان تسجيل محرك البحث بدقة الكلام المدخل باللغة المناسبة.
نموذج: يسمح للمطورين باختيار بين نماذج التسجيل المختلفة التي تقدمها جوجل. تشمل الأنماط المتاحة الافتراضية، الفيديو، مكالمة هاتفية، والأمر_والبحث. يمكن للمطورين اختيار النموذج المناسب بناءً على مصدر المدخل ومتطلبات التطبيق المستهدف.
سياقات الكلام: يسمح للمطورين بتحديد كلمات أو عبارات محددة من المرجح أن تظهر في الكلام المدخل. يمكن أن يحسن دقة التسجيل من خلال توفير محرك البحث بسياق للكلام المدخل.

يمكن دمج هذه المعلمات التكوينية بطرق مختلفة لإنشاء تكوينات مخصصة تناسب الحالات الاستخدام المحددة. على سبيل المثال، يمكن للمطور تكوين محرك البحث لتسجيل مكالمة هاتفية بالإسبانية باستخدام نموذج تسجيل محدد وقائمة خاصة بسياقات الكلام لتحسين الدقة.

المجمل، منشأة جوجل لتحويل الكلام إلى نص هي أداة قوية لتسجيل الكلام إلى نص، والقدرة على تخصيص تكوينها يجعلها أكثر تنوعًا. من خلال اختيار المعلمات التكوينية المناسبة بعناية، يمكن للمطورين تحسين أداء محرك البحث ودقته لمجموعة واسعة من الحالات الاستخدام.

الخاتمة

في هذا البرنامج التعليمي، قدمنا لك كيفية البدء باستخدام واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud، بما في ذلك إعداد حساب GCP الخاص بك، إنشاء بيانات توثيق الـ API، تثبيت المكتبات الضرورية، وكتابة سكربت بايثون لتحويل النص أو SSML إلى خطاب. يمكنك الآن دمج هذه الوظيفة في تطبيقاتك لتحسين تجربة المستخدم، إنشاء محتوى صوتي، أو دعم ميزات الوصول.

الأسئلة الشائعة (FAQs) حول واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud

ما هي الميزات الرئيسية لواجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud؟

واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud هي أداة قوية تحول النص إلى خطاب طبيعي الصوت. تقدم مجموعة واسعة من الميزات بما في ذلك أكثر من 200 صوت عبر 40+ لغة وتحويلات، مما يمنحك الكثير من المرونة من حيث دعم اللغة. توفر أيضًا مجموعة من الأصوات التي تعمل بواسطة شبكات عصبية لطقوم الخطاب الواقعية بشكل لا يصدق. تدعم واجهة برمجة التطبيقات (API) علامات SSML، مما يسمح لك بإضافة فواصل، أرقام، تنسيق تواريخ وأوقات، وتعليمات تهجئة أخرى. تقدم أيضًا مستوى عالٍ من التخصيص، بما في ذلك مدى النبرة، معدل الكلام، والحصص الصوتية.

كيف يمكنني البدء باستخدام واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud؟

للبدء باستخدام واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud، تحتاج أولاً إلى إعداد مشروع Google Cloud وتمكين واجهة برمجة التطبيقات (API) Text-to-Speech لهذا المشروع. بعد ذلك يمكنك توثيق مشروعك وبدء إرسال طلبات إلى الـ API. تستخدم الـ API بناء جملة بسيط لتحويل النص إلى خطاب، ويمكنك تخصيص الصوت ونمط إخراج الخطاب.

هل واجهة برمجة التطبيقات (API) Text-to-Speech في Google Cloud مجانية الاستخدام؟

مكتوب: واجهة برمجة التطبيقات Text-to-Speech في Google Cloud ليست مجانية تمامًا. تأتي مع نموذج تسعير يعتمد على عدد الأحرف التي تحولها إلى خطاب. ومع ذلك، يقدم Google طبقة مجانية لواجهة البرمجة التطبيقات، مما يسمح لك بتحويل عدد معين من الأحرف شهريًا مجانًا.

كيف يمكنني دمج واجهة برمجة التطبيقات Text-to-Speech في Google Cloud في تطبيقي؟

يمكنك دمج واجهة برمجة التطبيقات Text-to-Speech في Google Cloud في تطبيقك عن طريق إرسال طلبات POST HTTP إلى الواجهة. تحتاج إلى تضمين النص الذي ترغب في تحويله إلى خطاب في الطلب، جنبًا إلى جنب مع أي خيارات تخصيص تريد تطبيقها. ستقوم الواجهة بعد ذلك بإرجاع استجابة بيانات صوتية، والتي يمكنك تشغيلها أو حفظها كملف صوتي.

هل يمكنني استخدام واجهة برمجة التطبيقات Text-to-Speech في Google Cloud لأغراض تجارية؟

نعم، يمكنك استخدام واجهة برمجة التطبيقات Text-to-Speech في Google Cloud لأغراض تجارية. ومع ذلك، يجب أن تدرك أن استخدام الواجهة قائم على شروط خدمة Google، وقد تحتاج إلى دفع ثمن الواجهة إذا تجاوزت حدود الطبقة المجانية.

ما هي اللغات التي تدعمها واجهة برمجة التطبيقات Text-to-Speech في Google Cloud؟

تدعم واجهة برمجة التطبيقات Text-to-Speech في Google Cloud أكثر من 40 لغة ومتغيرات، بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، الهولندية، الروسية، الصينية، اليابانية، والكورية. هذا يجعلها أداة متعددة الاستخدامات للتطبيقات التي تحتاج إلى دعم العديد من اللغات.

كيف يمكنني تخصيص الصوت في واجهة برمجة التطبيقات Text-to-Speech في Google Cloud؟

يمكنك تخصيص الصوت في واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud عن طريق تحديد اسم الصوت وكود اللغة وجنس SSML في طلب API الخاص بك. يمكنك أيضًا تعديل المنطقة، ومعدل الكلام، ومكبر الصوت للصوت.

هل يمكنني استخدام واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud عن طريق الاتصال الخارجي؟

لا، واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud هي خدمة قاعدة بيانات السحابة وتتطلب اتصالاً بالإنترنت للعمل. تحتاج لتقديم طلبات HTTP إلى API، والذي يعيد البيانات الصوتية عبر الإنترنت.

ما هو جودة الصوت للكلام المولد بواسطة واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud؟

جودة الصوت للكلام المولد بواسطة واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud عالية جدًا. تستخدم الواجهة الشبكات العصبية المتقدمة لتوليد حروف صوتية طبيعية يصعب تمييزها عن الكلام البشري.

هل يمكنني استخدام واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud لإنشاء كتاب صوتي؟

نعم، يمكنك استخدام واجهة برمجة التطبيقات Text-to-Speech لمتجر Google Cloud لإنشاء كتاب صوتي. يمكنك تحويل كميات كبيرة من النص إلى كلام عالي الجودة، ويمكنك تخصيص الصوت ليناسب محتوى الكتاب. ومع ذلك، يجب أن تدرك أن إنشاء كتاب صوتي باستخدام الواجهة قد ينطوي على كمية كبيرة من البيانات وقد يتسبب في تكاليف إذا تجاوزت حدود الطبقة المجانية.