أمازون بولي: دليل شامل لتحويل النصوص إلى كلام في خدمة أمازون ويب سيرفيس

AWS

في عصر ما بعد GPT، أصبحت التفاعلات الصوتية أكثر أهمية، من المساعدين الافتراضيين إلى ميزات الوصول التي تساعد المستخدمين ذوي الإعاقة البصرية على التنقل في المحتوى الرقمي. لا يجعل Amazon Polly من السهل فقط إضافة وظيفة تحويل النص إلى كلام، بل يسمح أيضًا بتجربة مستخدم شخصية وغامرة للغاية من خلال دعم عدة لغات ومجموعة واسعة من الأصوات.

يهدف هذا البرنامج التعليمي إلى تعليم القراء كيفية إعداد Amazon Polly ودمجه في التطبيقات، مما يفتح إمكانيات التفاعل الصوتي ويهيئ الطريق لتجارب رقمية أكثر ديناميكية وإمكانية الوصول.

ما هو Amazon Polly؟

Amazon Polly هي خدمة تحويل النص إلى كلام (TTS) تستخدم تقنيات التعلم العميق المتقدمة لتوليد كلام يبدو طبيعيًا. تبرز كواحدة من أكثر خدمات TTS المتاحة تطورًا، مما يسمح للمطورين بإنشاء تطبيقات يمكنها “التحدث” بطريقة شبيهة بالبشر بشكل ملحوظ. تدعم الخدمة أكثر من 60 صوتًا بأكثر من 30 لغة، مما يلبي احتياجات جمهور عالمي يتنوع لغويًا.

تتمثل إحدى الميزات الرئيسية لـ Amazon Polly في استخدامه لتقنية تحويل النص إلى كلام العصبي (NTTS)، والتي توفر أصواتًا أكثر تعبيرًا وطبيعية مقارنةً بأنظمة توليد الكلام التقليدية. يشمل ذلك ضبط خصائص الكلام مثل نغمة الصوت، وحجم الصوت، ومعدل الكلام، مما يمنح المطورين تحكمًا دقيقًا في المخرجات الصوتية. على سبيل المثال، يمكن للمطورين جعل الكلام أكثر مرحًا، أو حماسًا، أو تعاطفًا، مما يعزز الاتصال العاطفي مع المستخدمين.

كما تدعم Amazon Polly ميزات مثل علامات الكلام، التي تسمح للمطورين بمزامنة الكلام مع العناصر المرئية، مثل تمييز النص أثناء نطقه أو تحريك الشخصيات لتزامن الشفاه مع الصوت. وهذا يجعلها حلاً مثاليًا لرواية القصص التفاعلية، والمحتوى التعليمي، وأدوات الوصول.

سواء كنت تبني مساعدًا افتراضيًا يعمل بالصوت، أو منصة للكتب الصوتية، أو جهاز إنترنت الأشياء مع قدرات صوتية، توفر Amazon Polly المرونة والقابلية للتوسع اللازمة لتحقيق أفكارك.

إعداد Amazon Polly

الآن، دعنا نبدأ ونقوم بإعداد Amazon Polly! توفر هذه القسم نظرة عامة حول كيفية القيام بذلك.

الخطوة 1: إنشاء حساب AWS

لكي تستخدم خدمة Amazon Polly ، تحتاج أولاً إلى حساب AWS. إذا لم يكن لديك حساب بعد ، انتقل إلى صفحة التسجيل في AWS واتبع الخطوات لإنشاء حساب. تأكد من توفير معلومات الفوترة الصحيحة ، حيث تتم فواتير خدمات AWS ، بما في ذلك Polly ، استنادًا إلى الاستخدام.

إعداد IAM للأذونات

أوصي بإعداد مستخدم IAM (Identity and Access Management) بالصلاحيات اللازمة لإدارة موارد Amazon Polly. قم بتعيين سياسة AmazonPollyFullAccess لضمان قدرة المستخدم على الوصول إلى جميع ميزات Polly.

الخطوة ٢: التنقل إلى Amazon Polly

بعد تسجيل الدخول إلى واجهة تحكم إدارة AWS، ابحث عن Polly في شريط البحث في الأعلى.

قائمة البحث في واجهة تحكم AWS.

انقر على خدمة Amazon Polly للوصول إلى واجهة Polly.

استخدام Amazon Polly لتحويل النص إلى كلام.

عادةً، يستخدم المطورون واجهة برمجة تطبيقات Amazon Polly لدمج وظيفة تحويل النص إلى كلام مباشرة في تطبيقاتهم. ومع ذلك، يمكنك أيضًا استخدام واجهة AWS Polly لتجربة سريعة للأصوات والإعدادات المختلفة دون الحاجة إلى كتابة كود. للقيام بذلك، انقر فوق جرب Polly في واجهة Polly. هذا الزر يتيح لك تجربة مختلف إدخالات النصوص، أنواع الأصوات، وتنسيقات الإخراج من AWS Console، مما يجعل من السهل استكشاف قدرات Polly قبل تنفيذها بشكل برمجي.

تحويل النص إلى كلام أساسي

لتنفيذ تحويل نص إلى كلام أساسي، أدخل جملة مثل “مرحبًا، مرحبًا بك في أمازون بولي!” في مربع الإدخال. يمكنك أيضًا اختيار نوع المحرك (على سبيل المثال، توليدية، طويلة الشكل، عصبية، أو قياسية)، اللغة، والصوت. انقر على استماع للاستماع على الفور إلى الناتج أو انقر على تنزيل لتنزيله كملف .mp3.

واجهة أمازون بولي في واجهة تحكم خدمات الويب لأمازون.

إعداد أداة تطوير البرمجيات لخدمة النص إلى كلام في أمازون ويب سيرفيسز.

تحتاج إلى إعداد AWS SDK لدمج Amazon Polly في تطبيقاتك برمجيًا. هذا يتيح لك التفاعل مع Amazon Polly مباشرة من كودك، مما يمكّن من وظائف تحويل النص إلى كلام أكثر ديناميكية وقابلية للتخصيص.

في هذا البرنامج التعليمي، سنستخدم Python SDK (boto3). قم بتثبيت boto3 عبر pip:

pip install boto3

ثم، قم بتكوين بيانات اعتماد AWS الخاصة بك باستخدام AWS CLI:

aws configure

الأمر aws configure على واجهة سطر الأوامر.إنشاء كلام عبر SDK

هنا نص بسيط بلغة Python لتحويل النص إلى كلام باستخدام خدمة Amazon Polly:

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

هذا النص يولد كلام من النص ويحفظه كملف mp3.

الميزات المتقدمة لخدمة Amazon Polly

بالرغم من أن خدمة Amazon Polly معروفة بوظيفتها الأساسية في تحويل النصوص إلى كلام، إلا أنها تقدم مجموعة من الميزات المتقدمة التي تتيح للمطورين إنشاء تجارب صوتية أكثر تطورًا وتفاعلية.

باستخدام SSML (لغة ترميز تخليق الصوت)

تسمح SSML (لغة ترميز تخليق الصوت) للمطورين بالتحكم في جوانب مختلفة من الكلام، مثل النغمة، والسرعة، والحجم، والتأكيد، مما يجعل المخرجات الصوتية أكثر تعبيرًا وطبيعية.

باستخدام علامات SSML، يمكنك إضافة فترات توقف، وضبط أنماط الكلام، وحتى تهجيه الاختصارات حرفًا بحرف. هذه المرونة مفيدة بشكل خاص في سيناريوهات مثل رواية القصص، ومنصات التعلم الإلكتروني، وتطبيقات خدمة العملاء، حيث تؤثر النغمة ونمط الإلقاء بشكل كبير على تفاعل المستخدمين.

على سبيل المثال، يمكنك التأكيد على بعض الكلمات لنقل الأهمية أو تغيير سرعة الكلام للمحتوى التعليمي لضمان الوضوح.

إليك كيفية استخدام SSML مع Polly SDK:

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# احفظ ملف الصوت
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

تؤكد هذه المثال على كلمة “مهم” لجعلها تبرز في الرسالة المنطوقة، مما يعزز التأثير العاطفي على المستمع. تدعم SSML أيضًا ميزات متقدمة مثل نطق الأصوات، والهمس، وإضافة مؤثرات صوتية، مما يمنح المطورين السيطرة الكاملة على تجربة الصوت.

علامات الكلام لمزامنة حركة الشفاه

توفر علامات الكلام بيانات وصفية متزامنة زمنياً، مما يمكّن المطورين من مزامنة الكلام مع الرسوم المتحركة، أو تمييز النص، أو حركات شفاه الشخصيات.

تعتبر هذه الميزة ذات قيمة خاصة للتطبيقات التفاعلية مثل الشخصيات الافتراضية، والألعاب التعليمية، أو تمييز النص بأسلوب الكاريوكي.

من خلال طلب علامات الكلام إلى جانب توليد الكلام، تحصل على معلومات توقيت مفصلة لكل كلمة أو جملة، مما يتيح لك إنشاء تجارب وسائط متعددة ديناميكية ومتزامنة.

على سبيل المثال، يمكنك تحريك حركة فم الشخصية بالتزامن مع الكلمات المنطوقة أو تسليط الضوء على النص في الوقت الحقيقي أثناء روايته. إليك كيفية طلب علامات الكلام:

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# احفظ علامات الكلام في ملف JSON
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

مخرجات JSON:

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

المثال أعلاه يطلب علامات الكلام لكل كلمة، ويعيد كائن JSON مع الطوابع الزمنية وبيانات النص. يمكن للمطورين بعد ذلك استخدام هذه المعلومات لمزامنة الرسوم المتحركة إطارًا بإطار، مما يجعل تجربة الصوت والصورة أكثر جاذبية وواقعية.

البث المباشر في الوقت الحقيقي مع Amazon Polly

لتطبيقات الوقت الحقيقي مثل مساعدي الصوت، التعليق المباشر، أو الدردشة التفاعلية، يدعم Amazon Polly البث باستخدام بروتوكول WebSocket أو مشغلات الوسائط التي تدعم HLS (بث HTTP المباشر).

يتيح هذا للتطبيقات بدء تشغيل الصوت أثناء تخليقه، مما يقلل من التأخير ويخلق تجربة مستخدم أكثر استجابة. البث في الوقت الحقيقي مثالي للسيناريوهات التي تكون فيها الفورية حاسمة، مثل دعم العملاء الحي أو الذكاء الاصطناعي المحادث.

يمكن للمطورين الاستفادة من هذه الميزة لبناء أجهزة تستجيب للصوت، أو قارئين للأخبار، أو تطبيقات تفاعلية للحكايات تستجيب لإدخال المستخدم على الفور.

إدارة موارد أمازون بولي

إدارة فعالة لموارد أمازون بولي أمر حاسم لتحسين الأداء والتكلفة والقابلية للتوسع. من خلال تخزين ملفات الكلام استراتيجيًا ومراقبة الاستخدام، يمكنك ضمان استخدام الموارد الكفؤ بينما تحتفظ بتجربة مستخدم عالية الجودة.

تدمج خدمة Amazon Polly بسلاسة مع خدمات AWS الأخرى، مثل Amazon S3 للتخزين ولوحة تحكم فواتير AWS لمراقبة التكاليف، مما يجعل إدارة الموارد أسهل.

إنشاء وإدارة ملفات الكلام

تتيح لك Amazon Polly تخزين الكلام المركب في Amazon S3 للحصول على تخزين قابل للتوسيع واسترداد سهل. يكون هذا النهج مفيدًا بشكل خاص للتطبيقات ذات متطلبات صوتية متكررة، مثل منصات التعلم الإلكتروني، والكتب الصوتية، أو روبوتات دعم العملاء، حيث يمكنك إعادة استخدام ملفات الصوت بدلاً من تركيب الكلام في كل مرة.

من خلال تخزين إخراجات الكلام المستخدمة بشكل متكرر في S3، يمكنك تقليل التكاليف وتحسين الأداء من خلال تقديم ملفات صوتية مخزنة مؤقتًا مباشرة من السحابة.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

مراقبة الاستخدام والتكاليف

استفد من لوحة تحكم فواتير وإدارة التكاليف في AWS لمراقبة الاستخدام والتكاليف بكفاءة. توفر هذه اللوحة تفاصيل دقيقة عن التكاليف، وتقارير الاستخدام، وإمكانية إعداد الميزانيات والتنبيهات لتجنب الرسوم غير المتوقعة.

تعتبر مراقبة التكاليف مهمة بشكل خاص عند استخدام الأصوات العصبية، والتي تكون أكثر تكلفة من الأصوات القياسية. يمكنك أيضًا تتبع مقاييس الاستخدام مثل عدد الأحرف المولدة وتكرار استدعاءات API، مما يمكن أن يساعدك في تحسين استخدام الموارد.

مثال على لوحة تحكم تكاليف AWS.

أفضل الممارسات لاستخدام Amazon Polly

عند استخدام Amazon Polly، تضمن تبني أفضل الممارسات الأداء الأمثل، وكفاءة التكلفة، وتجربة المستخدم. إليك بعض الإرشادات الرئيسية:

اختيار الصوت المناسب

اختيار الصوت المناسب يعتمد على هدف التطبيق والجمهور المستهدف. تقدم أمازون بولي مجموعة متنوعة من الأصوات، بما في ذلك الأصوات القياسية والأصوات العصبية، كل منها له نغماته وخصائصه الفريدة.

الأصوات العصبية توفر صوتًا أكثر طبيعية وتعبيرية ولكنها أكثر تكلفة. لذلك، فهي مثالية للتطبيقات التي تتطلب تفاعلًا عاطفيًا عاليًا، مثل الكتب الصوتية أو سرد القصص.
الأصوات القياسية تقدم حلاً فعالًا من حيث التكلفة للتطبيقات المعتمدة على المرافق مثل روبوتات الدردشة لدعم العملاء. يساعد اختبار أصوات مختلفة مع ملاحظات المستخدمين في اختيار الصوت الأنسب لاحتياجات تطبيقك.

تحسين مخرجات الكلام

استفد من SSML (لغة ترميز توليد الكلام) لتحسين جودة الكلام من خلال ضبط معلمات النبرة والسرعة والصوت. يمكنك إنشاء تجربة صوتية أكثر ديناميكية وجذابة من خلال ضبط هذه الإعدادات.

على سبيل المثال، يعمل إبطاء معدل الكلام على تحسين وضوح المحتوى التعليمي بينما يعزز تسليط الضوء على العبارات الرئيسية السرد. يساعد تجربة استخدام علامات SSML مختلفة في تحقيق أكثر نغمة طبيعية في الكلام.

تقليل التكاليف

يجب النظر في استراتيجيات مثل إدارة تكرار توليد الكلام وتخزين الملفات الصوتية المستخدمة بانتظام في S3 لإعادة الاستخدام لتحسين التكاليف عند استخدام خدمة Amazon Polly. يقلل هذا النهج من التكاليف المكررة لاستدعاءات واجهة برمجة التطبيقات ويقلل من تكاليف التركيب الصوتي.

بالإضافة إلى ذلك، يمكن تحقيق توازن بين التكلفة والجودة من خلال استخدام مزيج من الأصوات القياسية والعصبية بشكل استراتيجي.

على سبيل المثال، استخدم الأصوات العصبية فقط لنقاط الاتصال الحرجة مثل رسائل الترحيب، بينما تتولى الأصوات القياسية المحتوى المعلوماتي. يساعد إعداد حدود الاستخدام وتنبيهات التكلفة في لوحة تحكم فواتير AWS على الحفاظ على السيطرة على الميزانية وتجنب النفقات غير المتوقعة.

الخاتمة

أمازون بولي هي خدمة قوية لتحويل النص إلى كلام تستخدم تقنيات التعلم العميق المتقدمة لتحويل النص إلى كلام يشبه الحياة، مما يعزز تجارب المستخدمين والوصول إليها.

خلال هذا الدليل، استكشفنا الميزات الأساسية لأمازون بولي، بدءًا من إعداد AWS SDK إلى توليد الكلام برمجيًا. كما تناولنا القدرات المتقدمة، مثل استخدام SSML من أجل إخراج كلام مخصص، والاستفادة من علامات الكلام لتزامن الشفاه والرسوم المتحركة، وتنفيذ البث المباشر لتطبيقات الصوت الديناميكية.

يتيح لك دمج Amazon Polly في تطبيقاتك إنشاء تجارب صوتية تفاعلية وشخصية للغاية تلبي احتياجات جمهور عالمي. سواء كنت تبني مساعدات افتراضية، أو كتب صوتية، أو منصات تعليمية، أو أدوات للوصول، فإن Amazon Polly توفر المرونة والقابلية للتوسع والميزات المتقدمة اللازمة لتحقيق أفكارك.

إذا كنت جديدًا على AWS وترغب في تعزيز مهاراتك السحابية، فكر في استكشاف هذه الدورات ذات الصلة:

مفاهيم AWS – تعلم المفاهيم الأساسية وراء الحوسبة السحابية من AWS.
تقنية وخدمات سحابية من AWS – احصل على تجربة عملية مع الخدمات الرئيسية من AWS وتطبيقاتها العملية.
أمان AWS وإدارة التكاليف – فهم أفضل الممارسات لتأمين موارد AWS وتحسين التكاليف.
مسار شهادة ممارس السحاب من AWS – استعد لامتحان ممارس السحاب من AWS CLF-C02 مع مسار تعلم منظم.

Source:
https://www.datacamp.com/tutorial/amazon-polly