אמזון פוללי: מדריך מקיף להמרת טקסט לדיבור ב-AWS

AWS

בעידן שלאחר GPT, אינטראקציה קולית הופכת להיות חיונית יותר ויותר, מעוזרים וירטואליים ועד תכונות נגישות שעוזרות למשתמשים עם לקויות ראייה לנווט בתוכן דיגיטלי. אמזון פולי לא רק מקלה על הוספת פונקציית טקסט לדיבור אלא גם מאפשרת חוויית משתמש מותאמת אישית ומעורבת מאוד על ידי תמיכה בשפות רבות ובטווח רחב של קולות.

מדריך זה שואף ללמד את הקוראים כיצד להתקין את אמזון פולי ולשלב אותו באפליקציות, לשחרר את הפוטנציאל של אינטראקציה קולית ולסלול דרך לחוויות דיגיטליות יותר דינמיות ונגישות.

מה זה אמזון פולי?

אמזון פולי היא שירות טקסט לדיבור (TTS) שמשתמש בטכנולוגיות למידת עומק מתקדמות כדי לסנתז דיבור נשמע טבעי. השירות מתבלט כאחד משירותי ה-TTS המתקדמים ביותר זמינים, ומאפשר למפתחים ליצור אפליקציות שיכולות 'לדבר' בצורה דמוית אדם באופן מרשים. השירות תומך ביותר מ-60 קולות ביותר מ-30 שפות, תוך התאמה לקהל עולמי עם צרכים לשוניים מגוונים.

אחד מהמאפיינים המרכזיים של Amazon Polly הוא השימוש בטכנולוגיית דיבור טקסט-לדיבור נוירלי (NTTS), אשר מספקת קולות שהם יותר מלאים ו טבעיים ביחס למערכות סינתזת דיבור מסורתיות. זה כולל התאמת מאפייני הדיבור כמו גובה צליל, עוצמה וקצב דיבור, מה שמעניק למפתחים שליטה מדויקת על הפלט הקולי. לדוגמה, מפתחים יכולים להפוך את הדיבור ליותר עליז, נלהב או אמפתי, מה שמשפר את הקשר הרגשי עם המשתמשים.

Amazon Polly תומכת גם בתכונות כמו סימני דיבור, המאפשרים למפתחים לסנכרן דיבור עם אלמנטים חזותיים, כמו הדגשת טקסט כאשר הוא נאמר או הנפשת דמויות להתאים את השפתיים עם הקול. זה הופך אותה לפתרון אידיאלי לסיפור אינטראקטיבי, תוכן חינוכי וכלי נגישות.

בין אם אתה בונה עוזר וירטואלי מופעל קול, פלטפורמת ספרי שמע או מכשיר IoT עם יכולות קול, Amazon Polly מספקת את הגמישות והיכולת להוציא לפועל את הרעיונות שלך.

הגדרת Amazon Polly

עכשיו, בוא נתחיל ונגדיר את Amazon Polly! סעיף זה מספק סקירה כיצד לעשות זאת.

שלב 1: יצירת חשבון AWS

כדי להשתמש ב-Amazon Polly, אתה צריך קודם כל חשבון AWS. אם עדיין אין לך אחד, עבור לעמוד הרשמה ל-AWS ופעל לפי הצעדים כדי ליצור אותו. ודא שאתה מספק מידע חיוב תקף, מכיוון ששירותי AWS, כולל Polly, מחויבים על בסיס שימוש.

הגדרת IAM עבור הרשאות

אני ממליץ להגדיר משתמש IAM (זהות וניהול גישה) עם ההרשאות הנדרשות כדי לנהל משאבי Amazon Polly. הקצה למשתמש מדיניות AmazonPollyFullAccess כדי לוודא שהמשתמש יכול לגשת לכל תכונות ה-Polly.

שלב 2: ניווט אל Amazon Polly

לאחר התחברות ל-ממשק ניהול של AWS, חפשו את Polly בתיבת החיפוש למעלה.

תיבת החיפוש בממשק ה- AWS.

לחץ על שירות Amazon Polly כדי להיכנס לממשק ה-Polly.

שימוש ב-Amazon Polly להמרת טקסט לדיבור.

באופן כללי, מפתחים משתמשים ב-API של Amazon Polly כדי לשלב פונקציית טקסט לדיבור ישירות באפליקציות שלהם. עם זאת, ניתן גם להשתמש בממשק AWS Polly כדי לנסות במהירות קולות ו הגדרות שונות מבלי לכתוב קוד. כדי לעשות זאת, לחץ על כפתור נסה Polly בממשק Polly. כפתור זה מאפשר לך להתנסות בקלטי טקסט שונים, סוגי קולות, ופורמטי פלט מתוך קונסולת AWS, מה שמקל על חקר היכולות של Polly לפני יישומן בצורה מתודולוגית.

המרת טקסט לדיבור בסיסית

כדי לבצע המרה בסיסית מטקסט לדיבור, הזן משפט כמו "שלום, ברוכים הבאים לאמזון פוללי!" בתיבת הקלט. אתה יכול גם לבחור את סוג המנוע (למשל, גנרטיבי, טקסט ארוך, נוירלי או סטנדרטי), שפה וקול. לחץ על הקשב כדי להקשיב מיד לפלט או לחץ על הורד כדי להוריד אותו כקובץ .mp3.

ממשק אמזון פוללי בקונסולת AWS.

הגדרת ה-SDK של AWS להמרה מטקסט לדיבור

עליך להגדיר את AWS SDK כדי לשלב את Amazon Polly באופן תכנותי ליישומים שלך. זה מאפשר לך להתקשר עם Amazon Polly ישירות מהקוד שלך, מאפשר פונקציות טקסט לדיבור דינמיות ונתמכות יותר.

במדריך זה, נשתמש ב-SDK של פייתון (boto3). התקן boto3 דרך pip:

pip install boto3

לאחר מכן, הגדר את פרטי הכניסה שלך ל-AWS באמצעות AWS CLI:

aws configure

הפקודת aws configure ב-CLI.

יצירת דיבור באמצעות ה-SDK

הנה סקריפט פייתון פשוט להמיר טקסט לדיבור באמצעות אמזון פוללי:

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

סקריפט זה מייצר דיבור מטקסט ושומר אותו כקובץ mp3.

תכונות מתקדמות של אמזון פוללי

בעוד שאמזון פוללי ידועה בעיקר בפונקציה הבסיסית שלה להמיר טקסט לדיבור, היא מציעה גם מגוון תכונות מתקדמות המאפשרות למפתחים ליצור חוויות קוליות מתקדמות ואינטראקטיביות יותר.

באמצעות SSML (שפת סימון סינתזת דיבור)

SSML (שפת סימון סינתזת דיבור) מאפשרת למפתחים לשלוט בהיבטים שונים של דיבור, כמו גובה, קצב, עוצמה ודגש, מה שהופך את הפלט האודיו לביטוי יותר טבעי ומחובר.

באמצעות תגי SSML, אתה יכול להוסיף הפסקות, להתאים סגנונות דיבור ואפילו לאיית ראשי תיבות אות באות. גמישות זו מועילה במיוחד בתרחישים כמו סיפור סיפורים, פלטפורמות למידה מקוונת ויישומי שירות לקוחות, שבהם הטון וסגנון ההגשה משפיעים משמעותית על מעורבות המשתמש.

למשל, אתה יכול להדגיש מילים מסוימות כדי להעביר חשיבות או לשנות את קצב הדיבור עבור תוכן הדרכה כדי להבטיח בהירות.

הנה איך להשתמש ב-SSML עם ה-SDK של Polly:

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# שמור את קובץ האודיו
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

דוגמה זו מדגישה את המילה "חשוב" כדי להדגיש אותה בהודעה המדוברת, משפרת את ההשפעה הרגשית על השומע. SSML תומך גם בתכונות מתקדמות כמו הגיית פונמים, לחישה והוספת תפקידי צליל, מעניק למפתחים שליטה מלאה על חוויית הקול.

סימני דיבור לסנכרון שפתי

סימני הדיבור מספקים מטה-נתונים מתואמים בזמן, המאפשרים למפתחים לסנכרן את הדיבור עם אנימציות, הדגשת טקסט או תנועת שפת דמויות.

תכונה זו מרתיחה במיוחד ליישומים אינטראקטיביים כגון דמויות וירטואליות, משחקי חינוך או הדגשת טקסט בסגנון קריוקי.

על ידי בקשת סימני דיבור לצד סינתזת דיבור, אתה מקבל מידע מדויק על הזמנים לכל מילה או משפט, מאפשר לך ליצור חוויות מדיה דינמיות ומסונכרנות.

לדוגמה, ניתן להניח תנועה בפה של דמות כך שתואמת למילים הנאמרות או להדגשת טקסט בזמן אמת עם ההגה. הנה כיצד לבקש סימני דיבור:

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# שמירת סימני הדיבור לקובץ JSON
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

פלט JSON:

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

הדוגמה לעיל מבקשת סימני דיבור עבור כל מילה, ומחזירה אובייקט JSON עם ציוני זמן ומידע טקסט. מפתחי תוכנה יכולים להשתמש במידע זה כדי לסנכרן אנימציות מסגרת אחרי מסגרת, ולהפוך את חוויית השמע והראייה למרתקת ומותאמת למציאות יותר.

זרימה בזמן אמת עם Amazon Polly

ליישומים בזמן אמת כמו סייעני קול, הגבלה חיה או צ'אטבוטים אינטראקטיביים, Amazon Polly תומך בזרימה באמצעות פרוטוקול WebSocket או נגןי מדיה שתומכים ב-HLS (זרימה חיה ב-HTTP).

זה מאפשר ליישומים להתחיל לנגן אודיו כשהוא מתורגם, מה שמפחית את הלטנציה ויוצר חוויית משתמש יותר תגובנית. זרימת זמן אמיתי היא אידיאלית לתרחישים שבהם המיידיות חיונית, כגון תמיכה לקוח חיה או AI שיחה.

מפתחים יכולים להשתמש בתכונה זו כדי לבנות מכשירים המופעלים בעזרת קול, קוראי חדשות או יישומי סיפורים אינטראקטיביים שמגיבים לקלט של המשתמש בזמן ריצה.

ניהול משאבי Amazon Polly

ניהול יעיל של משאבי Amazon Polly חיוני לייעול ביצועים, עלויות וגמישות. על ידי אחסון אסטרטגי של קבצי דיבור ומעקב אחר השימוש, ניתן להבטיח ניצול משאבים יעיל בעוד התחזקות בחוויית משתמש ברמה גבוהה.

Amazon Polly משלבת בקלות עם שירותי AWS, כגון Amazon S3 לאחסון וללוח המחיוב של AWS ל ניטור עלויות, ובכך עזרה לניהול משאבים.

יצירה וניהול קבצי דיבור

Amazon Polly מאפשרת לך לאחסן דיבור מסונטזיזים ב-Amazon S3 לאחסון בקנה מידה ולגישה קלה. הגישה הזו מועילה במיוחד ליישומים עם דרישות שמע חוזרות, כגון פלטפורמות למידה מקוונות, ספרי קול או בוטים לתמיכה בלקוח, שבהן ניתן להשתמש בקבצי שמע חוזרים במקום לסנתז דיבור בכל פעם.

על ידי אחסון פלטים קריטיים ב-S3, ניתן להפחית עלויות ולשפר את הביצועים על ידי שרת קבצי שמע מהמטמון ישירות מהענן.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

ניטור שימוש ועלויות

נצלו את לוח המחירון וניהול עלויות השימוש של AWS כדי לעקוב באופן יעיל אחר השימוש והעלויות. לוח זה מספק פירוט עלויות מפורט, דוחות שימוש, ואפשרות להגדיר תקציבים והתראות כדי למנוע חיובים בלתי צפויים.

ניטור עלויות הוא חשוב במיוחד כאשר משתמשים בקולות עבוריים, שהם יקרים יותר מהקולות התקניים. ניתן גם לעקוב אחר מדדי השימוש כמו מספר התווים המסונתזים ותדרי הקריאה ל-API, שיכולים לעזור באופטימיזציה של השימוש במשאבים.

דוגמה ללוח עלויות של AWS.

שיטות מומלצות לשימוש ב-Amazon Polly

כאשר משתמשים ב-Amazon Polly, יישום שיטות מומלצות מבטיח ביצועים אופטימליים, יעילות עלולות, וחוויית משתמש מוצלחת. הנה כמה קווי ההנחייה המרכזיים:

בחירת הקול הנכון

בחירת הקול הנכון תלויה במטרת האפליקציה ובקהל היעד. Amazon Polly מציעה מגוון של קולות, כולל קולות סטנדרטיים וקולות נוירוליים, כל אחד עם טונים ותכונות ייחודיות.

הקולות הנוירוליים מספקים צליל טבעי וביטויים יותר, אך הם יקרים יותר. לכן, הם אידיאליים לאפליקציות הדורשות מעורבות רגשית גבוהה, כמו אודיובוקים או סיפורים.
הקולות הסטנדרטיים מציעים פתרון כלכלי לאפליקציות שמבוססות על יישומון, כגון שירותי תמיכה ללקוחות של צ'אטבוטים. בדיקת קולות שונים עם משוב ממשתמשים עוזרת בבחירת הקול המתאים ביותר לצרכי האפליקציה שלך.

מיטוב פלט דיבור

נצל את SSML (שפת סימון של סינתזת דיבור) כדי לשפר את איכות הדיבור על ידי התאמת פרמטרים של גובה, קצב ועוצמה. אתה יכול ליצור חוויית שמע דינמית ומרתקת יותר על ידי כיוונון מדויק של ההגדרות הללו.

למשל, האטת קצב הדיבור משפרת את הבהירות עבור תוכן חינוכי בעוד הדגשה של ביטויים מרכזיים משפרת את הסיפור. ניסוי עם תגים שונים של SSML עוזר לך להשיג דיבור שנשמע הכי טבעי.

הפחתת עלויות

אסטרטגיות כמו ניהול תדירות יצירת הדיבור ואחסון קבצי שמע בשימוש תדיר ב-S3 לשימוש חוזר צריכות להתחשב כדי לייעל עלויות בעת השימוש ב-Amazon Polly. גישה זו מצמצמת קריאות API חוזרות ומפחיתה עלויות סינתזה.

בנוסף, השימוש האסטרטגי בתערובת של קולות סטנדרטיים ועצביים יכול לאזן בין עלות לאיכות.

לדוגמה, ניתן להשתמש בקולות עמידי עם ניירות עבודה קריטיים רק כמו הודעות ברכה, בעוד שקולות סטנדרטיים מטפלות בתוכן מידע. קביעת המגבלות של השימוש והתראות על עלויות בלוח החשבונות של AWS עוזרים לשמור על בקרה תקציבית ולמנוע הוצאות בלתי צפויות.

מסקנה

Amazon Polly היא שירות עוצמתי להמרת טקסט לדיבור המשתמש בטכנולוגיות למידה עמוקה מתקדמות כדי להמיר טקסט לדיבור בעל דמיון, משפר חוויות משתמש ונגישות.

במהלך המדריך הזה, חקרנו את התכונות היסודיות של Amazon Polly, מהגדרת ערכת הכלים של AWS SDK עד ליצירת דיבור באופן תכנותי. כמו כן, כיסינו יכולות מתקדמות, כגון השימוש ב-SSML לפלט דיבור מותאם אישית, הפקת סימני דיבור לסנכרון עם תנועות שפתיים ואנימציות, ויישום זרימתי בזמן אמת ליישומי קול דינמיים.

שילוב של Amazon Polly ביישומים שלך מאפשר לך ליצור חוויות קול אינטראקטיביות ואישיות ביותר שמתאימות לקהל גלובלי. בין אם אתה בונה סייענים וירטואליים, ספרי שמיעה, פלטפורמות לימוד או כלים לנגישות, Amazon Polly מספקת את הגמישות, הקידמה והתכונות המתקדמות הנדרשות כדי להביא את הרעיונות שלך לחיים.

אם אתה חדש ב-AWS ורוצה לחזק את הכישורים שלך בענן, שקול לחקור את הקורסים הקשורים האלה:

מושגים של AWS – למידת המושגים היסודיים של מחשוב ענן של AWS.
טכנולוגיה ושירותי ענן של AWS – התנסות ידית עם שירותי AWS המרכזיים ויישומיהם המעשיים.
אבטחה וניהול עלויות ב-AWS – הבנה של הפרקטיקות הטובות לאבטחת משאבי AWS ואופטימיזציה של עלויות.
מסלול תעודת המומחה בענן של AWS – התכונן למבחן AWS Cloud Practitioner CLF-C02 עם נתיב למידה מובנה.

Source:
https://www.datacamp.com/tutorial/amazon-polly