פענוח פרמטרים של LLM, חלק 2: Top-P (דגימה גרעינית)

משתנים של מודלים מדע ממוחשב

כמו כל מודל לearning אחר, מודלים גדולים של שפה יש להם משתנים מסוימים ששולטים בשונות של התוצרת הטקסט שלהם. התחלנו סדרה רבת חלקים מסוימים כדי להסביר את ההשפעה של המשתנים האלה בפרט. נסיים בשימור המשוואה המושלמת בין התוצרת התוכן בעזרת כל המשתנים האלה שנדבר עליהם בסדרה הרבה חלקים שלנו.

ברוכים הבאים לחלק השני, בו אנחנו נדבר על משתנים ידוע בשם "Top-P."

Top-P (סימולציית הגוף)

אם המטרה היא לשלוט בשונות התוצרת של המודל, אז Top-P הוא לך. Top-P נמוך מוכרח את המודל להשתמש במילים הכי סבירות, בעוד שTop-P גבוה מוכרח אותו להשתמש במילים יותר מגוונות, וזה מגביר את היצירתיות.

בואו נביט בTop-P בפעולה עם הקוד והתוצאה הבאים.

Python

 

תוצאה:

PowerShell

 

עכשיו בואו נבין את התוצאה.

  • Top-P 0.1 – מאוד שמרני: מפני שהמודל מבחר מתוך 10% האלה של האפשרויות הכי סבירות למילה הבאה, יש הרבה התבססות בתוצרת התוכן. לכן, תגובת זו מעולמת מגוונות והרבה פעמים גם אינה מועילה.
  • Top-P 0.3 – שמרני: המודל מבחר מתוך 30% האופציות הסבירות הגבוהות של המילים הבאות, אז הוא קצת פחות שמרני מההגדרה הקודמת של Top-P. כפי שאתם רואים מהייצא, זה לא שיפר את יצירת התוכן, והבקשה נשנה במהלך ההשלמה. במקרה זה, השיחזור בבקשה אומר שהמילה הסבירה ביותר לאחר הבקשה עבור המודל היא עצמה.
  • Top-P 0.5 – מאובחן: במקום זה אתם רואים את המודל מרשם על מספר אסטרטגיות מספרות בפעם הראשונה. עדיין קיים חלק מהשיחזור בהגדרה הזו גם. אך המסקנה היא שבהגדרה ה Top-P הזו, המודל מתחיל להכליל סוגים רחבים יותר של מילים. הייצא הוא מעורב בערכי יעוץ סטנדרטי עם חוסר סימולציה. ערך זה מאפשר ליצירתיות מורחבת אך עדיין נאבק עם עומק המידע.
  • Top-P 0.7 – יצירתי: במקרה זה, המודל יכול לבחור מתוך טווח רחב יותר של מילים, וכפי שאתם רואים, התגובה מתעקלת לסגנון סיפורטי. התוכן יותר יצירתי בזכות שעכשיו מעורבת סיפורה בה אדם מתמודד עם לחץ. הרעיון הבאורך הוא איבד מיקוד, כי הדחף לא היה לנהל את הלחץ אלא להתמודד עם הקשיים בניגוד ללחץ.
  • Top-P 0.9 – יצירתי מאוד: בהגדרה זו, המודל יש גישה לרחב מאוד של מילים ורעיונות כולל מילים

הדבר הקריטי שיש לשים לב אליו מהתרגיל הנ"ל הוא כיצד התוכן משתנה עם שינוי בהגדרת Top-P. זה גם נותן לנו רעיון שזהו לא הפרמטר היחיד שצריך להתייחס אליו כדי לשנות את התוכן ואת הרלוונטיות שלו.

עכשיו, בואו נבחן את השפעת Top-P על מספר מקרים לשימוש, בדיוק כמו החלק הקודם בסדרה הזו על "יצירת סיפור יצירתי" ו"סבר טכני".

Python

 

פלט:

PowerShell

 

עכשיו נבצע ניתוח של הפלט עבור יצירת סיפור יצירתי והסבר טכני בהתבסס על הגדרות Top-P וכיצד הפלט הושפע.

כדי להדגים באופן אפקטיבי את השפעת Top-P, שילבנו הנחיות טובות יותר כדי לנתב את הפלט בצורה שההשפעה תתברר בקלות.

יצירת סיפור יצירתי

  • Top-P נמוך (השפעה שלילית): כפי שאתם רואים עם Top-P נמוך יותר, המודל מוגבל בשימוש במילים או בביטויים ולכן גורם לחזרתיות ולריבוי. היצירתיות גם מוגבלת במקרה זה כמו שהמודל מנסה לא להכניס רעיונות חדשים. אבל אם תשימו לב, הזרימה הלוגית עדיין נשמרת, והמודל נשאר על הנושא, שזה טיפוסי לערכים נמוכים של Top-P.
  • Top-P גבוה (השפעה מושלמת): במקרה זה, המודל מציג מושגים חדשים ומוסיף זווית יצירתית לנרטיב. נעשה שימוש בשפה רחבה יותר, מה שמוסיף עומק ועושר לטקסט. עם זאת, בשל היצירתיות המוגברת, הזרימה הלוגית התמתנה.

הניגוד בין שני הנרטיבים מראה בבירור את השפעת Top-P, מה שמקל על ההבנה כיצד זה משפיע על כתיבה יצירתית.

הסבר טכני

  • השפעה של Top-P גבוהה (השפעה שלילית):כפי שאתה יכול לראות, Top-P גבוה פוגע בהסברים טכניים על ידי המניעה של זרם ההגיון והיציאה מהנושא. המודל גם מביא מידע בלתי רלוונטי שאינו קשור בהסבר.
  • Top-P אופטימלי (השפעה מושלמת):עם Top-P אופטימלי, ההסבר יותר סודר וקרוב לנושא. התוכן יותר סודר עם השאלה ומאוד יחסית מצליח בין הדיוק והביטחון במידע. האמינות של המידע מוגברת בגלל שהמודל מוגבל למילים יותר סבירות.

סיכוי

עם הניסוי הזה, הצגנו בהצלחה את חשיבות הפרמטר Top-P בשליטת האקראיות והיצירתיות של הטקסט המיוצר. ראינו קודם על שאלה יחידה ואיך היציאה משתנה עם השינוי בTop-P, ואחר כך נקחנו גישה יותר מותאמת לשימושים באיך Top-P שולט על היציאה בהתבסס על השימושים.

אך מה שראינו בחלקים הקודמים ובחלק זה של הסדרה הוא שלפרמטר אחד בלבד לא מגיע לשם מענה מספק לאיכות היצירה של הטקסט. לכן חשוב להסתכל על ההשפעה של כל הפרמטרים האלה, ונעשה את זה בחלק הסוף של הסדרה.

Source:
https://dzone.com/articles/decoding-llm-parameters-top-p