LLMパラメータの解码,第2部:トップ-P(核采样)

LLM Parameters

任意の機械学習モデルと同様に、大きな言語モデルには、生成されるテキストの出力の変异性を制御するための様々なパラメータがあります。私たちは、これらのパラメータの影響を詳細に説明するために、多部分のシリーズを始めました。私たちは、この多部分のシリーズで議論したすべてのパラメータを使用して、コンテンツ生成に最適なバランスを取ることで終わります。

これは第2部分です。ここで、もう一つ知名なパラメータ「Top-P」について話します。

Top-P (Nucleus Sampling)

モデルの出力の多様性を制御するためには、Top-Pが適しています。Top-Pを低くすると、モデルは最も確率の高い単語を使用するように促されますが、Top-Pを高くすると、モデルはさらに多様な単語を使用し、創造性を高めます。

以下のコードと出力でTop-Pの動作を見てみましょう。

Python

 

出力:

PowerShell

 

次に、出力を理解してみましょう。

  • Top-P 0.1 – 非常に保守的:モデルは、最も確率の高い次の単語の選択の10%から生成内容を選ぶために、非常に保守的です。したがって、生成された内容には多くの繰り返しがあり、 Diversityが乏しく、ほとんどの場合は有用的でもありません。
  • トップP 0.3 – 保守的: モデルは可能な次の単語選択の30%を選び、前のトップP設定よりももう少し保守的です。出力からご覧の通り、これはコンテント生成を改善していません。プロンプトがCompletion全体で繰り返されていることから、プロンプトの後に最も可能な延续としてモデルにとってはプロンプト自体になることを意味します。
  • トップP 0.5 – バランスのある: ここでは、モデルが初めていくつかの番号付けされた戦略をリストに記載しています。この設定でもまだある程度の繰り返しがあります。しかし、このトップP設定では、モデルはより幅広い単語を取り込むようになります。出力は標準的なアドバイスといくつかの不具合が混在しています。このトップP値は創造性を向上させますが、情報の深さについてはまだ苦労しています。
  • トップP 0.7 – 創造的: この場合、モデルはより幅広い単語の選択を可能にし、ご覧の通り、応答が物語のスタイルに移行しています。コンテンツはより創造的で、ストレスに取り組む人のシーンを含むようになりました。ただし、マンドリンがストレス管理ではなく、ストレスに対する取り組みの困難に集中していないという欠点があります。
  • トップP 0.9 – 非常に創造的: この設定では、モデルはより幅広い単語やアイデアにアクセスできます。包括的には不太可能な単語や概念も含まれます。この設定では、モデルがより表現的な言葉遣いを使用することができます。もちろん、非常に創造的なために、モデルはプロンプトから離れ、豊かで様々なコンテンツを生成するために困難に直面します。

上記の実験から、トップ-P 設定の変更に伴って内容が変化することが重要であることがわかります。また、このパラメーターだけでは内容の変化とその関連性のために対処する必要があることも把握できます。

今度は、「創造的な物語生成」と「技術的な説明」のシリーズの前の部分と同様に、トップ-Pの影響を見るためのいくつかのユースケースに注目してください。

Python

 

出力:

PowerShell

 

ここで、トップ-P 設定に基づいて出力行を析し、創造的な物語生成と技術的な説明に影響を与えるかどうかを分析しましょう。

トップ-Pの影響を効果的に示すために、出力行を操作するより良いプロンプトを取り入れました。

創造的な物語生成

  • トップ-Pの低い値(悪影響):低いトップ-Pの値では、モデルは語句や短語の使用を制限し、これにより繰り返しと冗長さが生じます。この場合、創造性も制限されており、モデルは新しいアイデアを導入することを試みません。しかし、 logical flow は保ち、トピックにとり附けていますが、これは一般的な低い Top-P 値の特性です。
  • トップ-Pの高い値(完璧な影響):この場合、モデルは新しい概念を導入し、ナラションに創造的な角度を付けます。より广い語彙が使用され、テキストに深度と豊かさを追加します。しかし、創造性が増えるために、論理的な流れが抑制されました。

この2つの物語の比較は、トップ-Pの影響を明らかにし、創造的な書き込みにどのように影響を与えるかを理解するのに役立ちます。

技術的な説明

  • 高いTop-P(悪影響)ご覧のように、高いTop-Pは技術的な説明に悪影響を与えます。論理的な流れを妨げ、主題からはけ出すということです。また、モデルは関連性のない情報を導入しており、説明には適切ではありません。
  • 最適なTop-P(完璧な影響)最適なTop-Pを使用することで、説明はより一貫性があり、主题に近いということがわかります。コンテンツはプロンプトにより一致し、正確さと表現の平衡を保っています。情報の信頼性は、モデルがより可能性の高い語を制限するために強化されます。

結論

この実験では、Top-Pパラメーターが生成されたテキストの乱雑さと創造性を制御する重要性を成功に历时的に示しました。まず、単一のプロンプトについて、Top-Pの変更に応じて出力の変化を見ました。次に、Top-Pがどのように使用情境に基づいて出力を制御するかについて、より Case-basedのアプローチを取りました。

しかし、このシリーズの前の部分とこの部分から、各パラメーターは個々にはコンテンツ生成の品質に十分な正義を与えていないことが気づかれました。それでは、これらのすべてのパラメーターの影響を見ることが重要であることを示しました。そして、このシリーズの最終部分でこれらを行います。

Source:
https://dzone.com/articles/decoding-llm-parameters-top-p