解码LLM参数,第1部分:溫度和情

LLM 參數

與任何機器學習模型一樣,大型語言模型也有各種可控生成的文字 Output 變異性的參數。我們已經開始了一個多部分的系列,详盡解釋這些參數的影響。我們將通過 discusses 在這系列的各部分中平衡內容生成中使用所有這些參數。

歡迎來到第一部分,我們將討論最知名的參數 “Temperature。”

Temperature

如果目標是控制預測的隨機性,那麼 temperature 是您需要的。較低的 temperature 值會使輸出更具確定性,而較高的值將通過允許多樣化的結果來使其更具創造性。

讓我們通過以下代碼和輸出來看看 temperature 如何在实际行动中发挥作用。為了簡單地展示重要性,我們選擇使用 hugging face transformers 和 particular 的 GPT2 模型。

Python

 

Output:

PowerShell

 

讓我們來理解 Output:

  • 低溫(0.3):模型將集中在最可能詞選。如果精度與一致性對您來說很重要,那麼請給出 around this range 的 temperature。但是,請注意,模型可能會卡住重複類似的短語,正如我們的 Output 這裡一樣。
  • 中溫(0.5):這種溫度恰到好處地平衡了一致性和創造性。如果您想在保持結構的同時獲得一定程度的變異,這是一個非常好的中立點。正如您在輸出中所見,已經增加了一點平衡,但您仍然可以看到輸出中有些重複。
  • 高溫(0.9):這種溫度使得LLM(大型語言模型)尽可能具有創造性。正如您所見,這個輸出與前兩個不同,為內容帶來了大量的隨機性和變異。

上面的人才例子建立了一個基本的温度的理解。現在讓我們更詳細地看一下,用幾個使用案例:“創造性故事生成”和“技術解釋”。

讓我們用以下的代碼來了解溫度如何影響上述2個使用案例。

Python

 

輸出:

PowerShell

 

現在讓我們停下来分析根據溫度設定和輸出受影響情況下的創造性故事生成和技術解釋的輸出。我們還將觀察一個使用案例中溫度設定如何恰到好處,而另一個使用案例中則恰恰相反。

創造性故事生成

  • 低溫(負面影響):正如您所見,故事輸出高度重複且缺乏變體。對於創造性任務來說,這種結果是不滿意的,模型無法引入新穎和创新的想法導致極端的重複性,使其不適合故事叙述。
  • 高溫(完美影響)從 Output 可以看出,故事采取了有趣的方向並且非常具有創造性。 Output 還為故事添加了多方面的內容,使其變得豐富多樣、富有想像力,並且非常适合創新 storytelling。

技術說明

  • 高溫(負面影響)重要的是要牢记,對於像技術說明這樣的用例,保持事實準確性非常重要的是。高溫導致生成的內容中引入了大量的隨機性和不太可能出現的詞語,這使其對於技術寫作來說不滿意。從上面的 Output 也可以推断出,它太模糊並且包含不相關的思想。
  • 調整溫度(完美影響)我們已將溫度調整到一種能夠為生成技術內容 Strikes a perfect balance 的設定。如您所见, Output 現在 classification 很多。在這個溫度設定下,模型避开了像在較低溫度下一樣的repetitiveness 並且不失coherence 像在較高溫度下一樣。

結論

您已經看到了各種方式会影响内容生成以及哪种温度设置适用于哪种用例。另外,请注意,调整温度并不是生成内容的全部;您还需要调整其他参数。我们将在本系列接下来的文章中介绍所有这些内容。

Source:
https://dzone.com/articles/decoding-llm-parameters-temperature