解码LLM参数,第二部分:Top-P(核采样)

模型参数

就像任何机器学习模型一样,大型语言模型也有各种参数来控制生成的文本输出的方差。我们已经开始了一个多部分系列,详细解释了这些参数的影响。我们将通过平衡我们多部分系列中讨论的所有这些参数,来完美地生成内容。

欢迎来到第二部分,我们将讨论另一个著名的参数,“Top-P”。

Top-P(核采样)

如果目标是控制模型输出的多样性,那么Top-P就是你的选择。较低的Top-P迫使模型使用最可能的单词,而较高的Top-P则迫使模型使用更多样化的单词,从而提高创造力。

让我们通过以下代码和输出来看看Top-P是如何工作的。

Python

 

输出:

PowerShell

 

现在让我们来理解这个输出。

  • Top-P 0.1 – 非常保守:由于模型从可能的后续单词选择的前10%中进行选择,因此生成的内容中有大量的重复。因此,这个回应缺乏多样性,而且大多数时候也不够信息丰富。
  • 0.3 的 Top-P 保守设置:该模型从可能的后续词汇中选择前30%,因此它比之前的 Top-P 设置略微不太保守。从输出结果可以看出,这并没有改善内容生成,并且提示在完成过程中被重复使用。在这种情况下,提示的重复意味着模型认为提示本身是最可能的后续内容。
  • 0.5 的 Top-P 平衡设置:在这里,您首次看到模型列出了一些编号的策略。在这个设置中,您仍然会看到一些重复。但关键是,在这个 Top-P 设置下,模型开始融入更多种类的词汇。输出结果是标准建议与一些不一致性的混合。这个 Top-P 值允许提高创造性,但仍然难以提供深入的信息。
  • 0.7 的 Top-P 创造设置:在这种情况下,模型可以筛选出更多种类的词汇,正如您所看到的,回应正朝着叙事风格转变。由于情景设定中涉及到一个人如何应对压力,因此内容更具创造性。不过,缺点是失去了焦点,重点不是管理压力,而是应对压力的困难。
  • 0.9 的 Top-P 非常创造设置:在这个设置中,模型可以访问大量的词汇和想法,包括不太可能的词汇和概念。这个设置让模型能够使用更具表现力的语言。然而,非常创造的缺点是,模型在追求产生丰富多样的内容时,可能会偏离提示。

上述练习的关键点是,随着Top-P设置的变化,内容如何发生变化。它还让我们了解到,这个参数并不是唯一需要处理内容变化和相关性的参数。

现在,让我们看看Top-P对“创意故事生成”和“技术解释”这两个用例的影响,正如本系列文章的前一部分所讲。

Python

 

输出:

PowerShell

 

现在,让我们分解并分析基于Top-P设置的创意故事生成和技术解释的输出,以及输出是如何受到影响的。

为了有效演示Top-P的影响,我们引入了更好的提示,以引导输出,使影响容易观察到。

创意故事生成

  • 低Top-P(负面影响):正如您所看到的,较低的Top-P使得模型局限于使用单词或短语,从而导致重复和冗余。在这种情况下,创造性也受到限制,因为模型试图不引入新想法。但是,如果您注意,逻辑流程仍然得到维护,模型仍然紧扣主题,这是低Top-P值的特点。
  • 高Top-P(完美影响):在这种情况下,模型引入了新概念,并为叙述增添了创意角度。使用了更广泛的词汇,使文本更加深入和丰富。然而,由于创造性的提高,逻辑流程受到了抑制。

两个叙述之间的对比清楚地显示了Top-P的影响,使人们容易理解它如何影响创意写作。

技术解释

  • 高Top-P(负面影响):如您所见,高Top-P对技术解释产生了负面影响,它阻止了逻辑流畅,并使内容偏离了主题。模型还引入了与解释无关的信息,这些信息与解释不相关。
  • 最优Top-P(完美影响):使用最优Top-P时,解释更加连贯,内容更接近主题。输出与提示更加一致,在准确性和表达之间取得了很好的平衡。由于模型限制在更可能的单词中,因此信息的可靠性得到了增强。

结论

通过这个实验,我们成功地展示了Top-P参数在控制生成文本的随机性和创造性方面的重要性。我们首先研究了一个提示,并观察了Top-P变化时输出的变化,然后采用了基于用例的方法,研究了Top-P如何根据用例控制输出。

然而,从前一部分和本部分来看,我们发现单独来看,每个参数对内容生成的质量来说是不够的。因此,研究所有这些参数的影响至关重要,这将是本系列的最后一部分。

Source:
https://dzone.com/articles/decoding-llm-parameters-top-p