大语言模型中的采样参数

采样策略

LLM通过自回归的方式，一步步预测出可能的下一个token。每次预测时，模型会输出一个概率分布，表示每个token作为下一个token的可能性。为了从这个分布中采样出一个具体的token，通常会使用一些采样参数来控制采样的方式和结果。这个过程的设计称为解码策略，分为候选集筛选和采样两步。

候选集筛选：通过temperature、top_k和top_p等参数来调整原始的概率分布，筛选出一部分可能性较高的token作为候选集。
采样：从候选集中随机选择一个token作为下一个输出。

1. Temperature

temperature是对模型输出的概率分布(logits)进行缩放的参数,高温度会使分布更加平坦，即差距变小，低温度会使分布更加尖锐，即差距变大。

图示表示为：

不同温度对原始概率分布的影响示意

公式如下：

可以从deepseek-v3的代码中体现temperature参数的作用：

def sample(logits, temperature: float = 1.0):
    """
    Samples a token from the logits using temperature scaling.

    Args:
        logits (torch.Tensor): The logits tensor for token predictions.
        temperature (float, optional): Temperature for scaling logits. Defaults to 1.0.

    Returns:
        torch.Tensor: The sampled token.
    """
    logits = logits / max(temperature, 1e-5)
    probs = torch.softmax(logits, dim=-1)
    return probs.div_(torch.empty_like(probs).exponential_(1)).argmax(dim=-1)

2. Top-k

高温可以使模型输出更有创意，但是由于候选集是词表全部token，可能导致模型采样出完全不相关的token。top_k设置只在概率最高的k个token中进行采样，避免了低概率token的干扰。

top_k采样示例

以下从transformers库中可以看到top_k的实现：

class TopKLogitsWarper(LogitsProcessor):
    r"""
    [`LogitsProcessor`] that performs top-k, i.e. restricting to the k highest probability elements. Often used
    together with [`TemperatureLogitsWarper`] and [`TopPLogitsWarper`].

    Args:
        top_k (`int`):
            The number of highest probability vocabulary tokens to keep for top-k-filtering.
        filter_value (`float`, *optional*, defaults to -inf):
            All filtered values will be set to this float value.
        min_tokens_to_keep (`int`, *optional*, defaults to 1):
            Minimum number of tokens that cannot be filtered.
    """

    def __init__(self, top_k: int, filter_value: float = -float("Inf"), min_tokens_to_keep: int = 1):
        if not isinstance(top_k, int) or top_k <= 0:
            raise ValueError(f"`top_k` has to be a strictly positive integer, but is {top_k}")

        self.top_k = max(top_k, min_tokens_to_keep)
        self.filter_value = filter_value

    @add_start_docstrings(LOGITS_PROCESSOR_INPUTS_DOCSTRING)
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        top_k = min(self.top_k, scores.size(-1))  # Safety check
        # Remove all tokens with a probability less than the last token of the top-k
        indices_to_remove = scores < torch.topk(scores, top_k)[0][..., -1, None]
        scores_processed = scores.masked_fill(indices_to_remove, self.filter_value)
        return scores_processed

3. Top-p

top_k采样中，k是固定的，对于两种极端情况，当概率分布非常平坦时，k值需要设置很大才能涵盖所有合理的token，而当概率分布非常尖锐时，k值又需要设置很小才能避免采样到低概率token。top_p采样通过设置一个累积概率阈值p，动态选择候选集大小。

从最高概率token开始累加，直到这些token的累积概率超过p为止。这样可以自适应地选择候选集大小。

Top-P (P=60%) 采样示例

仍然可从transformers中看到top_p的实现。

class TopPLogitsWarper(LogitsProcessor):
    """
    [`LogitsProcessor`] that performs top-p, i.e. restricting to top tokens summing to prob_cut_off <= prob_cut_off.
    Often used together with [`TemperatureLogitsWarper`] and [`TopKLogitsWarper`].

    Args:
        top_p (`float`):
            If set to < 1, only the smallest set of most probable tokens with probabilities that add up to `top_p` or
            higher are kept for generation.
        filter_value (`float`, *optional*, defaults to -inf):
            All filtered values will be set to this float value.
        min_tokens_to_keep (`int`, *optional*, defaults to 1):
            Minimum number of tokens that cannot be filtered.
    """

    def __init__(self, top_p: float, filter_value: float = -float("Inf"), min_tokens_to_keep: int = 1):
        top_p = float(top_p)
        if top_p < 0 or top_p > 1.0:
            raise ValueError(f"`top_p` has to be a float > 0 and < 1, but is {top_p}")
        if not isinstance(min_tokens_to_keep, int) or (min_tokens_to_keep < 1):
            raise ValueError(f"`min_tokens_to_keep` has to be a positive integer, but is {min_tokens_to_keep}")

        self.top_p = top_p
        self.filter_value = filter_value
        self.min_tokens_to_keep = min_tokens_to_keep

    @add_start_docstrings(LOGITS_PROCESSOR_INPUTS_DOCSTRING)
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        sorted_logits, sorted_indices = torch.sort(scores, descending=False)
        cumulative_probs = sorted_logits.softmax(dim=-1).cumsum(dim=-1)

        # Remove tokens with cumulative top_p above the threshold (token with 0 are kept)
        sorted_indices_to_remove = cumulative_probs <= (1 - self.top_p)
        # Keep at least min_tokens_to_keep
        sorted_indices_to_remove[..., -self.min_tokens_to_keep :] = 0

        # scatter sorted tensors to original indexing
        indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
        scores_processed = scores.masked_fill(indices_to_remove, self.filter_value)
        return scores_processed

Acknowledgements

大模型

#temperature #top_k #top_p

大语言模型中的采样参数

https://wenzhaoabc.github.io/llm/sample_params/

作者

wenzhaoabc

发布于

2025年2月12日

许可协议

大语言模型中的位置编码上一篇

SuperRocket 下一篇