大模型掷骰子不及格：LLM难以生成统计随机数

📅 2026-04-27 · 📁 research · 👁 0 阅读 · 🏷️ 大语言模型随机数生成概率分布AI局限性LLM评测

💡 最新研究对11个前沿大语言模型进行了大规模概率采样审计，发现LLM在从指定统计分布中生成随机数时表现严重不足，这对AI系统可靠性提出了新的挑战。

引言：当AI被要求「掷骰子」

我们习惯于惊叹大语言模型（LLM）在写作、编程和推理方面的惊人能力，但如果给它们一个看似简单的任务——从某个概率分布中生成随机数——结果会如何？一篇发表在arXiv上的最新论文（arXiv:2601.05414v3）给出了令人意外的答案：大模型在「掷骰子」这件事上，表现得相当糟糕。

随着LLM从单纯的聊天工具逐步演变为随机管道和通用智能系统的核心组件，忠实地从指定概率分布中采样已经不再是一个理论上的好奇心问题，而是一项关键的功能性需求。这项研究的发现，可能会对AI系统的可靠性和安全性产生深远影响。

该研究由多位研究者联合完成，是首次针对前沿LLM原生概率采样能力的大规模、具有统计效力的系统性审计。研究团队对包括GPT系列、Claude系列、Llama系列等在内的11个主流大语言模型进行了基准测试，覆盖了15种不同的统计分布场景。

研究结果表明，当被要求从均匀分布、正态分布、泊松分布等常见统计分布中生成随机数时，这些模型普遍表现出显著的系统性偏差。具体而言，模型生成的数字序列在统计检验下几乎无法通过随机性测试，呈现出明显的模式化倾向。

例如，在最基础的均匀分布采样任务中——相当于模拟一个公平的骰子——LLM倾向于偏好某些特定数字，而回避另一些数字。这种偏好并非随机波动，而是具有高度可重复性的系统性偏差。在更复杂的连续分布采样中，模型的表现更加不尽如人意，生成的样本在形状、尺度和位置参数上均与目标分布存在显著差异。

这一现象背后的原因值得深入探讨。大语言模型的本质是一个条件概率预测器——它根据上下文预测下一个最可能出现的token。这种架构天然倾向于生成「看起来合理」的输出，而非真正随机的输出。

训练数据的偏差是第一个关键因素。人类在日常文本中使用数字的方式本身就不是均匀分布的。例如，数字7在人类心理学实验中被频繁选为「随机数」，这种偏好很可能已经被编码进了模型的参数中。

自回归生成机制的局限是第二个深层原因。LLM逐token生成数字的方式意味着，前一个数字的选择会影响后续数字的生成。这导致模型很难产生真正独立同分布的随机样本，序列中往往存在隐性的自相关结构。

对「随机性」的语义理解与数学实现之间的鸿沟也不容忽视。模型或许「理解」均匀分布的概念定义，但将这种理解转化为符合数学要求的实际采样行为，是完全不同的两件事。这暴露了当前LLM在从知识到执行之间的根本性差距。

这项研究的意义远超学术探讨。在当前的AI应用生态中，LLM正被越来越多地嵌入需要随机采样能力的复杂系统中：

如果开发者在不了解这些局限的情况下，将LLM的随机数生成能力视为理所当然，可能会在系统中引入难以察觉但影响深远的偏差。

研究者指出，解决这一问题可能需要多管齐下的策略。一种直接的方案是在LLM系统中集成经过验证的外部随机数生成器，将采样任务从语言模型中剥离出来，交给专业工具处理。这种「工具调用」的思路与当前AI智能体的发展方向高度一致。

从模型层面来看，未来的研究可以探索通过专门的微调或强化学习，增强模型对概率分布的忠实采样能力。也有研究者提出，可以在推理阶段引入校准机制，对模型输出的数字序列进行后处理，使其更贴近目标分布。

这项研究提醒我们，在追逐AGI的道路上，一些看似基础的数学能力可能恰恰是大语言模型最容易被忽视的软肋。当我们赋予AI越来越多的自主权时，了解并正视这些局限性，比盲目信任模型的全能性要重要得多。正如论文标题所暗示的那样：即便是最强大的AI，在掷骰子这件事上，也远非一个合格的玩家。