大语言模型(LLM):GPT 是怎么学会“说话”的?

大语言模型(Large Language Model, LLM)如 GPT-4,本质上是一个用数千亿词训练的预测引擎。它接受输入文本,基于上下文预测最合理的下一个词。

以 Transformer 架构为基础,GPT 使用“自注意力机制”理解句子中的关联关系。它不会“理解意义”,而是在数学上捕捉语言结构。

模型训练阶段会使用海量语料,如新闻、书籍、网页;推理阶段则根据用户提问,生成连贯、自然、甚至风格统一的文本。

尽管 LLM 在很多任务中表现惊艳,但它并不“知道事实”,也可能“编造内容”。理解它的原理,有助于我们理性使用而不是盲目依赖。