大模型构建-文本数据的处理
文本数据的处理,属于大模型的预训练阶段。通过使用下一单词预测任务,我们能够训练
那些拥有数百万甚至数十亿参数的大语言模型,从而打造出能力优异的模型。这些模型经过进一
步微调,便可以遵循通用指令或执行特定的目标任务。但是,在实现和训练大语言模型之前需要
先准备好训练数据集。

在后续的内容中,我们将学习如何为训练大语言模型准备输入文本。这涉及将文本分割为独立的单
词词元和子词词元,然后将其编码为大语言模型所使用的向量表示。你还将了解到高级的分词技术,比如字节对编码(byte pair encoding,BPE) ,这是一种在 GPT 等流行的大语言模型中广泛使用的方法。最后,我们将实现一种采样和数据加载策略,来生成训练大语言模型所需的输入-输出对。

