[1hr Talk] Intro to Large Language Models - Andrej Karpathy

LLM Inference

大语言模型的推理部分较为简单，本质上只需要两个文件即可，一个txt来存储神经网络中的所有参数，另一个代码文件来获取参数从而进行计算，这部分相比训练部分来说消耗资源较少。

LLM Training

大语言模型的训练主要包括两部分：

预训练阶段 (Pre-training)：这部分需要用大量的互联网上无标柱的text作为样本去训练，消耗资源大并且周期长，训练出的base (document generator)模型通常来讲不具备assistant的能力。
微调阶段 (Fine-tuning)：这部分需要用少量的带标注的数据作为训练集去进一步优化模型的推理能力，将base模型变为assistant的阶段。
Reinforcement Learning from Human Feedback (RLHF): 可能会存在的阶段，做对齐工作。

LLM Scaling Laws

原则上我们只需要参数个数 n 和训练 text 数量就可以估算出confidence what accuracy on the next word prediction。并且
bigger model一定对应more accuracy。

Tool use

大模型现在也具备例如查网页，调用工具运行代码或更多多模态的功能，会使结果更加准确。

Thinking System

对于人来来讲，会有两个思考系统，一个是自动的，下意识的 System one (例如回答2 + 2 = 4)。另一个是做更理智，更慢的决策的System two (例如一场chess，人类的决策过程更像一棵树)。
对于LLM来说，只有 System one (这里的各项参数例如 Top-k/Top-p 并不算是tree，整个输出过程仍然是一条链)。
之后就出现了 Tree of thoughts (ToT) 去 convert time into accuracy。

Self-improvement

参考AlphaGo，目前大部分的训练目的都是让LLM去模仿，这样的结果就是能做到很优秀但是无法超过人类，如果能做到找到一个reward来做Self-improvement那效果会更好。

OS & Security

这里说将LLM比做为一个OS Kernal更为合适，有点像现在Agent的概念。但是个人认为现在Agent的功能主要还是受限于LLM的能力，另外Agent能做的有价值的操作都要承担对应的风险，让一个概率模型承担OS Kernal感觉在今天来看是很难去实现的。
后面还讲了一些关于LLM Security的内容，可以看一下原视频后面的部分，比较有意思。