1.大语言模型的前世今生

2.大模型SFT

3.大模型Post-Training

4.大模型RLHF

5. 大模型推理加速

切入点是DeepSpeed inference和llama.cpp两个项目，学习过程中梳理了推理时大体的流程，以及网络结构、计算图的构建、算子调度、算子细节、当下的基本瓶颈、可能的优化细节等等问题。
还可以抽取出来一些较为关键的技术问题：张量并行机制、KVCache 原理、Beam Search等投机推理方法。但是这对于整个大模型推理所涉及到的整个技术面还有好几块大的拼图没有凑齐。

单request单次推理中的算子级优化问题，如算子融合、算子加速。
面向多request多用户推理服务系统中的优化问题。
模型过大，单卡单机无法放下，涉及分布式系统和分布并行方法来解决其中的瓶颈。包含并行机制，分布调度，通信优化，容错优化等方面。
改进推理算法类的工作：比如在推理时不再是一个词一个词出，而是一次多出来几个词作为候选的投机推理方法。
模型小型化工作：小模型设计、模型稀疏化、模型剪枝、模型量化推理、模型蒸馏等方法。这个领域中的轻量化方法和传统视觉领域中的方法并没有太大区别，但是在具体工作中需要注意大语言模型中的基础上找到差异性和新特点。