LLM

 

LangChain 是啥,能干啥? AutoChain 又是啥

 

LLM 都是基于transformers 结构的,具体又分为

Encoder-only(Autoencoding), 比如 BERT, ROBERTA

 

Encoder-Decoder, 

 

Decoder-only(Autoregressive),  目前用的比较普遍。 GPT, BLOOM, LLAMA...

 

根据chinchila paper, 目前很多大模型是under trained, 只要喂给大模型的数据大于其参数的 20倍,可以做成更小的模型而且达到很好的效果.

 

 

 Fine-tuning

有两种方法

一种是 instruction fine-tuning, 是直接重新训练的原来model的参数

一种是 FEFT (Parameter Efficient Fine-Tuning), 要么freeze 大部分参数,重新训练一小部分; 要么freeze 全部参数,增加一些新的Adapter参数.

 

 

 

 

Ref

https://www.datacamp.com/tutorial/how-to-train-a-llm-with-pytorch

https://zhuanlan.zhihu.com/p/620529542

Coursera

posted @ 2023-10-30 08:44  mashuai_191  阅读(15)  评论(0编辑  收藏  举报