强化学习科研入门

强化学习科研入门路线

强化学习

想要通俗易懂而透彻地启蒙强化学习的，还是强烈推荐李宏毅，他是面向大学生的授课，网址：https://www.bilibili.com/video/BV1XP4y1d7Bk/?spm_id_from=333.337.search-card.all.click
接着就是知其然，知其所以然，深入到算法层面，我觉得西湖大学赵世钰和北大王树森都可以，

赵世钰网址：https://www.bilibili.com/video/BV1r3411Q7Rr/?spm_id_from=333.999.0.0

配套教材：https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

王树森网址：https://www.bilibili.com/video/BV1We4y1w7Us/?spm_id_from=333.337.searchcard.all.click

配套教材：https://pan.baidu.com/s/1AgRWO_NKhKNNIExTD3DlTA?pwd=1234

强化代码学习参考书，也可以作为入门参考书（代码很好只不过文字比较阉割），当然是强推**《动手学强化学习》**(里面有代码可以玩玩)

网址：https://hrl.boyuai.com/chapter/1/初探强化学习

强化学习基础部分

强化学习导论——什么是强化学习，知道即可（教程里面都有介绍，挑一个看就好）
贝尔曼/贝尔曼最优公式
值迭代与策略迭代
蒙特卡洛方法
梯度下降
时序差分
Q-learning，Sarsa

基础的部分先学完，大概把强化学习是做什么的了解清楚，这部分基础务必打扎实，属于强化学习的基础部分，目前组内的工作都是基于深度强化学习，这部分学好，也为深度强化学习的进阶打下坚实基础

深度强化学习

BP 神经网络
DQN,DDPG —— 值函数近似/策略梯度

这一部分，需要有一些深度学习的知识做铺垫

可以先学一些神经网络相关基础

可以先参考下面的教程 —— 学完BP 神经网络

深度学习拓展知识

想要做出一个优秀的强化学习工作，对于深度学习的了解必不可少，因为强化学习决策模型的应用场景瞬息万变，不同的深度学习模型的辅助，就可以在不同的场景派上用场。比如卷积神经网络可以帮助无人汽车更好地理解路况；比如循环神经网络，注意力机制，可以帮助王者荣耀里面的觉悟机器人结合先前的动作做出更好的决策，并锁定合适的敌人进行攻击，深度学习的世界同样深不可测，科研是一个边工作，边学习，不断探索新事物的过程。我们就算学完了教辅书上的知识，也难免遇到新的问题，且教辅书上的东西也不一定都用得到，所以可以先把必要的基础知识打扎实即可，然后在论文学习中探索，学习最前沿的模型，不必纠结那些没有学完的所谓 “行为克隆 ”等，按需学习，比如你做的是纯在线强化学习的工作，就用不上；比如你需要做离线强化学习，再恶补也不迟

下面的深度学习教程，是为了让大家读论文的时候，遇到卷积神经网络，循环神经网络的这些没见过的基础知识，而写的参考路线，并不强求

人工智能入门（速速过一遍）

笔者的建议是：这些库懂得用就行(好比你知道哆啦A梦有哪些道具，你找他取就是)，不用像考试一样背下来，不现实，要用的时候忘记了懂得问gpt，然后可以自己用pytorch搭建那些基础的网络，cnn或rnn等加深对代码和网络的理解

Python编程
Numpy矩阵运算
Pandas数据科学库
Matplotlib
线性代数

机器学习核心技术(目前可不学)

深度学习核心技术（必学）

人工神经网络
- 感知机
- 损失函数
- 激活函数
- 全连接层
- DropOut
- 优化方法及正则化
BP神经网络
- 正向计算
- 链式法则
- 权重更新
- Back Propagation
- 梯度消失/爆炸
- Batch Normalization
CNN卷积神经网络
- 局部感受野
- 权值共享
- 卷积层
- 池化层
RNN循环神经网络
- 梯度裁剪
- 双向长短时记忆网络（BiLSTM）
- 长短时记忆网络（LSTM）
- 门控神经网络(GRU)
Pytorch(学会看源码哦！)
- 定义损失函数
- 自动微分功能
- 定义优化器
- *定义模型结构

选修部分

（学到这边，其实就可以开始强化学习之旅了，这里按需学习，可以做科研地时候遇到再学）

Transfomer原理（当今的大热门，对gpt感兴趣的可以看看）

编码器
解码器
注意力机制
语言模型
模型超参数
模型验证

RNN及变体

传统RNN
LSTM
Bi-LSTM
GRU
Bi-GRU
Seq2Seq

参考教程

入门书籍

对于入门深度学习的小白，我的建议是，教科书使用李沐老师的《动手学深度学习》，电子书链接：https://courses.d2l.ai/zh-v2/
单单啃书可能会比较难受，可以结合网址里李沐的教学视频，当然，如果觉得李沐的视频一开始听起来比较吃力，我的建议是可以先去看李宏毅老师的课，是面向他台湾大学的学生的，风格生动有趣，网址：https://aistudio.baidu.com/aistudio/loginmid?redirectUri=http%3A%2F%2Faistudio.baidu.com%2Feducation%2Fgroup%2Finfo%2F1978
可能需要先注册一个账号

挑战者部分：基于LLM和OCR的智能阅卷平台设计与开发

(这一块也是选修，后面对打比赛有兴趣的同学，可以思考一下，不一定去实现)
笔者与深度学习的渊源在于大一上学期期末，1月份报名的中国大学生服务外包创新创业大赛，主打一个以赛促学，当时笔者只有一点Java基础，不会python，也没有深度学习基础，通过边学边做题的方式，大约历时一个半月（45-50天时间）的时间完成了服创A01基于文心大模型的智能阅卷平台设计与开发赛题，并取得了东部赛区三等奖，最重要的是，这样一段经历加深了我对AI的了解，增强了在这个领域走下去的兴趣与动力，有兴趣有时间的朋友，可以试试用所学知识大概把框架设计出来（比如说实现思路），我觉得这就很厉害了，当然如果能把python完全实现出来，那么真的会是一件很棒的事情

整体背景

在当前大语言模型（LLM）快速发展的技术背景下，教育领域正在经历着重大的变革。在试卷评阅场景中，教师对自动化和智能化的评阅需求逐渐凸显。因此，设计一个自动评阅平台，结合计算机视觉的图像分析和大语言模型的语
义理解与生成能力，有望提高试卷评阅的效率、准确性和评阅维度丰富性。

题目要求

包括但不限于以下功能：
（1）试卷图像快速采集与存储；
（2）字符识别与提取；
（3）内容理解与评阅内容生成；

笔者从入门强化学习，到后来越学越热爱，是因为，强化学习重决策，重在训练智能体学习决策的能力，而决策能力，恰是一个生物最重要的一个特性，每学一个算法，笔者都倾向于联系于实际生活，发现这一门学问讲的就是人生，比如说 e-greedy,探索与开发的平衡，经验回放池，回首过往，展望未来，所以当某个点想不通，不妨结合实际生活想想，如果这是一个人，它会怎么学习，也建议可以把Q-learning,Sarsa,等基础算法写一写加深理解什么的，上面的教材结合着学习，差不多到多智能体部分学习得差不多了，就开始论文吧，笔者以后若是有新的想法，也会更新此博客，愿与大家共同进步成长

posted @ 2024-06-17 13:53 糖子哥阅读(909) 评论(6) 收藏举报

刷新页面返回顶部