资源整理
1.主要资源:
-
《PyTorch 中文官方教程 1.7》、1.7文档、《PyTorch 1.0 中文文档 & 教程》、《PyTorch 学习笔记汇总(完结撒花)》
-
《pytorch里巧用optimizer.zero_grad增大batchsize》、苏剑林《用时间换取效果:Keras梯度累积优化器》、《【PyTorch基础教程4】反向传播与计算图》
2.transformer资源
-
知识蒸馏Distilled BiLSTM论文解读《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 》,原文链接。
-
《The Annotated Transformer》:原文以及中文翻译、datawhale地址
-
transformer知识点:
-
论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型、《A Survey of Transformers》英文pdf
-
深度学习论文翻译:Image Classification、Object Detection、OCR
-
张贤笔记:
2.2 HF主页课程:
- Hugging Face主页课程 1-3译文
- Summary of the tokenizers
- Using tokenizers from 🤗 Tokenizers
- 从头训练分词器,中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
- Loading a Dataset,dataset拆分和切片
- 从头开始预训练BERT模型、《pytorch loop微调预训练模型》
- 在modelpoint基础上训练语言模型、中文翻译可以查看:datawhale中文教程
- trainer参数设定参考:《huggingface transformers使用指南之二——方便的trainer》
- huggingface transformers使用指南(更新and待续)
- hugging face 官方文档——datasets、optimizer
- transformers/trainer.py
- 社区文档:社区transformer资源、notebook
3. datawhale资源:
- 优秀作业:《天国之影笔记》、于冬笔记、初晓宇笔记、胡先生笔记、pytorch视频
- datawhale开源学习汇总
- Python语言(参考《python3.6.3中文手册》、《Python 3 教程》、《十万行代码》)
- 开源项目:深入浅出PyTorch
- 基于transformers的自然语言处理(NLP)入门
- nlp之情感分析(RNN/CNN/LSTM/BERT)
- 数据挖掘/机器学习
- 数据可视化(matplotlib)
- 计算机视觉(cv)
- 强化学习
- 动手学数据分析、清洗、重构、建模
- 集成学习(上)、集成学习(中)、 集成学习(下)
- 多多笔记 之《2021年如何科学的“微调”预训练模型?》、《深度学习基础》
- 统计学习要素(ELS)中文翻译、代码实现及其习题解答
4. 赛事相关:
- Coggle 30 Days of ML(22年1&2月)
- Coggle年度原创文章汇总
- 赛事信息及Baseline汇总:文档、Github地址
- Coggle数据科学 / competition-baseline
- 入门NLP比赛:
- 学术论文分类挑战赛0.79+paddle版本Baseline
- Pytorch Bert+BiLstm文本分类
CV类比赛及资源:
结构化比赛:
赛事总结
- 特征选择算法大总结
- Kaggle Top1% 是如何炼成的!
- 一文读懂文本处理中的对抗训练、《NLP中的对抗训练》、《bert 对抗训练实现代码》
- 《【论文解读】文本分类上分利器:Bert微调trick大全》
5. github资源:
- 人工智能1,2,3班资料,(d5dq)
- pytorch-sentiment-analysis
- 《自然语言处理》(车万翔)配套案例代码地址
- 《《从零构建知识图谱:技术、方法与案例》代码》
- 中文数据增强包、参考文献:[2019-EDA]EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
- cloud tpu文档
- 搭建博客
6. 工具:
- 《Python环境配置保姆教程(Anaconda、Jupyter、GPU环境)》
- 《torchtext.vocab构建词表》
- 《Jupyter Notebook:Python数据分析利器》
- colab使用方法总结
- Google Colab 使用说明(翻译)
- markdown文档、公式格式调整(可以写作\(\mathbf {formula }\))
- 防止自动断开连接
在colab页面,按Ctrl+Shit+i,打开检查页面(也可以右击鼠标,选择“检查”),并切换到控制台或terminal标签,chrome中为Console。
function ConnectButton(){
console.log("Connect pushed");
document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click()
}
setInterval(ConnectButton,60000);
7.面试类
- 【剑指offer】高频ML/DL面试题(持续更新)
- 刷题攻略 知识星球《代码随想录》
- datawhale力扣项目
- Datawhale面经小组,项目地址
8.杂类:
- SigOpt(调参?)
- trainner最原始的版本(trainner一开始是不存在的,可以看huggingface的examples里的代码,由于启动训练需要特别多的参数,而各个nlp任务又有很多通用的参数,就被抽象出来了trainner。trainner就是把训练开始之前需要的参数合并了起来)
- 《如何理解NLLLoss?》
- 深度学习500问
- 推荐书籍:Transformers-for-Natural-Language-Processing,张帆发的
- 李沐《动手学深度学习 》中文第二版,github地址
- 神经网络与深度学习
- Attention is all you need的Pytorch实现
- Sentence Transformers:使用 BERT & Co 的多语言句子、段落和图像嵌入,Sentence Transformers文档
- GPU 显存不足怎么办
jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb
浙公网安备 33010602011771号