资源整理

1.主要资源：
2.transformer资源
- 2.2 HF主页课程：
3. datawhale资源：
4. 赛事相关：
5. github资源：
6. 工具：
7.面试类
8.杂类：

1.主要资源：

2.transformer资源

2.2 HF主页课程：

Hugging Face主页课程 1-3译文
Summary of the tokenizers
Using tokenizers from 🤗 Tokenizers
从头训练分词器，中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
Loading a Dataset，dataset拆分和切片
从头开始预训练BERT模型、《pytorch loop微调预训练模型》
在modelpoint基础上训练语言模型、中文翻译可以查看：datawhale中文教程
trainer参数设定参考：《huggingface transformers使用指南之二——方便的trainer》
huggingface transformers使用指南（更新and待续）
hugging face 官方文档——datasets、optimizer
transformers/trainer.py
社区文档：社区transformer资源、notebook

3. datawhale资源：

4. 赛事相关：

CV类比赛及资源：

结构化比赛：

赛事总结

5. github资源：

6. 工具：

《Python环境配置保姆教程（Anaconda、Jupyter、GPU环境）》
《torchtext.vocab构建词表》
《Jupyter Notebook：Python数据分析利器》
colab使用方法总结
Google Colab 使用说明（翻译）
markdown文档、公式格式调整（可以写作\(\mathbf {formula }\)）
防止自动断开连接
在colab页面，按Ctrl+Shit+i，打开检查页面（也可以右击鼠标，选择“检查”），并切换到控制台或terminal标签，chrome中为Console。

function ConnectButton(){
    console.log("Connect pushed"); 
    document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click() 
}
setInterval(ConnectButton,60000);

7.面试类

8.杂类：

SigOpt（调参？）
trainner最原始的版本（trainner一开始是不存在的，可以看huggingface的examples里的代码，由于启动训练需要特别多的参数，而各个nlp任务又有很多通用的参数，就被抽象出来了trainner。trainner就是把训练开始之前需要的参数合并了起来）
《如何理解NLLLoss?》
深度学习500问
推荐书籍：Transformers-for-Natural-Language-Processing，张帆发的
李沐《动手学深度学习》中文第二版，github地址
神经网络与深度学习
Attention is all you need的Pytorch实现
Sentence Transformers：使用 BERT & Co 的多语言句子、段落和图像嵌入，Sentence Transformers文档
GPU 显存不足怎么办

jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb

posted @ 2022-01-10 02:28 张红旭阅读(213) 评论(0) 收藏举报

刷新页面返回顶部