探秘Transformer系列之文章列表

0x01 系列说明

因为各种事情，好久没有写博客了，之前写得一些草稿也没有时间整理（都没有时间登录博客和微信，导致最近才发现好多未读消息和私信，在这里和各位朋友说下万分抱歉）。现在恢复更新，是因为最近有些从非AI领域转过来的新同学来找我询问是否有比较好的学习资料，他们希望在短期内迅速上手 Transformer。我在网上找了下，但是没有找到非常合适的系统的学习资料，于是就萌发了自己写一个系列的想法，遂有此系列。在整理过程中，我也发现了自己很多似是而非的错误理解，因此这个系列也是自己一个整理、学习和提高的过程。

本系列试图从零开始解析Transformer，目标是：

解析Transformer如何运作，以及为何如此运作，让新同学可以入门Transformer。
力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以通过阅读本系列来了解一些新观点，有所收获。

几点说明：

本系列是对论文、博客和代码的学习和解读，借鉴了很多网上朋友的文章，在此表示感谢，并且会在参考中列出。因为本系列参考文章太多，可能有漏给出处的现象。如果原作者发现，还请指出，我在参考文献中进行增补。
本系列有些内容是个人梳理和思考的结果（反推或者猜测），可能和原始论文作者的思路或者与实际历史发展轨迹不尽相同。这么写是因为这样推导让我觉得可以给出直观且合理的解释。如果理解有误，还请各位读者指出。
对于某些领域，这里会融入目前一些较新的或者有特色的解释，因为笔者的时间和精力有限，难以阅读大量文献。如果有遗漏的精品文献，也请各位读者指出。