DataWhale开源学习(LLM)-Task2
在学习中我发现,分词是 NLP 任务的第一步,所有的后续优化都要建立在高质量分词的基础上。
了解到现今的那么牛逼的大模型,是随着模型参数量、训练数据量的同步巨幅的提升,实现了能力的质变,通过拟合海量语料的语言规律,呈现出了理解语法语义的能力,整个过程感觉挺神奇。
在各种算法模型中,给我印象最深的是余弦相似度(余弦距离)计算,它通过向量在高维空间中的夹角来衡量内容的相似性,这种把抽象的语义相似性转化为可计算的空间距离的思路,设计得非常巧妙。
同时我也意识到,想要深入学习各类 NLP 算法,必须具备扎实的数学知识和素养。在了解隐马尔可夫模型时,里面涉及到大二学过的概率论知识。还有词向量、矩阵运算相关的内容,也是线性代数的里面的,看来我还需要回顾和复习的东西还有很多。
截止到目前,大概还处在跑通代码、理解流程的阶段,很多内容学得还比较粗浅,但也实实在在了解到了 NLP 领域的很多核心思路和魅力。
后续如果有新的感悟,再更新。


浙公网安备 33010602011771号