如何入门自然语言处理

作者:炼己者

本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!


1. 入门阶段

直接做文本分类这个项目,具体的思路很简单。把原始文本变成向量,然后调用sklearn库里的分类算法,就可以实现文本分类了!

如何把文本转换为文本向量呢?看这篇文章即可,手把手地教你把中文文本变成向量(附代码)

尽量地去理解代码,代码的实现思路,以后遇到类似问题能不能转换成相应的数据格式,继续用这些代码操作。


2.发展阶段

完整的实现文本分类这个项目之后不要骄傲,以为自己很厉害了,可以纵横NLP界了。接下来你要开始有体系地去学习

我还是推荐视频为主,书籍为辅,毕竟我们是小白,直接看书会很容易放弃的。需要有好的e老师带我们飞!

第一个视频教程,宗成庆教授的视频教程,建议书和视频一起来。

书籍也是宗成庆教授的著作

第二个视频教程,是炼数成金的教程,里面的课程目录是这样的

两个视频教程你可以网上搜索,也可以关注公众号:ZhangyhPico

回复关键字 自然语言处理入门 ,便可以领取资源

经典书籍我推荐《python自然语言处理》 以及 《数学之美》这两本书

《python自然语言处理》这本书很适合我们小白来读,作者感觉就是以我们小白的角度来写的。里面主要是处理英文数据的,你可以试着用书里的方法来操作中文数据,这样你会更好的落实和理解书中的代码。

《数学之美》这本书我感觉就是在说自然语言处理方向的技术原理,可以拿来做科普。比如你想做什么算法了,可以先拿这本书读一读,对你要用到的算法有个初步了解


3.成长阶段

到了这个阶段你的理论知识基本完备,至少不那么迷茫了。接下来你可以开始做项目,读论文了。当然没事儿的时候还要多多翻阅这两本经典之作,基本做机器学习方向就不能忽略这两本书了。李航的《统计学习方法》,周志华的西瓜书《机器学习》。

1)项目

做项目的话你肯定要有数据,中文的数据不好找,这里有一份关于中文数据的汇总,可以参考一下。
中文文本语料库整理

项目有很多,比如命名实体识别,实体关系抽取,知识图谱等等。

命名实体识别系列你可以参考这里的博客操作,中文命名实体识别总结

知识图谱这个项目很大,要做的东西很多。你可以先把理论知识备好,再去操作
理论知识依旧建议看视频,视频教程是小象学院的。可以关注公众号:ZhangyhPico
,回复关键字知识图谱,即可领取视频教程

2)论文

自然语言处理方向的论文资料可以看这篇博客,里面会教你怎么找论文
初学者如何查阅自然语言处理(NLP)领域学术资料

到了这里,入门是肯定入门了,后续发展就看你自己了。没事儿读读论文,做做比赛,悠哉游哉!!!


欢迎扫码关注

posted @ 2018-10-16 21:23  炼己者  阅读(800)  评论(0编辑  收藏  举报