词法分析:中文分词

词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程

中文分词;词性标注;实体识别


这一部分是NLP的基础,应该是入门就要了解的内容。

所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。

有个著名分词工具jieba(结巴),感觉名字起的挺贴切的,句子断开成一个个词来读,有点结巴的感觉。

这个工作对人来说不复杂,小学高年级应该就没多大问题了。

对机器来说,不容易。虽然现在中文分词已经做得很好了,仍存在部分棘手的问题。


大多数的自然语言语句,对于现在的中文分词工具来说,没有难度。

微博 #自然语言理解太难了# 有很多让人觉得有趣的内容,可以让分词工具测一测。

结合这个话题,展开中文分词的学习,进一步运行程序“考考”几个分词工具。


【老师说衣服上除了校徽别别别的】

jieba
老师/ 说/ 衣服/ 上/ 除了/ 校徽/ 别别/ 别的
hanLP
[老师/nnt, 说/v, 衣服/n, 上/f, 除了/p, 校徽/n, 别/d, 别/d, 别的/rzv]

【南京市长江大桥】

jieba
南京市/ 长江大桥
hanLP
[南京市/ns, 长江大桥/nz]
【江大桥是计科二班的同学】
jieba
 江/ 大桥/ 是/ 计科/ 二班/ 的/ 同学
hanLP
[江大桥/nr, 是/vshi, 计科/nz, 二/m, 班/n, 的/ude1, 同学/n]

【小龙女动情地对杨过说:“我也想过过过儿过过的生活。”】

jieba
小龙女/ 动情/ 地/ 对/ 杨过/ 说/ :/ “/ 我/ 也/ 想/ 过/ 过/ 过儿/ 过过/ 的/ 生活/ 。/ ”
hanLP
[小龙女/nz, 动情/vi, 地/ude2, 对/p, 杨过/nr, 说/v, :/w, “/w, 我/rr, 也/d, 想/v, 过过/v, 过/uguo, 儿/ng, 过过/v, 的/ude1, 生活/vn, 。/w, ”/w] 

 【下雨天留客天留我不留】

jieba
下雨天/ 留客/ 天留/ 我/ 不留
hanLP
[下雨天/n, 留客/v, 天/qt, 留/v, 我/rr, 不留/v]
人类:
一:“下雨,天留客;天留,我不留。”
二:“下雨天,留客?天留,我不留。”
三:“下雨天,留客天,留我不留?”
四:“下雨天,留客天,留?我不留!”
五:“下雨天,留客天,留我不?留。”

 


他说:“她这个人真有意思(funny)。”她说:“他这个人怪有意思的(funny)。”于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)!”她也生气了:“你们这么说是什么意思(intention)?”事后有人说:“真有意思(funny)。”也有人说:“真没意思(nonsense)”。

(原文见《生活报》1994.11.13.第六版)[吴尉天,1999]

------------------------摘自宗成庆《统计自然语言处理》。

语音合成,播放一下。顺道引入“语音合成、语音识别”知识点。


作者:赵元任(1892年11月3日—1982年2月24日)

《季姬击鸡记》

季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。

《施氏食狮史》

石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,施氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。


 Ref:

https://github.com/fighting41love/hardNLU

https://www.sohu.com/a/306158933_284433

https://www.jianshu.com/p/009671e56027

 

posted on 2020-06-25 18:55  HBU_DAVID  阅读(562)  评论(0编辑  收藏  举报

导航