08 2017 档案
摘要:python实现关键词共现矩阵,将下图中同时出现的关键词, 转化为下图的共现矩阵。 代码如下: 最后生成的表格如上图,总长度较大,不方便展示,下图大概体现下共现矩阵的信息。
阅读全文
摘要:接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/。 词云如图所示: 可以看出有些噪声词没能被去除,比如相关、以上学历等无效词汇。本想通过DF判断停用词,但是我爬的时候没顾及到这个问题,外加本身记录数也不高,就没再找职位信息的停用词。当然也可看出
阅读全文
摘要:为了练习做文本处理,爬取了99作文网中的作文。beautifulsoup的学习文档http://beautifulsoup.readthedocs.io/zh_CN/latest/。 总共爬了老师,爸爸,妈妈,自己四种作文,爬出如图所示: <其实还爬了大数据招聘网http://www.17bigda
阅读全文

浙公网安备 33010602011771号