08 2017 档案

摘要:python实现关键词共现矩阵,将下图中同时出现的关键词, 转化为下图的共现矩阵。 代码如下: 最后生成的表格如上图,总长度较大,不方便展示,下图大概体现下共现矩阵的信息。 阅读全文
posted @ 2017-08-21 10:25 草莓干123456 阅读(10858) 评论(0) 推荐(0)
摘要:接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/。 词云如图所示: 可以看出有些噪声词没能被去除,比如相关、以上学历等无效词汇。本想通过DF判断停用词,但是我爬的时候没顾及到这个问题,外加本身记录数也不高,就没再找职位信息的停用词。当然也可看出 阅读全文
posted @ 2017-08-10 11:37 草莓干123456 阅读(614) 评论(0) 推荐(0)
摘要:为了练习做文本处理,爬取了99作文网中的作文。beautifulsoup的学习文档http://beautifulsoup.readthedocs.io/zh_CN/latest/。 总共爬了老师,爸爸,妈妈,自己四种作文,爬出如图所示: <其实还爬了大数据招聘网http://www.17bigda 阅读全文
posted @ 2017-08-09 13:11 草莓干123456 阅读(629) 评论(0) 推荐(0)