上一页 1 ··· 12 13 14 15 16
摘要: 这里利用2-gram模型来提取一篇英文演讲的初略的主题句子,这里是英文演讲的的链接:http://pythonscraping.com/files/inaugurationSpeech.txt n-gram模型是指n个连续的单词组成的序列 以下贴出代码(基于python2.7),详情参考《pytho 阅读全文
posted @ 2017-08-20 10:31 ybf&yyj 阅读(1048) 评论(0) 推荐(0)
摘要: 这里我就不介绍json了,不知道json的同学可以去百度一下json,首先我们的json的格式如下,这个json有点长,这个json来自我以前的一个小任务,具体看这里:http://www.cnblogs.com/ybf-yyj/p/7351493.html 以下为处理的代码: 阅读全文
posted @ 2017-08-12 21:17 ybf&yyj 阅读(1102) 评论(0) 推荐(0)
摘要: 我们在处理一些网站数据的时候,有时候我们需要的数据很多都是动态加载的,而不都是静态的,以下以一个实例来介绍简单的获取动态数据,首先申明本人小白,还在学习python中,这个方法还是比较笨拙的,但是对于初学者还是需要知道的。 首先我们的要求是获取下面文章的参考文献: 刚刚开始,我的想法是使用lxml、 阅读全文
posted @ 2017-08-12 20:54 ybf&yyj 阅读(14296) 评论(1) 推荐(0)
摘要: 由于最近处理数据时涉及到dblp.xml,刚开始下载时dblp.xml只有300多M,但解压之后就有1.9G,没有什么东西能够打开,所以必须要用工具来处理,在python中sax包能够一边解析一边处理XML数据 首先我们要知道dblp.xml里面的数据是什么格式的: 以下为处理dplp.xml数据的 阅读全文
posted @ 2017-08-09 10:49 ybf&yyj 阅读(1336) 评论(0) 推荐(0)
上一页 1 ··· 12 13 14 15 16