随笔分类 -  爬虫项目实践

python爬虫之百度贴吧
摘要:第一步:通过urllib2,Request命令和urlopen命令爬取贴吧网页源码,并通过这则表达式,选取自己想要的数据 在这里需要注意几个地方 1.编码问题,这里对中文编码不再进行过多阐述。 网页源码是utf-8,我在编写程序前# -*- coding:utf-8 -*-,那么显示在网页上,我只需 阅读全文

posted @ 2017-07-31 16:54 子不语怪力乱神 阅读(547) 评论(0) 推荐(0)

python爬虫之糗事百科
摘要:历经1个星期的实践,终于把python爬虫的第一个实践项目完成了,此时此刻,心里有的只能用兴奋来形容,后续将继续加工,把这个做成一个小文件,发给同学,能够在cmd中运行的文件。简化版程序,即单单爬取页面数据如下 加强版添加了交互信息的如下 以上代码由于当时使用静觅大神的交互代码,无法运行出应有的效果 阅读全文

posted @ 2017-07-13 17:11 子不语怪力乱神 阅读(728) 评论(0) 推荐(0)