ystraw - 博客园

2018年7月17日

16-多线程爬取糗事百科（python+Tread）

摘要： https://www.cnblogs.com/alamZ/p/7414020.html 课件内容阅读全文

posted @ 2018-07-17 20:03 ystraw 阅读(231) 评论(0) 推荐(0)

15-糗事百科（python+xpath）

摘要：爬取糗事百科的段子： 1.用xpath分析首要爬去内容的表达式； 2.用发起请求，获得原码； 3.用xpath分析源码，提取有用信息； 4.由python格式转为json格式，写入文件效果：不不以json格式存储：效果：阅读全文

posted @ 2018-07-17 12:44 ystraw 阅读(188) 评论(0) 推荐(0)

2018年7月16日

14-python登入教务网(python+bs4)

摘要：用request先得到到session对象，用其去放送请求，会自动保存cookie。模拟有验证码的登入步骤： 1.发送请求登入页面； 2.分析验证码的地址，以及要将登入请求发往的地址（可以先输入错的密码登入一次，抓包获取发送地址） 3.将返回的验证码存入文件，读取验证码，手动输入； 4.整合所有数阅读全文

posted @ 2018-07-16 21:31 ystraw 阅读(529) 评论(0) 推荐(0)

28-Truck History（poj1789最小生成树）

摘要： http://poj.org/problem?id=1789 Truck History Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 32474 Accepted: 12626 Description Advanced Car 阅读全文

posted @ 2018-07-16 16:36 ystraw 阅读(151) 评论(0) 推荐(0)

27-拓扑排序-poj1094

摘要： http://poj.org/problem?id=1094 Sorting It All Out Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 38379 Accepted: 13534 Description An asce 阅读全文

posted @ 2018-07-16 10:22 ystraw 阅读(135) 评论(0) 推荐(0)

2018年7月15日

13-爬取百度贴吧中的图片（python+xpath）

摘要：通过xpath分析页面，爬取页面中的图片: 阅读全文

posted @ 2018-07-15 13:34 ystraw 阅读(243) 评论(0) 推荐(0)

12-在eclipse上安装lxml

摘要： 1.可用easy_install安装方式，也可以用pip的方式： pip install lxml 2.安装完毕：写代码导包时提示错误，这是需要配置一下eclipse，是因为它没有更新导入的包，所以需要将原来的删了，重新导入：阅读全文

posted @ 2018-07-15 10:47 ystraw 阅读(149) 评论(0) 推荐(0)

11-内涵段子-爬虫(python+正则)

摘要：爬取内涵段子，使用正则进行简单处理：阅读全文

posted @ 2018-07-15 08:56 ystraw 阅读(260) 评论(0) 推荐(0)

2018年7月14日

10-python中的requests应用

摘要：使用request方便：阅读全文

posted @ 2018-07-14 19:34 ystraw 阅读(186) 评论(0) 推荐(0)

9-python 的ProxyHandler处理器（代理设置）

摘要： ProxyHandler处理器（代理设置）使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁阅读全文

posted @ 2018-07-14 13:09 ystraw 阅读(633) 评论(0) 推荐(0)