随笔分类 - Python
摘要:开始想着用IronPython库在C#里面直接执行python 方法 发现导包很多时候喜欢报错。到时候我用python 做一个web服务 直接调用接口 开始爬取博客园数据 爬博客园很简单 都是静态数据 思路。 1 爬取随笔分类 或许URL 2.逐个爬取分类。获取列表 url 3.爬取文章详情,下载图
阅读全文
摘要:python爬虫也学了一段时间了。也爬过不少网站,最后我想用12306抢票器这个项目做一个对之前的学习的效果成见也是一个目标(开始学爬虫的时候,看到说,会爬12306,就会爬80%的网站),本人纯自学。可以弯路走了不少,爬的网站也没有什么实质的价值(不是老师的作业,也不是老板的需求,就是自己的练习)
阅读全文
摘要:ip代理池:
1,在各大网站爬去免费代理ip
2,检查ip可用 可用存入数据库1
3,在数据库1中拿出少量代理ip存入数据库2(方便维护)
3,定时检查数据库1和数据库2的代理数量,以及是否可用
4,调用端口
阅读全文
摘要:刚刚写完第一个selenuim+BeautifulSoup实战爬虫 爬淘宝。发现代码写完后不加for 翻页的时候没什么问题 解析 操作 都没问题 也就是说第一页 的内容 完好 运行完好 数据库也有数据 可是需要频繁点击翻页的时候 对于刚刚学习的人 一大串英文 显然看不懂 百度翻译 查 检查代码, 也
阅读全文

浙公网安备 33010602011771号