随笔分类 -  爬虫方向

摘要:新建项目 items.py文件 jianshu_spider.py文件 同步的MySQL插入数据 异步的MySQL插入数据 阅读全文
posted @ 2017-12-20 18:46 风起了,风停了 阅读(3510) 评论(1) 推荐(0)
摘要:在阿里云的云市场上买了一个图形验证码识别的接口,用这个接口写了python图形验证码识别的代码: https://market.aliyun.com/products/57124001/cmapi031324.html?spm=5176.730005.productlist.d_cmapi03132 阅读全文
posted @ 2017-12-15 09:59 风起了,风停了 阅读(5317) 评论(0) 推荐(0)
摘要:在上面的三篇中我们html的解析都是用了正则表达式进行匹配。下面我们主要说一下一个使用起来很简单的模块xpath进行匹配解析html文本。 Chrome上有一款插件:XPath Helper,直接在浏览器就可以验证xpath表达式的书写是否正确。 lxml 使用流程 xpath匹配规则 抓取Demo 阅读全文
posted @ 2017-11-15 18:18 风起了,风停了 阅读(567) 评论(0) 推荐(0)
摘要:requests模块其实就是对urllib.request模块的进步一不优化,提供了很多可选的参数,同时简化了操作。下面我还是贴上具体操作的代码。 requests GET请求 GET请求html文件 GET请求二进制文件 requests POST 请求 阅读全文
posted @ 2017-10-27 12:01 风起了,风停了 阅读(652) 评论(0) 推荐(0)
摘要:将数据存储到CSV文件 将数据存储到mysql中 将数据存储到pymongo中 阅读全文
posted @ 2017-10-26 11:53 风起了,风停了 阅读(1745) 评论(0) 推荐(0)
摘要:我将urllib.request 的GET请求和POST请求两种方法做了总结 GET请求 html = res.read().decode("utf-8") # 获取字符串 # res.read() # 数据类型bytes # res.getcode() : 返回HTTP的响应码 POST请求 总结 阅读全文
posted @ 2017-10-18 17:51 风起了,风停了 阅读(1486) 评论(0) 推荐(0)