随笔分类 - 爬虫方向
摘要:新建项目 items.py文件 jianshu_spider.py文件 同步的MySQL插入数据 异步的MySQL插入数据
阅读全文
摘要:在阿里云的云市场上买了一个图形验证码识别的接口,用这个接口写了python图形验证码识别的代码: https://market.aliyun.com/products/57124001/cmapi031324.html?spm=5176.730005.productlist.d_cmapi03132
阅读全文
摘要:在上面的三篇中我们html的解析都是用了正则表达式进行匹配。下面我们主要说一下一个使用起来很简单的模块xpath进行匹配解析html文本。 Chrome上有一款插件:XPath Helper,直接在浏览器就可以验证xpath表达式的书写是否正确。 lxml 使用流程 xpath匹配规则 抓取Demo
阅读全文
摘要:requests模块其实就是对urllib.request模块的进步一不优化,提供了很多可选的参数,同时简化了操作。下面我还是贴上具体操作的代码。 requests GET请求 GET请求html文件 GET请求二进制文件 requests POST 请求
阅读全文
摘要:将数据存储到CSV文件 将数据存储到mysql中 将数据存储到pymongo中
阅读全文
摘要:我将urllib.request 的GET请求和POST请求两种方法做了总结 GET请求 html = res.read().decode("utf-8") # 获取字符串 # res.read() # 数据类型bytes # res.getcode() : 返回HTTP的响应码 POST请求 总结
阅读全文