爬虫知识 - 随笔分类 - 北鼻coder

【转】爬虫的一般方法、异步、并发与框架scrapy的效率比较

摘要：该文非原创文字，文字转载至 jclian91 链接：https://www.cnblogs.com/jclian91/p/9799697.html Python爬虫的N种姿势问题的由来前几天，在微信公众号（Python爬虫及算法）上有个人问了笔者一个问题，如何利用爬虫来实现如下的需求，需要爬取的阅读全文

posted @ 2018-10-17 14:33 北鼻coder 阅读(9406) 评论(0) 推荐(1)

【5】爬取京东商城的图书信息以及评价信息

摘要：运行状态：分析：京东的评论信息其实是异步加载模式的，很难通过一个固定的url链接来爬取到所有的评论信息，所以就需要找相应的json文件。找到network里的js 所以可以通过写一个方法来爬取该页面的评论信息爬取到还没进行数据处理的结果信息如下，等待下一步信息处理分析爬取到的json文件信阅读全文

posted @ 2018-10-17 02:13 北鼻coder 阅读(1097) 评论(0) 推荐(0)

【1】python-正则表达式语法规范与案例

摘要：正则表达式的用法与案例分析 2018-08-24 21:26:14 【说明】：该文主要为了随后复习和使用备查，由于做了ｗｏｒｄ文档笔记，所以此处博文没有怎么排版，没放代码，以插入图片为主，一、正则表达式之特殊字符注意：以下的案例中是ｍａｔｃｈ（）匹配，ｍａｔｃｈ是要求从第一个字符开始匹配，所以阅读全文

posted @ 2018-08-24 22:08 北鼻coder 阅读(3956) 评论(0) 推荐(0)

4-urllib库添加代理，添加请求头格式模板

摘要：urllib 库设置代理的方法案例如下：阅读全文

posted @ 2018-08-23 13:51 北鼻coder 阅读(529) 评论(0) 推荐(0)

3-urllib的post请求方式

摘要：在urllib 中，要进行post请求时，需传入相应的data值，这里通过http://www.iqianyue.com/mypost这个网站进行测试。案例代码如下：注意：对于需要传入的data 数据，需要进行urlencode编码。postdata=urllib.parse.urlencode 阅读全文

posted @ 2018-08-23 13:44 北鼻coder 阅读(6009) 评论(0) 推荐(0)

02-urllib库的get请求方式

摘要：对于urllib中的get请求方式，可以直接传入url的连接即可访问页面，但是对于要传入关键字的话，也可以用quote进行编码再传入。案例如下：可以传入关键字key="关键字"，用key1_url=urllib.request.quote(key1)进行编码，最后将字符串连接起来得到all_ur 阅读全文

posted @ 2018-08-23 13:38 北鼻coder 阅读(287) 评论(0) 推荐(0)

01-urllib库添加headers的一般方法

摘要：2018-08-23 13:07:57 对于请求一些网站，我们需要加上请求头才可以完成网页的抓取，不然会得到一些错误，无法返回抓取的网页。下面，介绍两种添加请求头的方法。方法一：借助build_opener和addheaders完成注意：此处的headers要写为一个元组类型才可以。写为字典类型阅读全文

posted @ 2018-08-23 13:23 北鼻coder 阅读(9531) 评论(0) 推荐(0)

北鼻coder

随笔分类 - 爬虫知识

公告