爬虫 - 随笔分类 - vhao11

BeautifuSoup入门

摘要：Beautiful Soup库是一个解析HTML文件的优秀的库。解析，遍历，维护“标签树”的功能库。安装： pip安装： pip install beautifulsoup4 conda安装 conda install beautifulsoup4 导入： from bs4 import Bea 阅读全文

posted @ 2020-04-21 20:29 vhao11 阅读(206) 评论(0) 推荐(0)

Requests库入门实例

摘要：了解了Requests库的基本用法，附上一篇理论链接https://www.cnblogs.com/hao11/p/12593419.html 我们就可以做一些小实例了 1.亚马逊商品的爬取首先用get方法对亚马逊网站发送请求，然后看返回的状态码，此处503不是200，表明没有成功，然后要看te 阅读全文

posted @ 2020-04-01 00:15 vhao11 阅读(172) 评论(0) 推荐(0)

Rebots协议是什么？

摘要：数据的时代，网络爬虫有一定的法律风险，但是只要遵守协议知道抓爬哪些数据是不合法的，我们就能避免。每个网站一般都有Rebots协议,没有的就都可以爬了。 Robots Exclusion Standard,网络爬虫排除标准协议作用：告知网络爬虫哪些页面可以抓爬，哪些不可以形式：在网站跟目录下阅读全文

posted @ 2020-03-31 22:51 vhao11 阅读(452) 评论(0) 推荐(0)

Requests库入门

摘要：Requests库得7个主要方法： requests.request() 构造一个请求，支撑以下各方法得基础方法 requests.get() 获取html网页得主要方法，对应于HTTP得GET requests.head() 获取http网页信息头的方法，对应于HTTP的HEAD requests 阅读全文

posted @ 2020-03-31 22:38 vhao11 阅读(187) 评论(0) 推荐(0)

多线程自动翻页爬虫

摘要：昨天晚上爬完安心的躺在床上，一想不对劲，我爬的只是小图，点进去之后会有高清图，怎么能放过？好今天换个口味制服美女吧 let's do it 神清气爽由于图片比较多，然后一个图集爬完，切另一个会有些开销。就用一下多线程，对主站上的30位佳丽，并发爬区，可大大加快速度。引入多线程的库。（里面也有阅读全文

posted @ 2019-10-20 21:12 vhao11 阅读(746) 评论(0) 推荐(0)

爬虫超级简单入门

摘要：前两天看到某个程序猿写了个爬虫，然后公司200多人被端，作为在入门python 的小白，产生了兴趣，于是乎学习了下，写了一个小爬虫，做一些入门的抓爬，爬点美女图片吧！ let's do it 看一眼美女，写代码的兴致就上来了爬虫是通过找到要爬的图片的url 然后进行下载，这个url怎么找阅读全文

posted @ 2019-10-20 01:17 vhao11 阅读(690) 评论(0) 推荐(1)

vhao11

随笔分类 - 爬虫

公告