摘要: 实现爬虫的基础套路 第一步、准备url (1).准备start_url 特点:url地址规律不明显,总数不确定。 通过代码提取下一页url的技巧:xpath;寻找url地址,部分参数在当前的响应中(比如:当前页面数和总页码数在当前的响应中) (2).准备url_list 特点:页面总数明确,url地 阅读全文
posted @ 2019-08-12 15:11 root01_barry 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫(又称网络蜘蛛、网络机器人)就是模拟客户端(浏览器)发送网络请求(伪造请求),然后接收请求响应。一种按照一定的规则,自动地抓取互联网信息的程序。 所谓"模拟"就是去照着做,说白了,就是让爬虫得到跟浏览器一样的响应。而且,只要浏览器能够做的事情,原则上,爬虫都能做。 补充一点:比如你爬了某鱼平 阅读全文
posted @ 2019-08-11 20:34 root01_barry 阅读(131) 评论(0) 推荐(0) 编辑
摘要: requests_html内建提供了一个比较好用的render()方法, 但实现这个方法需要依赖Chromium,直接写好代码然后运行,如果没有科*学上网,在大陆几乎是不可能下载成功的。 科*学上网是最好的解决办法,本人比较笨不会设置代理,也找不到服务器,于是采用了手动下载的方式。 首先,浏览器需要 阅读全文
posted @ 2019-08-11 15:57 root01_barry 阅读(1123) 评论(0) 推荐(0) 编辑
摘要: 查看Python3当前有哪些内建函数的最好方式就是去看官方文档: https://docs.python.org/3/library/functions.html 学习笔记也是跟着官方文档的排序,一个个看下来。纯属个人的学习笔记和个人理解,错误之处恳请大佬们不吝指正! abs(x) (一).官方文档 阅读全文
posted @ 2019-04-17 15:56 root01_barry 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 建网站雏形的方式有很多,而用别人已成熟的建站程序是最快的,本篇博文是我使用织梦程序(DedeCMS)进行建站的个人笔记。 特别注意: 一、PHP版本选择 织梦程序是用PHP开发的,PHP7.1兼容5.6基本上没有问题。但再低的可能会有问题(比如PHP7去跑5.4就会出问题),主要是新版本的PHP会弃 阅读全文
posted @ 2018-12-11 17:02 root01_barry 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 一、传输模型 (一).基本模型 (二).层次划分 七层模型与四层模型 作为Python开发,都是在应用层的HTTP协议之上进行开发的。HTTP协议是基于TCP之上的,也就是Python开发需要关心的是传输层。 二、TCP连接 (一).建立连接(三次握手) 第一次,只是客户端告诉服务端。 第二次,客户 阅读全文
posted @ 2018-11-26 20:15 root01_barry 阅读(726) 评论(0) 推荐(0) 编辑
摘要: 内容稍后补充,先用标题占位。 阅读全文
posted @ 2018-09-23 19:47 root01_barry 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 一、同步和异步的区别 超市排队买东西的情况,排在你前面的人没有结算完成时,你就得等着,无法付账。 在计算机中也有类似的情形,一个程序在执行之前,需要等待其他的程序执行完成。 (一).同步 按来的顺序,一个一个处理 直观感受 :就是需要等候,效率低下 (一).异步 不考虑顺序,来了就处理 直观感受:不 阅读全文
posted @ 2018-09-09 17:03 root01_barry 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 一、长轮询 在扫码登录的页面,服务器是如何知道用户有没有在手机上扫码登录? 通过长轮询的方式,每隔几秒向服务器发送一个请求,服务器判断这个请求中有没有用户扫码。 缺点 1.开销大 2.浪费资源 3.消耗流量 二、websocket概念 长轮询消耗太多资源,其中主要原因是客户端和服务端并没有一直连接在 阅读全文
posted @ 2018-09-09 16:58 root01_barry 阅读(2034) 评论(0) 推荐(0) 编辑
摘要: 一、cookie (一).cookie运作机制 (二).设置cookie的常用方法 self.set_cookie('cookie_test','this_is_test') 默认过期时间是浏览器关闭会话时 self.set_cookie('cookie_test1','this_is_test', 阅读全文
posted @ 2018-09-09 16:57 root01_barry 阅读(338) 评论(0) 推荐(0) 编辑