摘要: 程序运行速度 >主要是由cpu来决定。 >要想提高程序运行速度 >提高cpu的利用率 >多线程就是通过提高cpu的利用率来提高程序运行速度的。 提高cup的利用: 1.不能休息 >多线程。用多个线程让cup不断的在各个线程之间切换(这个cpu就不休息)。 多线程的特点:多个线程共享该进程的所有资源, 阅读全文
posted @ 2019-12-06 09:00 佑神 阅读(220) 评论(0) 推荐(0)
摘要: 一、强制等待: time.sleep(3) >强制等待3秒 二、隐式等待: driver.implicitly_wait(20) 含义:设置的这个20秒表示最大等待时长,它等待到什么情况结束呢? >它就相当于我们在浏览器中,加载一个页面,看到页面不在转圈圈,全部加载完成之后,才算等待结束。 全部加载 阅读全文
posted @ 2019-12-04 21:36 佑神 阅读(940) 评论(0) 推荐(0)
摘要: 一、反扒策略 1、通过user-agent来判断是不是爬虫。 解决的办法:伪装user-agent客户端标识 2、通过访问频率来判断。 解决的办法:设置请求频率。 time.sleep(random.randint(0,5)) 3、封ip 设置代理ip。 requests.get( url, hea 阅读全文
posted @ 2019-12-03 22:56 佑神 阅读(152) 评论(0) 推荐(0)
摘要: 什么是xml: 定义:可扩展标记语言 特点:xml具有自描述结构的半结构化数据。 作用:xml主要设计总之是用来传输数据,还可以做为一些应用的配置文件 xml和html的区别: 语法要求不同:xml的语法要求更严格 html不区分大小写,xml区分 html的标签在某些条件下不严格,如果上下文清楚地 阅读全文
posted @ 2019-12-02 20:46 佑神 阅读(162) 评论(0) 推荐(0)
摘要: 技术的诞生: http是个无状态的协议:两次请求之间相互独立,后一条请求无法使用前一条的一些状态,为了解决这种问题,发明了两种存储状态的技术,就是cookie和session。 cookie是用来在客户端保存状态的技术,session是在服务器保存状态的技术。 做爬虫的时候,如果要实现登录,客户端是 阅读全文
posted @ 2019-12-01 21:42 佑神 阅读(244) 评论(0) 推荐(0)
摘要: 分类 结构化数据 定义:数据以行为单位,每一个数据表示一个实体信息,每一行数据的属性都是一样的 例如:结构化数据为关系型数据存储数据 半结构化数据 定义:结构化数据的另一种形式,但是并不符合关系型数据的特点,不能用关系模型来描述,但这种数据包含相关标记,例如:xml,html,json。 非结构化数 阅读全文
posted @ 2019-12-01 21:41 佑神 阅读(284) 评论(0) 推荐(0)
摘要: 1.爬虫的定义:脚本,程序 >自动抓取万维网上信息的程序。 2、爬虫可以解决的问题: (1)解决冷启动的问题。(初创网站没有自己的信息直接爬取其他平台获取信息) (2)搜索引擎的根基。做搜索引擎,必须使用爬虫。 (3)帮助机器学习建立知识图谱。 机器学习最终的是训练集。训练集可以靠爬虫爬去。 (4) 阅读全文
posted @ 2019-11-29 22:44 佑神 阅读(85) 评论(0) 推荐(0)
摘要: requests模块 1、get请求: (1)使用步骤: #1、导包: import requests #2、发送请求,获取响应 response = requests.get(url) #3、获取响应内容 response.text (2)get请求详细参数 requests.get( url=请 阅读全文
posted @ 2019-11-29 22:39 佑神 阅读(188) 评论(0) 推荐(0)
摘要: 一、anaconda的介绍安装。 Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,极其适合爬虫工程师。 (1)安装可执行程序 Anaconda下载地址: http://continuum.io/downloads(2)配置环境变量 阅读全文
posted @ 2019-11-29 22:19 佑神 阅读(676) 评论(0) 推荐(0)
摘要: http是一种约束发布和接收html页面的协议。 http端口号:80 https端口号:443 http协议属性:(1)应用层协议 (2)无连接:http1.0以前每次发送http均是单独连接,http1.1以后发送http会设置一个请求头Connection保持与服务器的长连接 (3)无状态:h 阅读全文
posted @ 2019-11-28 21:51 佑神 阅读(220) 评论(0) 推荐(0)