• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
可西可彻
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

随笔分类 -  python爬虫

 
【python爬虫】线程&进程
摘要:关注:程序运行速度 >主要是由cpu(大脑)来决定。 想要提高程序的运行速度 >提高cpu利用率。 提高cpu的利用率由两种途径: 1、让cpu不休息。cpu每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。 2、cpu都是分核。每个核就是一个小脑袋。可以理解一心多用。让每个核都作 阅读全文
posted @ 2019-12-24 08:54 可西可彻 阅读(226) 评论(0) 推荐(0)
【python爬虫】selenium的三种等待
摘要:一、 强制等待 第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。 1 from selenium import webdriver 2 from time import sleep 3 driver 阅读全文
posted @ 2019-12-24 08:36 可西可彻 阅读(822) 评论(0) 推荐(0)
【python爬虫】selenium常用方法总结
摘要:1、获取当前页面的Url 方法:current_url 实例:driver.current_url 2、获取元素坐标 方法:location 解释:首先查找到你要获取元素的,然后调用location方法 实例:driver.find_element_by_xpath("xpath").locatio 阅读全文
posted @ 2019-12-22 20:40 可西可彻 阅读(270) 评论(0) 推荐(1)
【python爬虫】动态html
摘要:一、反爬策略 1、请求头 ——user-agent ——referer ——cookie 2、访问频率限制 ——代理池 ——再用户访问高峰期进行爬取,冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3) 3、ajax异步请求,用接口获取数据 4、能一次性获取的数据,绝不发送第 阅读全文
posted @ 2019-12-22 19:04 可西可彻 阅读(592) 评论(0) 推荐(1)
【python爬虫】Xpath
摘要:一、xml是什么 1、定义:可扩展标记性语言 2、特点:xml的是具有自描述结构的半结构化数据。 3、作用:xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。 二、xml和html的区别 1、语法要求不同:xml的语法要求更严格。 (1)html不区分大小写的,xml区分。 (2)html有 阅读全文
posted @ 2019-12-20 20:38 可西可彻 阅读(728) 评论(0) 推荐(0)
【python爬虫】正则表达式
摘要:一、数据的分类 1、结构化数据 特点:数据以行为单位,每一个数据表示一个实体。每一行数据的属性都是一样的。 举例:关系型数据库中的表就是结构化数据。 处理方法:sql 2、半结构化数据 特点:结构化数据的另一种形式。他并不符合关系型数据的特点,不能用关系型模型来描述。但是这种数据包含相关标记,有用 阅读全文
posted @ 2019-12-19 22:59 可西可彻 阅读(258) 评论(0) 推荐(1)
【python爬虫】cookie & session
摘要:一、什么是cookie? cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。 二、什么是session? 本来的含义是指有始有终的一些列动作,而在web中,session对象用来在服务器存储特定用户会话所需要的属性及信息。 三、cookie和session产生的原因: co 阅读全文
posted @ 2019-12-19 22:26 可西可彻 阅读(601) 评论(0) 推荐(1)
【python爬虫】requests模块
摘要:文档:从 pythoneer 到 pythonista 的100个模块 链接:http://note.youdao.com/noteshare?id=2b95bb3651c21af80ca1936f8ecb1e0f&sub=635CA99241664308947C4F3BC1B5DDBF 文档:递归 阅读全文
posted @ 2019-12-18 21:54 可西可彻 阅读(824) 评论(0) 推荐(1)
【python爬虫】初识爬虫
摘要:一、爬虫的定义 爬虫定义:程序或者脚本——自动的爬取万维网的数据的程序或者脚本。 二、爬虫可以解决的问题 1、解决冷启动问题。 2、搜索引擎的根基——通用爬虫。 3、帮助机器学习建立知识图谱。 4、制作各种比价软件。 三、爬虫工程师的进阶之路 1、初级爬虫工程师 (1)web 前端的知识: HTML 阅读全文
posted @ 2019-12-18 21:05 可西可彻 阅读(362) 评论(0) 推荐(1)
 

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3