摘要:
常见字符编码特征 1.以%开头的一般是做了URL编码的,用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理,html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义,也用html.unescape()做反转义。 阅读全文
posted @ 2020-10-06 22:52
短戈行
阅读(599)
评论(0)
推荐(0)
摘要:
BeautifulSoup 剔除 HTML script 脚本,删除指定 class标签 剔除 script 方式一: [s.extract() for s in soup("script")] 方式二: def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return: 阅读全文
posted @ 2020-10-06 22:51
短戈行
阅读(440)
评论(0)
推荐(0)
摘要:
1. 什么是爬虫和反爬虫? 爬虫:使用任何技术手段,批量获取网站信息的一种方式。 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。 2. 常见的反爬虫机制 通过UA 识别爬虫 有些爬虫的UA是特殊的,与正常浏览器的不一样,可通过识别特征UA,直接封掉爬虫请求 设置IP访问频率,如果 阅读全文
posted @ 2020-10-06 22:39
短戈行
阅读(337)
评论(0)
推荐(0)
摘要:
you-get You-Get是一个小型的命令行实用程序,用于从Web下载媒体内容(视频,音频,图像),以防没有其他方便的方法 官网: https://github.com/soimort/you-get/ 以下依赖关系是必需的,必须单独安装,除非您在Windows上使用预构建的软件包或巧克力软件包 阅读全文
posted @ 2020-10-06 22:37
短戈行
阅读(329)
评论(0)
推荐(0)
摘要:
介绍 Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能 阅读全文
posted @ 2020-10-06 22:36
短戈行
阅读(146)
评论(0)
推荐(0)
摘要:
Pyppeteer 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动 最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境 阅读全文
posted @ 2020-10-06 22:35
短戈行
阅读(174)
评论(0)
推荐(0)
摘要:
全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验,魔 阅读全文
posted @ 2020-10-06 22:33
短戈行
阅读(195)
评论(0)
推荐(0)
摘要:
1、什么是XPath XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath是什么? 全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文
posted @ 2020-10-06 22:31
短戈行
阅读(99)
评论(0)
推荐(0)
摘要:
1、selenium是什么呢? selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。 它可以做什么呢?它可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。 selenium允许让人去 阅读全文
posted @ 2020-10-06 22:19
短戈行
阅读(105)
评论(0)
推荐(0)
摘要:
Cookie简介 HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。 对于服务器来说,并不关心,也并不知道是哪个用户的请求。 对于一般浏览性的网页来说,没有任何问题。 但是,现在很多的网站,是需要用户登录的。以淘宝为例:比如说某个用户想购买一个产品,当点击 “ 阅读全文
posted @ 2020-10-06 21:37
短戈行
阅读(88)
评论(0)
推荐(0)
摘要:
Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简 阅读全文
posted @ 2020-10-06 21:18
短戈行
阅读(167)
评论(0)
推荐(0)
摘要:
Requests 基本使用 python发送请求时,可以用requests模块,这个模块不是内置模块 需要安装 pip install requests Requests库的七个主要方法: 方法 描述 requests.request() 构造一个请求,支撑一下各方法的基础方法 requests.g 阅读全文
posted @ 2020-10-06 01:17
短戈行
阅读(137)
评论(0)
推荐(0)