2020 年 10月 6 日随笔档案 - 短戈行

2020年10月6日

摘要：常见字符编码特征 1.以%开头的一般是做了URL编码的，用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理，html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义，也用html.unescape()做反转义。阅读全文

posted @ 2020-10-06 22:52 短戈行阅读(615) 评论(0) 推荐(0)

1.13BeautifulSoup 剔除 HTML script 脚本；删除指定 class标签

摘要： BeautifulSoup 剔除 HTML script 脚本，删除指定 class标签剔除 script 方式一： [s.extract() for s in soup("script")] 方式二： def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return: 阅读全文

posted @ 2020-10-06 22:51 短戈行阅读(457) 评论(0) 推荐(0)

1.12那些年你不知道的爬虫面试题

摘要： 1. 什么是爬虫和反爬虫？爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。 2. 常见的反爬虫机制通过UA 识别爬虫有些爬虫的UA是特殊的，与正常浏览器的不一样，可通过识别特征UA，直接封掉爬虫请求设置IP访问频率，如果阅读全文

posted @ 2020-10-06 22:39 短戈行阅读(364) 评论(0) 推荐(0)

1.11you-get 视频爬取

摘要： you-get You-Get是一个小型的命令行实用程序，用于从Web下载媒体内容（视频，音频，图像），以防没有其他方便的方法官网： https://github.com/soimort/you-get/ 以下依赖关系是必需的，必须单独安装，除非您在Windows上使用预构建的软件包或巧克力软件包阅读全文

posted @ 2020-10-06 22:37 短戈行阅读(367) 评论(0) 推荐(0)

1.10pytesseract

摘要：介绍 Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎。与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能阅读全文

posted @ 2020-10-06 22:36 短戈行阅读(152) 评论(0) 推荐(0)

1.9Pyppeteer

摘要： Pyppeteer 引言 Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境阅读全文

posted @ 2020-10-06 22:35 短戈行阅读(194) 评论(0) 推荐(0)

1.8request-html

摘要：全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验，魔阅读全文

posted @ 2020-10-06 22:33 短戈行阅读(201) 评论(0) 推荐(0)

1.7XPath

摘要： 1、什么是XPath XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。 XPath是什么？全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文

posted @ 2020-10-06 22:31 短戈行阅读(107) 评论(0) 推荐(0)

1.6Selenium XPath

摘要： 1、selenium是什么呢？ selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。 selenium允许让人去阅读全文

posted @ 2020-10-06 22:19 短戈行阅读(124) 评论(0) 推荐(0)

1.5cookies

摘要： Cookie简介 HTTP协议是无状态的协议，用户浏览服务器上的内容，只需要发送页面请求，服务器返回内容。对于服务器来说，并不关心，也并不知道是哪个用户的请求。对于一般浏览性的网页来说，没有任何问题。但是，现在很多的网站，是需要用户登录的。以淘宝为例：比如说某个用户想购买一个产品，当点击 “ 阅读全文

posted @ 2020-10-06 21:37 短戈行阅读(96) 评论(0) 推荐(0)

1.4Beautiful Soup

摘要： Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简阅读全文

posted @ 2020-10-06 21:18 短戈行阅读(191) 评论(0) 推荐(0)

1.3Requests

摘要： Requests 基本使用 python发送请求时，可以用requests模块，这个模块不是内置模块需要安装 pip install requests Requests库的七个主要方法：方法描述 requests.request() 构造一个请求，支撑一下各方法的基础方法 requests.g 阅读全文

posted @ 2020-10-06 01:17 短戈行阅读(144) 评论(0) 推荐(0)

青山

Simple is better than complex.

公告