爬虫 - 随笔分类(第2页) - eliwang

爬虫案例-使用selenium模拟点击动态页面

摘要：爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息，以jsonlines的形式写入到本地json文件中，代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu 阅读全文

posted @ 2021-04-21 05:08 eliwang 阅读(373) 评论(0) 推荐(0)

使用selenium时，如何通过cookie来模拟登陆？

摘要：现在许多网站的登陆都会比较复杂，有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。使用Cookie来模拟登陆，就是用户在浏览器先登录网站，然后将Cookie信息拷贝出来，用来设置请求的Cookie。以模拟登陆知乎为例： from selenium import webdriver fro 阅读全文

posted @ 2021-04-20 01:28 eliwang 阅读(530) 评论(0) 推荐(0)

爬虫--使用百度OCR来识别图片验证码

摘要：通过使用用百度AI的OCR来自动识别图片中的文字，效果很不错。在这里跟大家简单分享一下如何使用，在处理图片前，最好先经过灰度化、二值化、降噪等预处理，直接上代码： # coding:utf-8 import requests import base64 # import jsonpath from 阅读全文

posted @ 2021-04-20 01:02 eliwang 阅读(589) 评论(0) 推荐(0)

多线程爬虫案例-(糗事百科)

摘要：爬取糗事百科的段子，观察不同页面url的变化，以第2页为例，https://www.qiushibaike.com/text/page/2/，第3页https://www.qiushibaike.com/text/page/3/，找到规律，只需要将后面的数字改成对应页码即可。说明：使用reque 阅读全文

posted @ 2021-04-09 17:59 eliwang 阅读(92) 评论(0) 推荐(0)

ubuntu中selenium+chrome截图时中文显示成方框问题的解决方法

摘要：ubuntu中通过selenium+chrome打开浏览器网页截图时，中文部分如果显示为方框，这说明系统中缺少支持的中文字体。解决方法： 1.下载任意一种中文字体，或者直接从windows系统字体文件夹(C:\Windows\Fonts)中选择一种，比如宋体simsun.ttc 2.将该字体文件放阅读全文

posted @ 2021-02-04 01:53 eliwang 阅读(963) 评论(0) 推荐(0)

爬虫-selenium的使用

摘要：Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，可以按指定的命令自动操作，但是他需要与第三方浏览器结合在一起才能使用。如果我们把 Selenium和第三方浏览器（比如Chrome）结合在一起，就可以运行一个非常强大的网络爬虫了，这个爬虫可以处理 JavaScrip、Co 阅读全文

posted @ 2021-02-04 01:22 eliwang 阅读(1173) 评论(6) 推荐(2)

ubuntu中如何安装selenium+chrome(headless)无界面浏览器？

摘要：selenium是一个Web的自动化测试工具，它可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。但是它自身不带浏览器，不支持浏览器的功能，因此它需要与第三方浏览器结合在一起才能使用。当selenium升级到3.0之后，对不同的浏览器驱动进行了规阅读全文

posted @ 2021-02-01 16:25 eliwang 阅读(3939) 评论(1) 推荐(1)

python中json模块的使用

摘要：Python自带json模块，它有loads、dumps、load和dump这4个功能，用于Json格式字符串和Python数据类型间进行转换。一、json.loads（）把Json格式字符串解码转换成Python对象 Json中的对象和数组类型字符串会转换成Python中的字典和列表示例 I 阅读全文

posted @ 2021-01-25 16:52 eliwang 阅读(341) 评论(0) 推荐(0)

爬虫-使用BeautifulSoup4（bs4）解析html数据

摘要：Beautiful Soup 是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。一、安装 sudo pip3 install beautifulsoup4 二、使用导入模块 from bs4 import BeautifulSoup 创建BeautifulSo 阅读全文

posted @ 2021-01-24 00:38 eliwang 阅读(2991) 评论(0) 推荐(1)

爬虫-使用Xpath以及lxml解析html数据

摘要：使用lxml之前，我们首先要会使用XPath。利用XPath，就可以将html文档当做xml文档去进行处理解析了。一、XPath的简单使用： XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。 1.开发工具的安阅读全文

posted @ 2021-01-20 01:56 eliwang 阅读(1379) 评论(0) 推荐(1)

python如何对字符串进行html转义与反转义？

摘要：可以通过导入html包，利用html.escape()函数对字符串进行html转义，利用html.unescape()函数对字符串进行html反转义。 In [1]: import html In [2]: html.escape(''' < > ' " & ''') #html转义 Out[2]: 阅读全文

posted @ 2021-01-18 01:08 eliwang 阅读(1619) 评论(0) 推荐(0)

python中re模块的使用（正则表达式）

摘要：一、什么是正则表达式？正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。二、正则表达式的匹配规则阅读全文

posted @ 2021-01-17 03:37 eliwang 阅读(1569) 评论(2) 推荐(1)

爬虫-urllib3模块的使用

摘要：urllib3是一个功能强大，对SAP健全的 HTTP客户端，许多Python生态系统已经使用了urllib3。一、安装 sudo pips install urllib3 二、创建PoolManager对象通过urllib3访问网页，首先需要构造一个PoolManager实例对象用于处理与线程阅读全文

posted @ 2021-01-15 20:36 eliwang 阅读(3395) 评论(0) 推荐(0)

爬虫-requests模块的使用

摘要：相比于urllib模块，requests模块使用起来更简洁方便。requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。requests的底层实现其实就是urllib3。一、安装 sud 阅读全文

posted @ 2021-01-14 21:36 eliwang 阅读(299) 评论(0) 推荐(0)

爬虫-urllib模块的使用

摘要：urllib是Python中请求url连接的官方标准库，在Python3中将Python2中的urllib和urllib2整合成了urllib。urllib中一共有四个模块，分别如下： request：主要负责构造和发起网络请求,定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数阅读全文

posted @ 2021-01-14 18:34 eliwang 阅读(482) 评论(0) 推荐(0)

eliwang

学无止境的小渣渣

随笔分类 - 爬虫

公告