随笔分类 - 爬虫
摘要:爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu
阅读全文
摘要:现在许多网站的登陆都会比较复杂,有时直接使用Cookie模拟登陆不失为一个简单粗暴的方法。 使用Cookie来模拟登陆,就是用户在浏览器先登录网站,然后将Cookie信息拷贝出来,用来设置请求的Cookie。 以模拟登陆知乎为例: from selenium import webdriver fro
阅读全文
摘要:通过使用用百度AI的OCR来自动识别图片中的文字,效果很不错。 在这里跟大家简单分享一下如何使用,在处理图片前,最好先经过灰度化、二值化、降噪等预处理,直接上代码: # coding:utf-8 import requests import base64 # import jsonpath from
阅读全文
摘要:爬取糗事百科的段子,观察不同页面url的变化,以第2页为例,https://www.qiushibaike.com/text/page/2/,第3页https://www.qiushibaike.com/text/page/3/,找到规律,只需要将后面的数字改成对应页码即可。 说明: 使用reque
阅读全文
摘要:ubuntu中通过selenium+chrome打开浏览器网页截图时,中文部分如果显示为方框,这说明系统中缺少支持的中文字体。 解决方法: 1.下载任意一种中文字体,或者直接从windows系统字体文件夹(C:\Windows\Fonts)中选择一种,比如宋体simsun.ttc 2.将该字体文件放
阅读全文
摘要:Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,可以按指定的命令自动操作,但是他需要与第三方浏览器结合在一起才能使用。如果我们把 Selenium和第三方浏览器(比如Chrome)结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScrip、Co
阅读全文
摘要:selenium是一个Web的自动化测试工具,它可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。但是它自身不带浏览器,不支持浏览器的功能,因此它需要与第三方浏览器结合在一起才能使用。当selenium升级到3.0之后,对不同的浏览器驱动进行了规
阅读全文
摘要:Python自带json模块,它有loads、dumps、load和dump这4个功能,用于Json格式字符串和Python数据类型间进行转换。 一、json.loads() 把Json格式字符串解码转换成Python对象 Json中的对象和数组类型字符串会转换成Python中的字典和列表 示例 I
阅读全文
摘要:Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 一、安装 sudo pip3 install beautifulsoup4 二、使用 导入模块 from bs4 import BeautifulSoup 创建BeautifulSo
阅读全文
摘要:使用lxml之前,我们首先要会使用XPath。利用XPath,就可以将html文档当做xml文档去进行处理解析了。 一、XPath的简单使用: XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 1.开发工具的安
阅读全文
摘要:可以通过导入html包,利用html.escape()函数对字符串进行html转义,利用html.unescape()函数对字符串进行html反转义。 In [1]: import html In [2]: html.escape(''' < > ' " & ''') #html转义 Out[2]:
阅读全文
摘要:一、什么是正则表达式? 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 二、正则表达式的匹配规则
阅读全文
摘要:urllib3是一个功能强大,对SAP健全的 HTTP客户端,许多Python生态系统已经使用了urllib3。 一、安装 sudo pips install urllib3 二、创建PoolManager对象 通过urllib3访问网页,首先需要构造一个PoolManager实例对象用于处理与线程
阅读全文
摘要:相比于urllib模块,requests模块使用起来更简洁方便。requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。requests的底层实现其实就是urllib3。 一、安装 sud
阅读全文
摘要:urllib是Python中请求url连接的官方标准库,在Python3中将Python2中的urllib和urllib2整合成了urllib。urllib中一共有四个模块,分别如下: request:主要负责构造和发起网络请求,定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数
阅读全文

浙公网安备 33010602011771号