上一页 1 2 3 4 5 6 7 ··· 10 下一页
摘要: 一,OCR OCR,即Optical Character Recognition,光学字符识别,通过扫描字符,分析形状,然后将其翻译成电子文本的过程。tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层封装。安装tesserocr之前需要先按照tesseract。 阅读全文
posted @ 2019-06-12 15:07 ZivLi 阅读(1702) 评论(0) 推荐(0) 编辑
摘要: 一,抓取分析 本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称。抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Search?keyword=iPhone,显示的就是第一页的搜索结果。 页面下方有一个分页导航,包括前7 阅读全文
posted @ 2019-06-05 21:55 ZivLi 阅读(1075) 评论(0) 推荐(0) 编辑
摘要: Selenium使用 Selenium是一个自动化测试工具,可以驱动浏览器器执行特定的动作,如点击,下拉等。同时还可以获取浏览器当前呈现页面的源代码,可见即可爬。 1.准备 我们使用谷歌Chrome浏览器为例子,在开始之前需要安装Chrome浏览器并配置ChromeDriver。而且还需要安装Pyt 阅读全文
posted @ 2019-06-04 22:03 ZivLi 阅读(8158) 评论(0) 推荐(0) 编辑
摘要: 以今日头条为例分析Ajax请求抓取网页数据。本次抓取今日头条的街拍关键字对应的图片,并保存到本地 一,分析 打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面。这样可以出初步判断这些内容是由 Ajax加载,然后使用JavaScript渲染出来的。 切换到XH 阅读全文
posted @ 2019-05-30 21:51 ZivLi 阅读(1553) 评论(1) 推荐(0) 编辑
摘要: 一、什么是Ajax 有时候我们使用浏览器查看页面正常显示的数据与使用requests抓取页面得到的数据不一致,这是因为requests获取的是原始的HTML文档,而浏览器中的页面是经过JavaScript处理数据后的结果。这些数据可能是通过Ajax加载的,可能包含HTML文档中,可能经过特定算法计算 阅读全文
posted @ 2019-05-29 16:55 ZivLi 阅读(13094) 评论(0) 推荐(0) 编辑
摘要: Requests高级用法 1.文件上传 我们知道requests可以模拟提交一些数据。假如有的网站需要上传文件,我们也可以用requests来实现。 上一篇博客中,我们保存了一个favicon.ico文件,这次用它来模拟文件上传的过程。favicon.ico文件需要和当前脚本在同一目录下,运行结果如 阅读全文
posted @ 2019-05-27 22:13 ZivLi 阅读(1740) 评论(0) 推荐(0) 编辑
摘要: 一,安装 pip install requests 二,基本用法 1.简单示例 运行结果: 通过运行结果可发现,它返回的类型是requests.models.Response,响应体字符串类型是str,Cookie的类型是RequestsCookieJar。 2.GET请求 这里使用httpbin测 阅读全文
posted @ 2019-05-24 18:12 ZivLi 阅读(1054) 评论(0) 推荐(0) 编辑
摘要: 一,简介 CSV,全称Comma—Separated Values,可以称为逗号分隔或者字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以有任意的数目记录组成,记录间已某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。相比EXcel更加 阅读全文
posted @ 2019-05-22 22:45 ZivLi 阅读(2263) 评论(0) 推荐(1) 编辑
摘要: XPath 一,简介 全称XMl Path Language,是一种在XML中寻找信息的语言,同样适用于HTML文档搜索。XPath功能十分强大,提供了非常简洁明了的路径选择表达式。拥有超过100个内建函数,用于字符串,数字,时间以及节点的匹配,序列的处理等。几乎所有想要定位的节点都可以用XPath 阅读全文
posted @ 2019-05-18 21:50 ZivLi 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 使用Beautiful Soup 1.简介 简单来说Beautiful Soup是Python的一个HTML或XML解析库,可以用来方便的从网页中提取数据。Beautiful Soup提供了一些简单的Python式的函数来打处理导航,搜索,修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要 阅读全文
posted @ 2019-05-10 17:58 ZivLi 阅读(351) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 10 下一页