随笔分类 -  python网络爬虫

摘要:一、简介 Xpath是一门在XML文档中查找信息的语言。Xpath可用来在XML文档中对元素和属性进行遍历。Xpath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。 二、安装 三、XPath语法 节点关系 (1)父(Parent) 每个元素以及属性都 阅读全文
posted @ 2019-04-28 23:23 下山打老虎i 阅读(4731) 评论(0) 推荐(0)
摘要:阅读目录 一 介绍 二 基本使用 三 遍历文档树 四 搜索文档树 五 修改文档树 六 总结 一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小 阅读全文
posted @ 2019-04-28 22:37 下山打老虎i 阅读(255) 评论(0) 推荐(0)
摘要:一 介绍 二 安装 三 基本使用 四 选择器 五 等待元素被夹在 元素交互操作 其他 项目联 一 介绍 二 安装 1、有界面浏览器 2、无界面浏览器 PhantomJS不再更新 #安装:selenium+phantomjs pip3 install selenium 下载phantomjs,解压后把 阅读全文
posted @ 2019-04-24 11:47 下山打老虎i 阅读(187) 评论(0) 推荐(0)
摘要:一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 二 基于GET请求 1、基本请求 2、带参数的GET请求->params 3、带参数的GET请求->headers 4、带参数的GET请求->cookies 三 基于POST请求 1、介绍 2、发送 阅读全文
posted @ 2019-04-24 10:42 下山打老虎i 阅读(713) 评论(0) 推荐(0)
摘要:urllib模块 urllib模块是python中自带的一个基于爬虫的模块。可以使用代码模拟浏览器发起请求 反爬机制:网站检查请求的UA,如果发现UA是爬虫程序,则拒绝提供网站数据。 User-Agent(UA):请求载体的身份标识。 反反爬机制:伪装爬虫程序请求的UA urlib模块发起的post 阅读全文
posted @ 2019-04-22 17:09 下山打老虎i 阅读(190) 评论(0) 推荐(0)
摘要:阅读目录 一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request 五 Response 六 总结 一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request 五 Response 六 总结 import requests import re import time imp 阅读全文
posted @ 2019-04-22 15:21 下山打老虎i 阅读(302) 评论(0) 推荐(0)