python网络爬虫 - 随笔分类 - 下山打老虎i

python爬虫之xpath的基本使用

摘要：一、简介 Xpath是一门在XML文档中查找信息的语言。Xpath可用来在XML文档中对元素和属性进行遍历。Xpath是W3C XSLT标准的主要元素，并且XQuery和XPointer都构建于XPath表达之上。二、安装三、XPath语法节点关系（1）父（Parent）每个元素以及属性都阅读全文

posted @ 2019-04-28 23:23 下山打老虎i 阅读(4739) 评论(0) 推荐(0)

Beautifulsoup模块

摘要：阅读目录一介绍二基本使用三遍历文档树四搜索文档树五修改文档树六总结一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小阅读全文

posted @ 2019-04-28 22:37 下山打老虎i 阅读(260) 评论(0) 推荐(0)

selenium模块

摘要：一介绍二安装三基本使用四选择器五等待元素被夹在元素交互操作其他项目联一介绍二安装 1、有界面浏览器 2、无界面浏览器 PhantomJS不再更新 #安装：selenium+phantomjs pip3 install selenium 下载phantomjs，解压后把阅读全文

posted @ 2019-04-24 11:47 下山打老虎i 阅读(188) 评论(0) 推荐(0)

request模块

摘要：一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一介绍二基于GET请求 1、基本请求 2、带参数的GET请求->params 3、带参数的GET请求->headers 4、带参数的GET请求->cookies 三基于POST请求 1、介绍 2、发送阅读全文

posted @ 2019-04-24 10:42 下山打老虎i 阅读(718) 评论(0) 推荐(0)

urllib模块

摘要：urllib模块 urllib模块是python中自带的一个基于爬虫的模块。可以使用代码模拟浏览器发起请求反爬机制：网站检查请求的UA，如果发现UA是爬虫程序，则拒绝提供网站数据。 User-Agent（UA）：请求载体的身份标识。反反爬机制：伪装爬虫程序请求的UA urlib模块发起的post 阅读全文

posted @ 2019-04-22 17:09 下山打老虎i 阅读(195) 评论(0) 推荐(0)

爬虫基本原理

摘要：阅读目录一爬虫是什么二爬虫的基本流程三请求与响应四 Request 五 Response 六总结一爬虫是什么二爬虫的基本流程三请求与响应四 Request 五 Response 六总结 import requests import re import time imp 阅读全文

posted @ 2019-04-22 15:21 下山打老虎i 阅读(304) 评论(0) 推荐(0)

追梦的肥猪

随笔分类 - python网络爬虫

公告