随笔分类 - 爬虫
1 / 掉基础
2 / urllib和urllib3
3 / requests库
4 / scrapy框架学习
摘要:一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 二、安装 三、使用 三、语法 XPath 使用路径表达
阅读全文
摘要:requests库的使用 pip快速安装 请求方法 每一个请求方法都有一个对应的API,比如GET请求就可以使用get()方法: 而POST请求就可以使用post()方法,并且将需要提交的数据传递给data参数即可: 传递URL参数 传递URL参数也不用再像urllib中那样需要去拼接URL,而是简
阅读全文
摘要:urllib库 urllib 是一个用来处理网络请求的python标准库,它包含4个模块。 urllib.request 请求模块,用于发起网络请求 urllib.parse 解析模块,用于解析URL urllib.error 异常处理模块,用于处理request引起的异常 urllib.robot
阅读全文
摘要:目录 01 爬虫的概念 02 爬虫的流程 03 HTTP协议 04 WEBSOCKET 爬虫的概念 爬虫的概念 爬虫更官方点的名字叫数据采集,英文一般称作spider,就是通过编程来全自动的从互联网上采集数据。 比如说搜索引擎就是一种爬虫。 爬虫需要做的就是模拟正常的网络请求,比如你在网站上点击一个
阅读全文

浙公网安备 33010602011771号