随笔分类 -  爬虫学习

摘要:XPath语法和lxml模块 什么是XPath? xpath 是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性尽心遍历。 XPath开发工具: 1. Chrome插件XPath Helper 360浏览器安装步骤:点击扩展--> 点击扩展管理 > 点击添加更多 阅读全文
posted @ 2019-05-06 09:03 QQmini 阅读(240) 评论(0) 推荐(0)
摘要:requests库: 安装和文档地址: pip3 install requests 中文文档:https://2.python-requests.org//zh_CN/latest/index.html GitHub地址:https://pypi.org/project/requests/ 基本使用 阅读全文
posted @ 2019-05-04 18:01 QQmini 阅读(291) 评论(0) 推荐(0)
摘要:什么是cooker: Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),浏览器会将Cookie的key/value保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookie给服务器(前提是浏览器设置为启用cookie)。Cookie名称和值可以由服务器端开发自己定义 阅读全文
posted @ 2019-05-04 14:12 QQmini 阅读(472) 评论(0) 推荐(0)
摘要:什么是网络爬虫: 通俗理解: 爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。 通用爬虫和聚焦爬虫: 1.通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分,主要试讲互联网上的网页下载到本地,形成一个互联网内容的备份。 阅读全文
posted @ 2019-04-30 16:28 QQmini 阅读(188) 评论(0) 推荐(0)