随笔分类 -  python 爬虫

摘要:python内置的爬虫模块 urllib requests 定义 requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 如何使用 1. 指定url UA伪装 请求参数处理 2. 发起请求 3. 获取响应数据 4. 持久化存储 安装 实战 需求: 爬取搜 阅读全文
posted @ 2019-11-11 16:09 万物皆虚,万事皆允 阅读(359) 评论(0) 推荐(0)
摘要:1. 什么是爬虫 概念: 模拟浏览器操作去互联网抓取想要的信息的程序。 1.1 爬虫的价值 抓取数据 将数据产品化、商业化 1.2 合法性 爬虫本身在法律上是不被禁止的 善意爬虫 恶意爬虫 爬虫带来的风险 干扰了被访问网站的正常运行 爬取受到法律保护的特定类型的数据或信息 避免违规 严格遵守网站的r 阅读全文
posted @ 2019-11-05 11:05 万物皆虚,万事皆允 阅读(178) 评论(0) 推荐(0)