随笔分类 -  爬虫从入门到人坑

不要放弃,学会像爬虫一样。
摘要:测试: 结果: 阅读全文
posted @ 2019-07-10 11:14 Xiaohu_BigData 阅读(495) 评论(0) 推荐(0)
摘要:requests模块 - urllib模块 - requests模块requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发送请求。如何使用:(requests模块的编码流程) - 指定url - 发起请求 - 获取响应数据 - 持久化存储环境的安装: pip install requests实... 阅读全文
posted @ 2019-07-10 11:09 Xiaohu_BigData 阅读(666) 评论(0) 推荐(0)
摘要:爬虫基础简介 前戏: 1、你是否在夜深人静的时候,想看一些让你更睡不着的图片 2、你是否在考试或者面试前夕,想看一些具有针对性的题目和面试题 3、你是否想在杂乱的网络世界中获取你想要的数据 什么是爬虫: - 通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的价值: - 实际应用 阅读全文
posted @ 2019-07-07 10:58 Xiaohu_BigData 阅读(1457) 评论(0) 推荐(0)
摘要:在做爬虫经常遇到需要用正则校验数据时候,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,给自己留个底,也给朋友们做个参考。 一、校验数字的表达式 1. 数字:^[0-9]*$ 2. n位的数字:^\d{n}$ 3. 至少n位的数字:^\d{n,}$ 阅读全文
posted @ 2019-06-28 13:13 Xiaohu_BigData 阅读(620) 评论(0) 推荐(0)
摘要:验证没有报错,表示已经成功的安装了 阅读全文
posted @ 2019-06-27 15:41 Xiaohu_BigData 阅读(290) 评论(0) 推荐(0)
摘要:一、Urllib库详解 1、什么是Urllib Python内置的HTTP请求库 urllib.request 请求模块(模拟实现传入网址访问) urllib.error 异常处理模块(如果出现错误,进行捕捉这个异常,然后进行重试和其他的操作保证程序不会意外的中止) urllib.parse url 阅读全文
posted @ 2019-06-19 21:40 Xiaohu_BigData 阅读(346) 评论(0) 推荐(0)