2019 年 7月随笔档案 - FP233

requests第二弹

摘要：引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/usr/bin/env python # -*- coding:utf-8 -*- import requests 阅读全文

posted @ 2019-07-08 12:14 FP233 阅读(185) 评论(0) 推荐(0)

requests第一弹

摘要：基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候，会阅读全文

posted @ 2019-07-08 12:12 FP233 阅读(442) 评论(0) 推荐(0)

03.爬取get请求的页面数据

摘要：一.urllib库 urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。二.由易到难的爬虫程序： 1.爬取百阅读全文

posted @ 2019-07-08 12:10 FP233 阅读(196) 评论(0) 推荐(0)

http和https协议

摘要：爬虫《http和https协议》一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没阅读全文

posted @ 2019-07-08 12:08 FP233 阅读(304) 评论(0) 推荐(0)

爬虫介绍

摘要：引入之前在授课过程中，好多同学都问过我这样的一个问题：为什么要学习爬虫，学习爬虫能够为我们以后的发展带来那些好处？其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的，无论是从实际的应用还是从就业上。我们都知道，当前我们所处的时代是大数据的时代，在大数据时代，要进行数据分析，首先要有数据源阅读全文

posted @ 2019-07-08 12:06 FP233 阅读(286) 评论(0) 推荐(0)

07 2019 档案

requests第二弹

requests第一弹

03.爬取get请求的页面数据

http和https协议

爬虫介绍

导航

公告