随笔分类 -  Python爬虫

python爬虫urllib库使用
摘要:urllib包括以下四个模块: 1.request:基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程。 2.error:异常处理模块 3.parse:提供了许多URL处理方法,如拆分、解析、合并等 4.r 阅读全文
posted @ 2018-11-06 13:44 xxcxxc 阅读(227) 评论(0) 推荐(0)
python库安装如:requests,selenium等
摘要:安装方式: 1.pip安装: 2.wheel安装: 在PyPI上下载对应的wheel文件:如要下载requests的wheel文件,打开:http://pypi.python.org/pypi/requests/2.17.3#downloads 然后再使用pip进行安装 阅读全文
posted @ 2018-11-06 12:34 xxcxxc 阅读(971) 评论(0) 推荐(1)
Scrapy 抓取股票行情
摘要:安装scrapy会出现错误,我们选择anaconda3作为编译环境,搜索scrapy安装(有错误自查) 创建scrapy爬虫项目: 调出cmd,到相应目录:输入: 放置spide代码的目录文件 spider(用于编写爬虫) 项目中的item文件 items.py(用于保存所抓取的数据的容器,其存储方 阅读全文
posted @ 2018-10-10 19:48 xxcxxc 阅读(1504) 评论(0) 推荐(1)
去哪儿网数据爬取
摘要:网址:https://touch.qunar.com 1.获取出发地站点列表: url:https://touch.dujia.qunar.com/depCities.qunar 阅读全文
posted @ 2018-10-10 18:08 xxcxxc 阅读(2200) 评论(0) 推荐(1)
用API爬取天气预报数据
摘要:1.注册免费API和阅读技术文档: 注册地址:https://console.heweather.com 文档地址:https://www.heweather.com/documents/api-url 在文档中可以看到很多参数 返回的是json数据 2.获取API数据: 获取城市列表: 获取当天温 阅读全文
posted @ 2018-10-10 16:33 xxcxxc 阅读(2728) 评论(0) 推荐(1)
爬虫防封IP
摘要:当抓取数据逐渐增大时,服务器的负荷会加大,会直接封掉来访IP: 采取措施: 1.创建请求头部信息: 2.我们就只修改User-Agent还不够,爬虫1秒钟可以抓取很多图片,通过统计IP的访问频率,频率超过阈值,会返回一个验证码,如果是用户访问,用户就会填写继续访问,而代码访问就会被封IP,有两种解决 阅读全文
posted @ 2018-10-10 15:04 xxcxxc 阅读(1618) 评论(0) 推荐(1)
Beautiful Soup解析网页
摘要:使用前步骤: 1.Beautiful Soup目前已经被移植到bs4,所以导入Beautiful Soup时先安装bs4库。 2.安装lxml库:如果不使用此库,就会使用Python默认的解析器,而lxml具有功能更加强大、速度更快的特点。 爬取:http://www.cntour.cn/ 结果: 阅读全文
posted @ 2018-10-10 14:33 xxcxxc 阅读(1441) 评论(0) 推荐(1)
Requests库请求网站
摘要:安装requests库 pip install requests 1.使用GET方式抓取数据: 2.使用POST方式抓取数据 网址:有道翻译:http://fanyi.youdao.com/ 按F12 进入开发者模式,单击Network,此时内容为空,如图: 输入‘’我爱中国‘’,翻译就会出现: 单 阅读全文
posted @ 2018-10-09 23:45 xxcxxc 阅读(734) 评论(0) 推荐(1)