Python爬虫 - 随笔分类 - xxcxxc

python爬虫urllib库使用

摘要：urllib包括以下四个模块： 1.request:基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程。 2.error：异常处理模块 3.parse：提供了许多URL处理方法，如拆分、解析、合并等 4.r 阅读全文

posted @ 2018-11-06 13:44 xxcxxc 阅读(227) 评论(0) 推荐(0)

python库安装如：requests,selenium等

摘要：安装方式： 1.pip安装： 2.wheel安装：在PyPI上下载对应的wheel文件：如要下载requests的wheel文件，打开：http://pypi.python.org/pypi/requests/2.17.3#downloads 然后再使用pip进行安装阅读全文

posted @ 2018-11-06 12:34 xxcxxc 阅读(971) 评论(0) 推荐(1)

Scrapy 抓取股票行情

摘要：安装scrapy会出现错误，我们选择anaconda3作为编译环境，搜索scrapy安装（有错误自查）创建scrapy爬虫项目：调出cmd，到相应目录：输入：放置spide代码的目录文件 spider（用于编写爬虫）项目中的item文件 items.py(用于保存所抓取的数据的容器，其存储方阅读全文

posted @ 2018-10-10 19:48 xxcxxc 阅读(1504) 评论(0) 推荐(1)

去哪儿网数据爬取

摘要：网址：https://touch.qunar.com 1.获取出发地站点列表： url:https://touch.dujia.qunar.com/depCities.qunar 阅读全文

posted @ 2018-10-10 18:08 xxcxxc 阅读(2200) 评论(0) 推荐(1)

用API爬取天气预报数据

摘要：1.注册免费API和阅读技术文档：注册地址：https://console.heweather.com 文档地址：https://www.heweather.com/documents/api-url 在文档中可以看到很多参数返回的是json数据 2.获取API数据：获取城市列表：获取当天温阅读全文

posted @ 2018-10-10 16:33 xxcxxc 阅读(2728) 评论(0) 推荐(1)

爬虫防封IP

摘要：当抓取数据逐渐增大时，服务器的负荷会加大，会直接封掉来访IP：采取措施： 1.创建请求头部信息： 2.我们就只修改User-Agent还不够，爬虫1秒钟可以抓取很多图片，通过统计IP的访问频率，频率超过阈值，会返回一个验证码，如果是用户访问，用户就会填写继续访问，而代码访问就会被封IP，有两种解决阅读全文

posted @ 2018-10-10 15:04 xxcxxc 阅读(1618) 评论(0) 推荐(1)

Beautiful Soup解析网页

摘要：使用前步骤： 1.Beautiful Soup目前已经被移植到bs4，所以导入Beautiful Soup时先安装bs4库。 2.安装lxml库：如果不使用此库，就会使用Python默认的解析器，而lxml具有功能更加强大、速度更快的特点。爬取：http://www.cntour.cn/ 结果：阅读全文

posted @ 2018-10-10 14:33 xxcxxc 阅读(1441) 评论(0) 推荐(1)

Requests库请求网站

摘要：安装requests库 pip install requests 1.使用GET方式抓取数据： 2.使用POST方式抓取数据网址：有道翻译：http://fanyi.youdao.com/ 按F12 进入开发者模式，单击Network,此时内容为空，如图：输入‘’我爱中国‘’，翻译就会出现：单阅读全文

posted @ 2018-10-09 23:45 xxcxxc 阅读(734) 评论(0) 推荐(1)

随笔分类 - Python爬虫