Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
摘要:1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML。 AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 传统的网页(不使用 AJAX)
阅读全文
posted @
2019-12-23 23:43
Chenjin123
阅读(3534)
推荐(0)
Python网络爬虫_Scrapy框架_2.logging模块的使用
摘要:logging模块提供日志服务 在scrapy框架中已经对其进行一些操作所以使用更为简单 在Scrapy框架中使用: 1.在setting.py文件中设置LOG_LEVEL(设置日志等级,只有高于等于本等级的日志会显示) LOG_FILE(设置日志保存位置,设定后不会在终端显示日志) 2.实例化lo
阅读全文
posted @
2019-12-17 17:18
Chenjin123
阅读(156)
推荐(0)
Python网络爬虫_Scrapy框架_1.新建项目
摘要:在Pycharm中新建一个基于Scrapy框架的爬虫项目(Scrapy库已经导入) 在终端中输入: ''itcast.cn''是为爬虫限定爬取范围 创建完成后的目录 将生成的itcast.py文件移动到spiders文件夹 在setting.py文件中添加: LOG_LEVEL = 'WARNING
阅读全文
posted @
2019-12-17 09:39
Chenjin123
阅读(211)
推荐(0)
3.Python爬虫入门_正则表达式(简单例子)
摘要:1 #2019-11-23 2 import requests 3 import time 4 import re #Python正则表达式库 5 6 if __name__=='__main__': 7 #海量爬取图片数据 8 #进入网站(一般商业图片素材公司网站版权保护做得比较好,不容易爬取)
阅读全文
posted @
2019-11-23 22:19
Chenjin123
阅读(623)
推荐(0)
2.Python爬虫入门_requests
摘要:1 #2019-11-23 2 #requests的api使用非常简单 3 import requests 4 import time 5 6 if __name__=='__main__': 7 # get请求 8 url_get='http://www.httpbin.org/get' #测试网
阅读全文
posted @
2019-11-23 18:31
Chenjin123
阅读(224)
推荐(0)
1.Python爬虫入门_urllib
摘要:1 #2019-11-22 2 import urllib.request #Pthon自带的网络连接库 3 import gzip #解压缩库 4 5 #程序入口 6 if __name__=='__main__': 7 #url:我们要爬取的网址 8 url='http://www.qq.com
阅读全文
posted @
2019-11-22 21:50
Chenjin123
阅读(212)
推荐(0)