Python网络爬虫 - 随笔分类 - Chenjin123

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

摘要：1 . 什么是 AJAX ？ AJAX = 异步 JavaScript 和 XML。 AJAX 是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用 AJAX）阅读全文

posted @ 2019-12-23 23:43 Chenjin123 阅读(3534) 评论(0) 推荐(0)

Python网络爬虫_Scrapy框架_2.logging模块的使用

摘要：logging模块提供日志服务在scrapy框架中已经对其进行一些操作所以使用更为简单在Scrapy框架中使用: 1.在setting.py文件中设置LOG_LEVEL(设置日志等级,只有高于等于本等级的日志会显示) LOG_FILE(设置日志保存位置,设定后不会在终端显示日志) 2.实例化lo 阅读全文

posted @ 2019-12-17 17:18 Chenjin123 阅读(156) 评论(0) 推荐(0)

Python网络爬虫_Scrapy框架_1.新建项目

摘要：在Pycharm中新建一个基于Scrapy框架的爬虫项目(Scrapy库已经导入) 在终端中输入: ''itcast.cn''是为爬虫限定爬取范围创建完成后的目录将生成的itcast.py文件移动到spiders文件夹在setting.py文件中添加: LOG_LEVEL = 'WARNING 阅读全文

posted @ 2019-12-17 09:39 Chenjin123 阅读(211) 评论(0) 推荐(0)

3.Python爬虫入门_正则表达式(简单例子)

摘要：1 #2019-11-23 2 import requests 3 import time 4 import re #Python正则表达式库 5 6 if __name__=='__main__': 7 #海量爬取图片数据 8 #进入网站(一般商业图片素材公司网站版权保护做得比较好,不容易爬取) 阅读全文

posted @ 2019-11-23 22:19 Chenjin123 阅读(623) 评论(0) 推荐(0)

2.Python爬虫入门_requests

摘要：1 #2019-11-23 2 #requests的api使用非常简单 3 import requests 4 import time 5 6 if __name__=='__main__': 7 # get请求 8 url_get='http://www.httpbin.org/get' #测试网阅读全文

posted @ 2019-11-23 18:31 Chenjin123 阅读(224) 评论(0) 推荐(0)

1.Python爬虫入门_urllib

摘要：1 #2019-11-22 2 import urllib.request #Pthon自带的网络连接库 3 import gzip #解压缩库 4 5 #程序入口 6 if __name__=='__main__': 7 #url:我们要爬取的网址 8 url='http://www.qq.com 阅读全文

posted @ 2019-11-22 21:50 Chenjin123 阅读(212) 评论(0) 推荐(0)

随笔分类 - Python网络爬虫