2020年10月28日

摘要:http://scxk.nmpa.gov.cn:81/xk/ import requests url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' headers = { 'User-Agen 阅读全文
posted @ 2020-10-28 06:45 MARSdoubleZ 阅读(6) 评论(0) 推荐(0) 编辑
摘要:肯德基餐厅信息查询网址:http://www.kfc.com.cn/kfccda/storelist/index.aspx import requests url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname' hea 阅读全文
posted @ 2020-10-28 06:42 MARSdoubleZ 阅读(5) 评论(0) 推荐(0) 编辑
摘要:爬豆瓣 什么是 AJAX ? AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。 AJAX = Asynchronous JavaScript and XML(AJAX = 异步 JavaScript 和 XML。)。 AJAX 不是新的编程语言,而是一种使用现有标准的新方法。 阅读全文
posted @ 2020-10-28 06:38 MARSdoubleZ 阅读(0) 评论(0) 推荐(0) 编辑
摘要:requests模块的基本使用 什么是requests模块? Python中封装好的一个基于网络请求的模块 requests模块的作用? 用来模拟浏览器发请求 requests模块的环境安装: pip install requests requests模块的编写流程: 指定url 发起请求:(1)  阅读全文
posted @ 2020-10-28 00:39 MARSdoubleZ 阅读(24) 评论(0) 推荐(0) 编辑

2017年12月9日

摘要:<!doctype html><html lang="en"> <head> <script> //快速排序 var arr = [6,1,2,7,9,3,4,5,10,8]; function quicksort(left,right){ //var i,j,t,temp;//i表从左数,j从右数 阅读全文
posted @ 2017-12-09 14:33 MARSdoubleZ 阅读(42) 评论(0) 推荐(0) 编辑
摘要:使用scrapy框架爬起点小说网 第一步: 进入起点小说网站首页,点击全部作品,进入到另一个页面,这个页面有小说所有的类型,小说类型有大分类和小分类,我们首先要 做的就是先把这些小说分类爬下来,在爬这个页面之前,我们要看一下网页最上方的链接,就是https://www.qidian.com/all, 阅读全文
posted @ 2017-12-09 13:17 MARSdoubleZ 阅读(105) 评论(0) 推荐(0) 编辑

2017年11月20日

摘要:# -*- coding: utf-8 -*-from urllib.request import Requestfrom urllib.request import urlopen #添加模拟浏览器协议头headers = {'User-Agent':'Mozilla/5.0 (Windows; 阅读全文
posted @ 2017-11-20 20:21 MARSdoubleZ 阅读(98) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*-import refrom urllib.request import urlopenfrom urllib.request import Requestfrom bs4 import BeautifulSoupfrom lxml import etre 阅读全文
posted @ 2017-11-20 20:17 MARSdoubleZ 阅读(149) 评论(0) 推荐(0) 编辑

2017年11月15日

摘要:# -*- coding: utf-8 -*-import _thread from time import sleep, ctime def fun1(): sleep(2) print('aaaaaaaaaa') def fun2(): sleep(1) print('bbbbbbbbb') d 阅读全文
posted @ 2017-11-15 21:08 MARSdoubleZ 阅读(61) 评论(0) 推荐(0) 编辑
摘要:使用代理ip池进行爬取1.爬网上的代理ip数据2.插入mysql内存表3.校验,不可用代理ip清洗,把可用的插入另一内存表,删除数据4.使用 每启一个线程从代理ip池中取出一个ip 爬取目标页面 如果不可用,调用不可用模块 不可用模块中,删除不可用ip,重新拿新ip使用 # -*- coding: 阅读全文
posted @ 2017-11-15 21:06 MARSdoubleZ 阅读(205) 评论(0) 推荐(0) 编辑

导航

统计