摘要: 1 from urllib import request,parse 2 import os 3 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 4 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 阅读全文
posted @ 2020-03-23 14:49 momingQI 阅读(491) 评论(0) 推荐(0)
摘要: # 使用parse对网址进行拼接操作 from urllib import request,parse base_url = 'https://www.baidu.com/s?' wd = input('请输入查询信息>>') query_msg = { 'wd':wd } msg = parse. 阅读全文
posted @ 2020-03-23 14:28 momingQI 阅读(116) 评论(0) 推荐(0)
摘要: # 1.导入urllib中的request # 2.定义爬取的url(统一资源定位符) # 3.定义一个请求对象request # request的参数有url:访问的网址;data:发起请求时带的数据请求方式为post; # headers:包括发送HTTP报文的键值对(例如user-agent请 阅读全文
posted @ 2020-03-23 14:27 momingQI 阅读(115) 评论(0) 推荐(0)
摘要: class MeiJuItem(scrapy.Item): ''' 爬取美剧 定义MeiJuItem类继承scrapy.Item 定义存储数据 明确存储信息 ''' name = scrapy.Field() href = scrapy.Field() state = scrapy.Field() 阅读全文
posted @ 2020-03-23 12:23 momingQI 阅读(553) 评论(0) 推荐(0)
摘要: import scrapy class BooksSpider(scrapy.Spider): ''' 爬取http://books.toscrape.com/的书籍信息 ''' # 爬虫标识 name = 'books' # 定义爬虫起始点即url start_urls = [ 'http://l 阅读全文
posted @ 2020-03-23 12:17 momingQI 阅读(239) 评论(0) 推荐(0)
摘要: import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 12:02 momingQI 阅读(384) 评论(0) 推荐(0)
摘要: import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 11:53 momingQI 阅读(887) 评论(0) 推荐(0)
摘要: # ProxyHandler代理ip# 免费短期代理网站举例:# 西刺免费代理 IP:http://www.xicidaili.com/# 快代理免费代理:https://www.kuaidaili.com/free/inha/# 全网代理 IP:http://www.goubanjia.com/' 阅读全文
posted @ 2020-03-23 09:26 momingQI 阅读(331) 评论(0) 推荐(0)
摘要: import requestsheaders = { # headers 头部文件 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0',}# getdict1 = 阅读全文
posted @ 2020-03-23 09:25 momingQI 阅读(1192) 评论(0) 推荐(0)
摘要: from urllib import requestfrom http import cookiejar'''定义cookies对象生成cookies管理器HTTP和HTTPS请求管理器发起请求'''cookies_object = cookiejar.CookieJar()cookies_hand 阅读全文
posted @ 2020-03-23 09:24 momingQI 阅读(193) 评论(0) 推荐(0)