摘要:
1 from urllib import request,parse 2 import os 3 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 4 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 阅读全文
posted @ 2020-03-23 14:49
momingQI
阅读(491)
评论(0)
推荐(0)
摘要:
# 使用parse对网址进行拼接操作 from urllib import request,parse base_url = 'https://www.baidu.com/s?' wd = input('请输入查询信息>>') query_msg = { 'wd':wd } msg = parse. 阅读全文
posted @ 2020-03-23 14:28
momingQI
阅读(116)
评论(0)
推荐(0)
摘要:
# 1.导入urllib中的request # 2.定义爬取的url(统一资源定位符) # 3.定义一个请求对象request # request的参数有url:访问的网址;data:发起请求时带的数据请求方式为post; # headers:包括发送HTTP报文的键值对(例如user-agent请 阅读全文
posted @ 2020-03-23 14:27
momingQI
阅读(115)
评论(0)
推荐(0)
摘要:
class MeiJuItem(scrapy.Item): ''' 爬取美剧 定义MeiJuItem类继承scrapy.Item 定义存储数据 明确存储信息 ''' name = scrapy.Field() href = scrapy.Field() state = scrapy.Field() 阅读全文
posted @ 2020-03-23 12:23
momingQI
阅读(553)
评论(0)
推荐(0)
摘要:
import scrapy class BooksSpider(scrapy.Spider): ''' 爬取http://books.toscrape.com/的书籍信息 ''' # 爬虫标识 name = 'books' # 定义爬虫起始点即url start_urls = [ 'http://l 阅读全文
posted @ 2020-03-23 12:17
momingQI
阅读(239)
评论(0)
推荐(0)
摘要:
import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 12:02
momingQI
阅读(384)
评论(0)
推荐(0)
摘要:
import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 11:53
momingQI
阅读(887)
评论(0)
推荐(0)
摘要:
# ProxyHandler代理ip# 免费短期代理网站举例:# 西刺免费代理 IP:http://www.xicidaili.com/# 快代理免费代理:https://www.kuaidaili.com/free/inha/# 全网代理 IP:http://www.goubanjia.com/' 阅读全文
posted @ 2020-03-23 09:26
momingQI
阅读(331)
评论(0)
推荐(0)
摘要:
import requestsheaders = { # headers 头部文件 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0',}# getdict1 = 阅读全文
posted @ 2020-03-23 09:25
momingQI
阅读(1192)
评论(0)
推荐(0)
摘要:
from urllib import requestfrom http import cookiejar'''定义cookies对象生成cookies管理器HTTP和HTTPS请求管理器发起请求'''cookies_object = cookiejar.CookieJar()cookies_hand 阅读全文
posted @ 2020-03-23 09:24
momingQI
阅读(193)
评论(0)
推荐(0)

浙公网安备 33010602011771号