摘要: 1 from urllib import request,parse 2 import os 3 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 4 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 阅读全文
posted @ 2020-03-23 14:49 momingQI 阅读(492) 评论(0) 推荐(0)
摘要: # 使用parse对网址进行拼接操作 from urllib import request,parse base_url = 'https://www.baidu.com/s?' wd = input('请输入查询信息>>') query_msg = { 'wd':wd } msg = parse. 阅读全文
posted @ 2020-03-23 14:28 momingQI 阅读(116) 评论(0) 推荐(0)
摘要: # 1.导入urllib中的request # 2.定义爬取的url(统一资源定位符) # 3.定义一个请求对象request # request的参数有url:访问的网址;data:发起请求时带的数据请求方式为post; # headers:包括发送HTTP报文的键值对(例如user-agent请 阅读全文
posted @ 2020-03-23 14:27 momingQI 阅读(115) 评论(0) 推荐(0)
摘要: class MeiJuItem(scrapy.Item): ''' 爬取美剧 定义MeiJuItem类继承scrapy.Item 定义存储数据 明确存储信息 ''' name = scrapy.Field() href = scrapy.Field() state = scrapy.Field() 阅读全文
posted @ 2020-03-23 12:23 momingQI 阅读(555) 评论(0) 推荐(0)
摘要: import scrapy class BooksSpider(scrapy.Spider): ''' 爬取http://books.toscrape.com/的书籍信息 ''' # 爬虫标识 name = 'books' # 定义爬虫起始点即url start_urls = [ 'http://l 阅读全文
posted @ 2020-03-23 12:17 momingQI 阅读(239) 评论(0) 推荐(0)
摘要: import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 12:02 momingQI 阅读(384) 评论(0) 推荐(0)
摘要: import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文
posted @ 2020-03-23 11:53 momingQI 阅读(887) 评论(0) 推荐(0)
摘要: # ProxyHandler代理ip# 免费短期代理网站举例:# 西刺免费代理 IP:http://www.xicidaili.com/# 快代理免费代理:https://www.kuaidaili.com/free/inha/# 全网代理 IP:http://www.goubanjia.com/' 阅读全文
posted @ 2020-03-23 09:26 momingQI 阅读(333) 评论(0) 推荐(0)
摘要: import requestsheaders = { # headers 头部文件 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0',}# getdict1 = 阅读全文
posted @ 2020-03-23 09:25 momingQI 阅读(1192) 评论(0) 推荐(0)
摘要: from urllib import requestfrom http import cookiejar'''定义cookies对象生成cookies管理器HTTP和HTTPS请求管理器发起请求'''cookies_object = cookiejar.CookieJar()cookies_hand 阅读全文
posted @ 2020-03-23 09:24 momingQI 阅读(193) 评论(0) 推荐(0)
摘要: import requests from lxml import etree def city_page(base_url): url = base_url+'post/' headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x 阅读全文
posted @ 2020-03-23 09:13 momingQI 阅读(404) 评论(0) 推荐(0)
摘要: 1 import requests 2 # 导入lxml使用xpath提取数据 3 from lxml import etree 4 def douban_movies(m_type,nums): 5 ''' 6 豆瓣电影排行榜爬取 7 ''' 8 9 url = "https://movie.do 阅读全文
posted @ 2020-03-23 09:10 momingQI 阅读(713) 评论(0) 推荐(0)
摘要: 1 # from urllib import request,parse 2 import requests 3 import time 4 import random 5 import hashlib 6 import json 7 class YouDao(): 8 ''' 9 salt: i 阅读全文
posted @ 2020-03-23 09:08 momingQI 阅读(475) 评论(0) 推荐(0)
摘要: ##爬虫 -通用网络爬虫 其的主要目的是将互联网上的资源下载到本地形成一个镜像备份。类似百度等搜索引擎 -聚焦爬虫 其面向特定需求的爬虫程序,与通用爬虫的区别在于对数据进行筛选尽量爬取相关数据 -爬虫优化 1.尽量减少请求次数 2.web页面不好爬取时爬app和h5页面(手机) ##HTTP和HTT 阅读全文
posted @ 2020-03-23 09:05 momingQI 阅读(552) 评论(0) 推荐(0)