2020 年 3月 23 日随笔档案 - momingQI

2020年3月23日

摘要： 1 from urllib import request,parse 2 import os 3 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 4 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 阅读全文

posted @ 2020-03-23 14:49 momingQI 阅读(492) 评论(0) 推荐(0)

urllib运用（2）

摘要： # 使用parse对网址进行拼接操作 from urllib import request,parse base_url = 'https://www.baidu.com/s?' wd = input('请输入查询信息>>') query_msg = { 'wd':wd } msg = parse. 阅读全文

posted @ 2020-03-23 14:28 momingQI 阅读(116) 评论(0) 推荐(0)

urllib运用（1）

摘要： # 1.导入urllib中的request # 2.定义爬取的url(统一资源定位符) # 3.定义一个请求对象request # request的参数有url：访问的网址；data：发起请求时带的数据请求方式为post； # headers：包括发送HTTP报文的键值对(例如user-agent请阅读全文

posted @ 2020-03-23 14:27 momingQI 阅读(115) 评论(0) 推荐(0)

scrapy爬取美剧天堂排名100

摘要： class MeiJuItem(scrapy.Item): ''' 爬取美剧定义MeiJuItem类继承scrapy.Item 定义存储数据明确存储信息 ''' name = scrapy.Field() href = scrapy.Field() state = scrapy.Field() 阅读全文

posted @ 2020-03-23 12:23 momingQI 阅读(555) 评论(0) 推荐(0)

scrapy爬取http://lab.scrapyd.cn/

摘要： import scrapy class BooksSpider(scrapy.Spider): ''' 爬取http://books.toscrape.com/的书籍信息 ''' # 爬虫标识 name = 'books' # 定义爬虫起始点即url start_urls = [ 'http://l 阅读全文

posted @ 2020-03-23 12:17 momingQI 阅读(239) 评论(0) 推荐(0)

python爬虫登录爬取

摘要： import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文

posted @ 2020-03-23 12:02 momingQI 阅读(384) 评论(0) 推荐(0)

python爬虫西刺代理ip爬取

摘要： import requests from lxml import etree import time import random import csv def test_ip(ip_address): ''' 测试ip是否可用 :param ip_address: 代理ip ''' url = 'h 阅读全文

posted @ 2020-03-23 11:53 momingQI 阅读(887) 评论(0) 推荐(0)

python爬虫中代理ip

摘要： # ProxyHandler代理ip# 免费短期代理网站举例：# 西刺免费代理 IP:http://www.xicidaili.com/# 快代理免费代理:https://www.kuaidaili.com/free/inha/# 全网代理 IP:http://www.goubanjia.com/' 阅读全文

posted @ 2020-03-23 09:26 momingQI 阅读(333) 评论(0) 推荐(0)

python中requests使用

摘要： import requestsheaders = { # headers 头部文件 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0',}# getdict1 = 阅读全文

posted @ 2020-03-23 09:25 momingQI 阅读(1192) 评论(0) 推荐(0)

python爬虫中cookies

摘要： from urllib import requestfrom http import cookiejar'''定义cookies对象生成cookies管理器HTTP和HTTPS请求管理器发起请求'''cookies_object = cookiejar.CookieJar()cookies_hand 阅读全文

posted @ 2020-03-23 09:24 momingQI 阅读(193) 评论(0) 推荐(0)

全国邮编爬取

摘要： import requests from lxml import etree def city_page(base_url): url = base_url+'post/' headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x 阅读全文

posted @ 2020-03-23 09:13 momingQI 阅读(404) 评论(0) 推荐(0)

豆瓣电影分类排行

摘要： 1 import requests 2 # 导入lxml使用xpath提取数据 3 from lxml import etree 4 def douban_movies(m_type,nums): 5 ''' 6 豆瓣电影排行榜爬取 7 ''' 8 9 url = "https://movie.do 阅读全文

posted @ 2020-03-23 09:10 momingQI 阅读(713) 评论(0) 推荐(0)

有道翻译

摘要： 1 # from urllib import request,parse 2 import requests 3 import time 4 import random 5 import hashlib 6 import json 7 class YouDao(): 8 ''' 9 salt: i 阅读全文

posted @ 2020-03-23 09:08 momingQI 阅读(475) 评论(0) 推荐(0)

python爬虫笔记

摘要： ##爬虫 -通用网络爬虫其的主要目的是将互联网上的资源下载到本地形成一个镜像备份。类似百度等搜索引擎 -聚焦爬虫其面向特定需求的爬虫程序，与通用爬虫的区别在于对数据进行筛选尽量爬取相关数据 -爬虫优化 1.尽量减少请求次数 2.web页面不好爬取时爬app和h5页面（手机） ##HTTP和HTT 阅读全文

posted @ 2020-03-23 09:05 momingQI 阅读(552) 评论(0) 推荐(0)

momingQI

公告