随笔分类 -  spider

摘要:"""b站排行榜爬虫(scrapy)https://www.bilibili.com/ranking#!/all/0/0/7/爬取编号,标题,url,综合评分,播放量,评论数存储到mysql数据库"""import requestsfrom fake_useragent import FakeUse 阅读全文
posted @ 2019-06-18 22:09 猫有九命 阅读(534) 评论(0) 推荐(0)
摘要:爬取图片 阅读全文
posted @ 2019-06-11 21:40 猫有九命 阅读(964) 评论(0) 推荐(0)
摘要:'''爬取内涵吧段子所有笑话(带标题,作者)总结:解码上,使用gbk2312编码的,我们可以采取gbk解码。 不会报错'''from fake_useragent import FakeUserAgentimport requestsimport chardetimport refrom lxml 阅读全文
posted @ 2019-06-10 19:18 猫有九命 阅读(243) 评论(0) 推荐(0)
摘要:"""本案例不涉及数据提取,仅指导 网页分页爬取的两种方式 思路非第一种:利用while Ture,传参,然后在设定一个判断条件,案例中用的是如果找不到下一页,循环退出(可用于异步刷新网站)第二种:利用while Ture不断循环, 获取下一页url,获取不到,循环退出。 优化了异常处理。当输入的贴 阅读全文
posted @ 2019-06-10 11:30 猫有九命 阅读(208) 评论(0) 推荐(0)
摘要:"""拉链函数,zip将几个列表的数据进行封装,一一对应。如果一方列表的数据,比另一方少,那么按数据少的一方对应"""# 数据个数对应相等list1=[1,2,3,4,5,]list2=[6,7,8,9,10]data = zip(list1,list2)# 输出为元组for i in data: 阅读全文
posted @ 2019-06-06 09:30 猫有九命 阅读(699) 评论(0) 推荐(0)
摘要:'两种方式' import urllib status=urllib.urlopen("//www.jb51.net").code print status import requests code=requests.get("//www.jb51.net").status_code print c 阅读全文
posted @ 2019-06-05 17:47 猫有九命 阅读(2954) 评论(0) 推荐(0)
摘要:# from urllib import parse,request# import jsonimport requests# 有道翻译urlurl = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"# po 阅读全文
posted @ 2019-06-05 10:45 猫有九命 阅读(556) 评论(0) 推荐(0)
摘要:"""使用requests 设置ip代理"""import requestsdef func(): url = 'http://ip.27399.com/' proxies = {"http":"101.65.24.108:8118"} # 使用proxies这个函数 html = requests 阅读全文
posted @ 2019-06-05 10:43 猫有九命 阅读(247) 评论(0) 推荐(0)
摘要:"""使用随机User-Agent库,爬取笔趣阁万古天帝章节目录"""import requestsfrom fake_useragent import FakeUserAgentimport randomimport chardetdef biquge(): # 定义url, url = "htt 阅读全文
posted @ 2019-06-05 10:41 猫有九命 阅读(339) 评论(0) 推荐(0)
摘要:"""使用requests库 在这里爬取百度搜索的端午节页面(使用request库进行get传参)"""import requestsimport chardeturl = "https://www.baidu.com/s?"headers = {"User-Agent":"Mozilla/5.0 阅读全文
posted @ 2019-06-05 10:38 猫有九命 阅读(309) 评论(0) 推荐(0)
摘要:"""使用urllib库 提交post请求, 有道翻译"""from urllib import requestfrom urllib import parseimport jsonurl = "http://fanyi.youdao.com/translate?smartresult=dict&s 阅读全文
posted @ 2019-06-05 10:32 猫有九命 阅读(199) 评论(0) 推荐(0)
摘要:"""使用urllib库 爬取豆瓣电影 ajax(异步刷新)"""from urllib import request,parseimport chardetimport json# 定义豆瓣的urlurl = "https://movie.douban.com/j/chart/top_list?" 阅读全文
posted @ 2019-06-05 10:27 猫有九命 阅读(342) 评论(0) 推荐(0)
摘要:"""使用urlencode 函数拼接get请求参数"""from urllib import parse,request# https://www.baidu.com/s?wd=端午节url = "http://www.baidu.com/s?"paramDic ={ "wd":"端午节"}# 将 阅读全文
posted @ 2019-06-05 10:20 猫有九命 阅读(345) 评论(0) 推荐(0)
摘要:"""1.使用第一种反反爬措施User-Agent(伪装浏览器)"""import chardetimport requestsfrom urllib import request# 使用etree python3.5以上 ,不支持etree,from lxml import html# 1.得到所 阅读全文
posted @ 2019-06-04 09:19 猫有九命 阅读(514) 评论(0) 推荐(0)
摘要:"""使用cook模拟登陆(反 登录)"""from urllib import requestimport chardetdef baiDu(): url = "https://www.baidu.com/" headers={"User-Agent": "Mozilla/5.0 (Windows 阅读全文
posted @ 2019-06-04 09:17 猫有九命 阅读(431) 评论(0) 推荐(0)
摘要:"""使用ip代理进行网站访问,(反封禁ip手段)"""from urllib import requestimport chardetclass BaiDu(object): def baidu(self): url = "https://www.baidu.com/" headers = { " 阅读全文
posted @ 2019-06-04 09:15 猫有九命 阅读(456) 评论(0) 推荐(0)