spider - 随笔分类 - 猫有九命

爬B站并保存成csv文件。提供数据

摘要："""b站排行榜爬虫（scrapy）https://www.bilibili.com/ranking#!/all/0/0/7/爬取编号，标题，url，综合评分，播放量，评论数存储到mysql数据库"""import requestsfrom fake_useragent import FakeUse 阅读全文

posted @ 2019-06-18 22:09 猫有九命阅读(534) 评论(0) 推荐(0)

spider_爬取斗图啦所有表情包（图片保存）

摘要：爬取图片阅读全文

posted @ 2019-06-11 21:40 猫有九命阅读(964) 评论(0) 推荐(0)

spider_爬取内涵吧的段子（二级深度爬取）

摘要：'''爬取内涵吧段子所有笑话（带标题，作者）总结：解码上，使用gbk2312编码的，我们可以采取gbk解码。不会报错'''from fake_useragent import FakeUserAgentimport requestsimport chardetimport refrom lxml 阅读全文

posted @ 2019-06-10 19:18 猫有九命阅读(243) 评论(0) 推荐(0)

spider_object_01使用正则爬取百度贴吧所有内容保存成html

摘要："""本案例不涉及数据提取，仅指导网页分页爬取的两种方式思路非第一种：利用while Ture，传参，然后在设定一个判断条件，案例中用的是如果找不到下一页，循环退出(可用于异步刷新网站)第二种：利用while Ture不断循环，获取下一页url，获取不到，循环退出。优化了异常处理。当输入的贴阅读全文

posted @ 2019-06-10 11:30 猫有九命阅读(208) 评论(0) 推荐(0)

解决xpath提取的数据列表，保存时不能一一对应的问题

摘要："""拉链函数，zip将几个列表的数据进行封装，一一对应。如果一方列表的数据，比另一方少，那么按数据少的一方对应"""# 数据个数对应相等list1=[1,2,3,4,5,]list2=[6,7,8,9,10]data = zip(list1,list2)# 输出为元组for i in data: 阅读全文

posted @ 2019-06-06 09:30 猫有九命阅读(699) 评论(0) 推荐(0)

python爬虫代码中_获取状态码

摘要：'两种方式' import urllib status=urllib.urlopen("//www.jb51.net").code print status import requests code=requests.get("//www.jb51.net").status_code print c 阅读全文

posted @ 2019-06-05 17:47 猫有九命阅读(2954) 评论(0) 推荐(0)

spider_使用request库进行post传参

摘要：# from urllib import parse,request# import jsonimport requests# 有道翻译urlurl = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"# po 阅读全文

posted @ 2019-06-05 10:45 猫有九命阅读(556) 评论(0) 推荐(0)

spider_requests库简单ip代理

摘要："""使用requests 设置ip代理"""import requestsdef func(): url = 'http://ip.27399.com/' proxies = {"http":"101.65.24.108:8118"} # 使用proxies这个函数 html = requests 阅读全文

posted @ 2019-06-05 10:43 猫有九命阅读(247) 评论(0) 推荐(0)

spider_使用随机User-Agent库，爬取笔趣阁万古天帝章节目录_(fake_useragent)

摘要："""使用随机User-Agent库，爬取笔趣阁万古天帝章节目录"""import requestsfrom fake_useragent import FakeUserAgentimport randomimport chardetdef biquge(): # 定义url， url = "htt 阅读全文

posted @ 2019-06-05 10:41 猫有九命阅读(339) 评论(0) 推荐(0)

spider_使用request库进行get传参

摘要："""使用requests库在这里爬取百度搜索的端午节页面（使用request库进行get传参）"""import requestsimport chardeturl = "https://www.baidu.com/s?"headers = {"User-Agent":"Mozilla/5.0 阅读全文

posted @ 2019-06-05 10:38 猫有九命阅读(309) 评论(0) 推荐(0)

spider_使用urllib库提交post请求，有道翻译案例

摘要："""使用urllib库提交post请求，有道翻译"""from urllib import requestfrom urllib import parseimport jsonurl = "http://fanyi.youdao.com/translate?smartresult=dict&s 阅读全文

posted @ 2019-06-05 10:32 猫有九命阅读(199) 评论(0) 推荐(0)

spider_使用parse，urlencode，爬取豆瓣电影（get请求拼接url）

摘要："""使用urllib库爬取豆瓣电影 ajax（异步刷新）"""from urllib import request,parseimport chardetimport json# 定义豆瓣的urlurl = "https://movie.douban.com/j/chart/top_list?" 阅读全文

posted @ 2019-06-05 10:27 猫有九命阅读(342) 评论(0) 推荐(0)

sapider_使用urlencode函数拼接get请求参数

摘要："""使用urlencode 函数拼接get请求参数"""from urllib import parse,request# https://www.baidu.com/s?wd=端午节url = "http://www.baidu.com/s?"paramDic ={ "wd":"端午节"}# 将阅读全文

posted @ 2019-06-05 10:20 猫有九命阅读(345) 评论(0) 推荐(0)

spider_使用user-agent

摘要："""1.使用第一种反反爬措施User-Agent（伪装浏览器）"""import chardetimport requestsfrom urllib import request# 使用etree python3.5以上，不支持etree，from lxml import html# 1.得到所阅读全文

posted @ 2019-06-04 09:19 猫有九命阅读(514) 评论(0) 推荐(0)

spider_使用cookie模拟登录

摘要："""使用cook模拟登陆（反登录）"""from urllib import requestimport chardetdef baiDu(): url = "https://www.baidu.com/" headers={"User-Agent": "Mozilla/5.0 (Windows 阅读全文

posted @ 2019-06-04 09:17 猫有九命阅读(431) 评论(0) 推荐(0)

spider_使用ip代理

摘要："""使用ip代理进行网站访问,(反封禁ip手段)"""from urllib import requestimport chardetclass BaiDu(object): def baidu(self): url = "https://www.baidu.com/" headers = { " 阅读全文

posted @ 2019-06-04 09:15 猫有九命阅读(456) 评论(0) 推荐(0)

猫有九命

随笔分类 - spider

公告