2021年11月20日

pandas待填坑

摘要: 1、 cannot do slice indexing on Index with these indexers [3] of type intdf如下: 当使用callable索引时,报错 cannot do slice indexing on Index with these indexers 阅读全文

posted @ 2021-11-20 17:29 ifran 阅读(433) 评论(0) 推荐(0) 编辑

2020年3月1日

ip被禁用后复活---解决418报错

摘要: 爬豆瓣长评时,突然不能继续爬取了。response.status_code返回为418,get_html(utl)返回ip不能用了。 解决:status_code报错后,设置等待时间 count=0 while status_code!=200: count+=1 time.sleep(count* 阅读全文

posted @ 2020-03-01 17:50 ifran 阅读(1199) 评论(0) 推荐(0) 编辑

2020年2月18日

sys设置递归深度

摘要: 发现了一个练习爬虫的网站GlidedSky 过完了第一关,第二关需要爬取1000个网页,爬取到第956个网页时报错: RecursionError: maximum recursion depth exceeded while calling a Python object 解决方法: import 阅读全文

posted @ 2020-02-18 23:03 ifran 阅读(312) 评论(0) 推荐(0) 编辑

2020年2月2日

ajax爬取今日头条街拍图片——data出现none的解决

摘要: 之前爬取总是出现如图的结果:手动打开url显示的是想要的结果,但是爬取的时候data为空 尝试了多种方法,偶然得到了想要的结果: 这是多次实验中成功与不成功结果中构造的url 发现 1)得到想要结果,所构造的url中keyword=******与下一参数间没有&链接 2)同样的keyword=%E8 阅读全文

posted @ 2020-02-02 18:03 ifran 阅读(654) 评论(2) 推荐(0) 编辑

2020年1月28日

爬虫--数据存储 小问题总结

摘要: with open(path,'w',newline=''): #解决 当写入csv文件时出现空行 的问题 ... json.dumps(obj,ensure_ascii='False') #使写入的中文字符能正常读出 阅读全文

posted @ 2020-01-28 19:45 ifran 阅读(203) 评论(0) 推荐(0) 编辑

json转化为csv文件打开时,中文乱码

摘要: 三种方法: 法一 用笔记本打开csv文件,在笔记本中选择“文件”-->“另存为”。设置编码类型为‘utf-8' 法二 在打开的excel页面中,选择“文件”菜单-->选项-->语言设置为简体中文 法三 1.数据-->从文本 2.依此设置。文件格式设置为 “无(常规)” 附json->csv代码: i 阅读全文

posted @ 2020-01-28 19:37 ifran 阅读(1482) 评论(0) 推荐(0) 编辑

2020年1月26日

爬虫出现乱码的一个特例

摘要: 爬取猫眼电影排行,无法正常显示中文,出现乱码 response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题? - 知乎 发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码, import requ 阅读全文

posted @ 2020-01-26 18:45 ifran 阅读(488) 评论(0) 推荐(0) 编辑

2020年1月22日

fake_useragent库—随机生成请求头

摘要: ua=UserAgent() 对象 实例化 ua.chrome 生成谷歌浏览器的对象 ua.firefox import requests from fake_useragent import UserAgent url='https://maoyan.com/board/4?offset=0' u 阅读全文

posted @ 2020-01-22 22:08 ifran 阅读(318) 评论(0) 推荐(0) 编辑

2019年12月10日

爬取网站出现高频关键词

摘要: import requests from bs4 import BeautifulSoup import jieba #爬取页面代码并解析 def get_html(url): try: response=requests.get(url) response.raise_for_status res 阅读全文

posted @ 2019-12-10 20:31 ifran 阅读(839) 评论(0) 推荐(0) 编辑

2019年9月26日

python爬虫的问题

摘要: * 保存图片失败 1.打错单词 e.g: ptyhon-->python 2.之前正则提取时转义字符的遗忘 e.g: re.compile(r'src="http:aaaaa/.jpg"')-->re.compile(r'src="http:aaaaa/\.jpg"') 阅读全文

posted @ 2019-09-26 13:30 ifran 阅读(143) 评论(0) 推荐(0) 编辑

导航