会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
kakaok
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
11
下一页
2021年4月22日
elasticsearch scroll
摘要: 最开始接触E的版本是2.3.4,随着功能和版本更新,现在已更新到7.10.2,但是在导出数据的时候遇到了一个小问题 之前记得scroll,但是操作的是总是第一次成功,后面拿到scroll_id的第二次后就无法继续读取数据了, 最后排查发现是自己疏忽了用法 第一次: host = "*******"
阅读全文
posted @ 2021-04-22 10:56 kakaok
阅读(190)
评论(0)
推荐(0)
2021年3月16日
js控制滚动条自动往下滑动
摘要: function() { var height = document.body.clientHeight; var number = 0; //控制结束累加器 var length = 0; //控制每次翻滚长度 var frequency = 5; //控制总时间 var time = setIn
阅读全文
posted @ 2021-03-16 18:15 kakaok
阅读(3103)
评论(0)
推荐(0)
2021年2月5日
Pandas导出Excel的时候出现openpyxl.utils.exceptions.IllegalCharacterError异常问题
摘要: 导入xlsxwriter 库 data = pd.DataFrame.from_records(results) data.to_excel(writer, sheet_name=sheet_title, columns=columns, engine='xlsxwriter', index=Fal
阅读全文
posted @ 2021-02-05 14:15 kakaok
阅读(1306)
评论(0)
推荐(0)
2020年12月14日
python拆分pubchem SDF文件
摘要: 从pubchem下载的sdf文件是一个压缩格式,一个sdf里面有多个化学物质,需要拆分开单独保存, 先将大的sdf拆分成一个个单独的sdf小文件,然后再读取每一行小文件的第一行获取CID编号 # coding=utf-8 def splitSDF(): file_name = "48600001_4
阅读全文
posted @ 2020-12-14 11:33 kakaok
阅读(2381)
评论(4)
推荐(0)
2020年10月21日
zlib压缩爬虫采集到的网页源码保存到mongodb减少存储空间
摘要: 1 mport zlib 2 import pymongo 3 4 def compress_html(infile,dst,level=9): 5 '''[summary] 6 7 [压缩文件] 8 Arguments: 9 infile {[string]} -- [输入文件路径] 10 dst
阅读全文
posted @ 2020-10-21 09:43 kakaok
阅读(292)
评论(0)
推荐(0)
2020年7月15日
openresty (lua-nginx_static_merger)合并css js文件 减少请求次数,提升页面速度
摘要: 网站访问速度优化,一般来说分为前端优化和服务端优化两个方面 这次通过openresty 将多个css、js文件的多次请求统一到一次请求中,就是说一个页面中引用的所有css文件只请求一次就可拿到,js文件同理 没合并请求之前 如下图 css 和js 请求耗时118毫秒 合并请求之后 如下图:css和j
阅读全文
posted @ 2020-07-15 15:31 kakaok
阅读(656)
评论(0)
推荐(0)
2020年2月24日
scrapy采集—爬取中文乱码,gb2312转为utf-8
摘要: 有段时间没怎么使用scrapy了,最近采集一个网页,发现网页编码是gb2312, 一开始就取搜索了下,发现各种操作都有,有在settings中设置 # FEED_EXPORT_ENCODING = 'utf-8'FEED_EXPORT_ENCODING = 'GB2312' 有在spider中设置r
阅读全文
posted @ 2020-02-24 14:38 kakaok
阅读(1817)
评论(1)
推荐(4)
2019年12月24日
不写代码的爬虫
摘要: 不写代码的爬虫,鼠标直接点一点,数据哗哗就来了,采集数据从来没有这么轻松过,对很多不懂代码编程的销售人员、网络运营、市场运营、网络编辑、SEO等等都可以轻松采集常见的大多数网站数据 博客园前5页话题数据采集案例, 特此记录下,以备不时之需 {"_id":"cnblogs","startUrl":["
阅读全文
posted @ 2019-12-24 10:51 kakaok
阅读(275)
评论(2)
推荐(0)
2019年12月2日
爬虫如何发现更多的url呢,怎么动态收集新的url连接
摘要: 大家在做爬虫采集数据的时候很多都会遇到增量采集的问题,有些时候是通过过滤url来进行的,有些是通过爬取网页后再进行分析判断, 以上这些过程也许大部分做爬虫的都会这么做,各位有没有想过, 除了以上的常用的方式还有没有其他的能够可以一次性批量获取先要的url连接地址呢? 自己做爬虫也有很多年了,前不久听
阅读全文
posted @ 2019-12-02 11:17 kakaok
阅读(984)
评论(0)
推荐(0)
2019年11月20日
pymysql 1064, 'You have an error in your SQL syntax; check the manual that corresponds to
摘要: 在python 连接mysql时,最近一直出现了 在execute的时候进行参数传递,可以正常入库了 以前都是将参数与sql处理好一起传入excute,没怎么用过在execute中传递参数,特意看了下execute的定义,args的类型可以是tuple,list,dict中的任何一种,如果参数类型不
阅读全文
posted @ 2019-11-20 11:15 kakaok
阅读(19803)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
11
下一页
公告