上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页
摘要: username = 'xxxxxxxx' pwd = 'xxxxxxxx' user_pwd = pika.PlainCredentials(username, pwd) s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd)) chan = s_co... 阅读全文
posted @ 2019-06-20 08:37 淋哥 阅读(874) 评论(0) 推荐(0)
摘要: 人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?) 转载自:管理晨读 原文链接:https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg 作者|张瑞敏 来源|人民日报 这个社会有很多的成年人,还没有脱离幼 阅读全文
posted @ 2019-05-31 09:10 淋哥 阅读(776) 评论(0) 推荐(1)
摘要: 需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊, 想到用 xpath helper 作为一个临时的替补方案; 第一步:下载 安装 谷歌 xpath helper 这个插件 chrome插件XPath 阅读全文
posted @ 2019-05-28 10:33 淋哥 阅读(4794) 评论(0) 推荐(0)
摘要: 登录链接:https://yunpan.360.cn/mindex/login 这是一个md5 加密算法,直接使用 md5加密即可实现 本文讲解的是如何抠出js,运行代码 第一部:抓包 如图 第二步:调试,打断点; 第三步:找到js,扣出来; 第四部:运行js文件; 附js源码: 这是一个非常简单的 阅读全文
posted @ 2019-05-23 15:33 淋哥 阅读(1654) 评论(0) 推荐(0)
摘要: 第一步: 模拟抓包分析加密参数 第二步: 找到加密字段 调试出来的sign和抓取得到的数据一致,都是 275626.55195 第三部: 分析js加密方法 第四部:运行js代码; 仅供交流学习使用 阅读全文
posted @ 2019-05-16 11:33 淋哥 阅读(2306) 评论(6) 推荐(0)
摘要: 直接上代码: 输出结果是: 阅读全文
posted @ 2019-04-17 11:52 淋哥 阅读(6565) 评论(0) 推荐(1)
摘要: 4月11日上午,陕西高院在汉中市中级人民法院刑事审判法庭公开开庭审理上诉人张扣扣故意杀人、故意毁坏财物一案。东方网·纵相新闻现场直播,带您直击庭审。 邓学平结合案件证据、事实和相关法律,补充发表辩护意见。 一,23年前的案件是本案发生的直接诱因 邓学平认为,1996年张扣扣母亲被伤害致死一案,存在以 阅读全文
posted @ 2019-04-12 18:25 淋哥 阅读(1288) 评论(0) 推荐(0)
摘要: 1.第一种方法:使用geometry参数进行调整 vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是* 2.第二种方法:修改配置文件vncservers [root@secdb 阅读全文
posted @ 2019-04-11 22:06 淋哥 阅读(25860) 评论(0) 推荐(0)
摘要: 单表40G,不要吃惊,还能往里面插入数据,哈哈 上图: 阅读全文
posted @ 2019-04-09 15:03 淋哥 阅读(528) 评论(1) 推荐(0)
摘要: (function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.in 阅读全文
posted @ 2019-04-04 10:21 淋哥 阅读(474) 评论(0) 推荐(0)
摘要: 问题:有一个300w行的文件,需要给他去重,有什么好的方法,前提是速度要快。 我的实现方式是: 1 .文件读取到内存中 2.在内存中去重 3.插入到MySQL中去。 300万行数据,实现去重只需要80秒 想提高插入速度可以批量插入和 并发 插入数据。 直接上代码: 注意事项: 程序在内存中的处理速度 阅读全文
posted @ 2019-03-13 15:09 淋哥 阅读(825) 评论(0) 推荐(0)
摘要: 如何保证可用ip不低于2000个,代理ip池优化策略 第一:获得大量ip; 第二:验证可用ip; 第三:监控可用ip; 第三:保证可用ip不低于3000或者5000; 截图是实时可用ip数量 心得:不要用什么 VPS虚拟主机拨号 或者 ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用 阅读全文
posted @ 2019-02-27 13:43 淋哥 阅读(697) 评论(2) 推荐(0)
摘要: 在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。 常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。 阅读全文
posted @ 2019-02-21 14:51 淋哥 阅读(8071) 评论(3) 推荐(6)
摘要: 我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。 破解方法:不停更换snuid 阅读全文
posted @ 2019-02-14 14:00 淋哥 阅读(2668) 评论(0) 推荐(0)
摘要: MYSQL单表可以存储多少条数据??? 单表存储四千万条数据,说MySQL不行的自己打脸吧。 多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。 至于后期的处理需要查询,完全可以用ES或者其他的数据库。 阅读全文
posted @ 2019-02-14 09:49 淋哥 阅读(23785) 评论(0) 推荐(2)
摘要: 进程 不共享任何状态 调度由操作系统完成 有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大) 通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低) 不共享任何状态 调度由操作系统完成 有独立的内存空间 阅读全文
posted @ 2019-01-28 11:02 淋哥 阅读(3493) 评论(0) 推荐(0)
摘要: https://www.elastic.co/downloads/elasticsearch http://www.cnblogs.com/xuxy03/p/6039999.html https://blog.csdn.net/camelcanoe/article/details/79528265 阅读全文
posted @ 2019-01-08 15:42 淋哥 阅读(676) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-01-03 14:17 淋哥 阅读(2299) 评论(0) 推荐(0)
摘要: 频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池 阅读全文
posted @ 2018-12-29 11:39 淋哥 阅读(20034) 评论(1) 推荐(0)
摘要: 前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法 第一步:关键词搜索 1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。 2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新 阅读全文
posted @ 2018-12-26 19:20 淋哥 阅读(1370) 评论(0) 推荐(0)
摘要: 最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成就。 阅读全文
posted @ 2018-12-20 09:39 淋哥 阅读(370) 评论(0) 推荐(1)
摘要: 输出结果: 阅读全文
posted @ 2018-12-04 15:16 淋哥 阅读(5432) 评论(0) 推荐(1)
摘要: 所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。 阅读全文
posted @ 2018-12-03 14:46 淋哥 阅读(2939) 评论(0) 推荐(0)
摘要: 原始代码: 报错内容是: 解决办法: 阅读全文
posted @ 2018-11-27 17:54 淋哥 阅读(1720) 评论(0) 推荐(0)
摘要: 使用示例: 数据表中的pubTime 列的时间格式我们只想去年月日,去掉时分秒,如果实现呢 一个sql语句就实现了这个功能,强大不? 阅读全文
posted @ 2018-11-21 11:04 淋哥 阅读(5487) 评论(0) 推荐(0)
摘要: (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1") 针对MySQL的这个错误, 第一种方法是 : set names utf8mb4; SET 阅读全文
posted @ 2018-10-19 10:50 淋哥 阅读(1366) 评论(0) 推荐(0)
摘要: from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M') elif "分钟" in publish_time: minute = publis... 阅读全文
posted @ 2018-10-19 09:28 淋哥 阅读(1206) 评论(0) 推荐(0)
摘要: Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。 解决办法是加入 producer.stop() 完整代码是: 其中 data是推送到kafka中的数据 阅读全文
posted @ 2018-10-08 13:53 淋哥 阅读(3017) 评论(0) 推荐(0)
摘要: 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是: 爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认 阅读全文
posted @ 2018-09-26 11:08 淋哥 阅读(1900) 评论(0) 推荐(1)
摘要: 一: 问题描述: 爬虫微博 信息,出现302跳转, 比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1) 然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001 阅读全文
posted @ 2018-09-21 18:42 淋哥 阅读(7082) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页