2017 年 11月 22 日随笔档案 - thinker1017

2017年11月22日

摘要：使用scrapy爬虫的时候，记录一下如何分布式爬虫问题：关键在于多台主机协作的关键：共享爬虫队列主机:维护爬取队列从机：负责数据抓取，数据处理，数据存储队列如何维护：Redis队列Redis 非关系型数据库，key-value形式存储，结构灵活。是内存中的数据结构存储系统，处理速度快，性能好提阅读全文

posted @ 2017-11-22 18:38 thinker1017 阅读(320) 评论(0) 推荐(0)

sparkStreaming统计各平台最近一分钟实时注册收入时间段，平台，金额，订单数

摘要：样例数据： __clientip=10.10.9.153&paymentstatus=0&__opip=&memberid=89385239&iamount=1&itype=16&oper_res=1&channeltype=8&__timestamp=1457252427&productid=11 阅读全文

posted @ 2017-11-22 14:36 thinker1017 阅读(474) 评论(0) 推荐(0)

利用HttpClient测试

摘要： import java.io.IOException;import java.security.cert.CertificateException;import java.security.cert.X509Certificate;import java.util.ArrayList;import 阅读全文

posted @ 2017-11-22 10:50 thinker1017 阅读(245) 评论(0) 推荐(0)

利用百度搜索爬取内容

摘要：首先说说HtmlUnit相对于HttpClient的最明显的一个好处, 是HtmlUnit不仅保存了这个网页对象，更难能可贵的是它还存有这个网页的所有基本操作甚至事件。现在很多网站使用大量ajax，普通爬虫无法获取js生成的内容。通过百度搜索，利用浏览器先渲染成网页，然后再解析生成的内容则方便了。代阅读全文

posted @ 2017-11-22 10:42 thinker1017 阅读(866) 评论(0) 推荐(0)

公告