摘要: 做爬虫,当然就要用数据。想拿数据进行分析,首先清洗数据。这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的。 从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/2 阅读全文
posted @ 2017-07-31 18:39 DGUT_FLY 阅读(4179) 评论(0) 推荐(0)
摘要: 新浪微博的消息还是很多的,值得弄个账号去爬。不过都有账号了,还需要特意再搞一个吗? 直接上去跟踪。分别使用www和wap端登录: wap端相对简单,form表单都没有用到前面传的数据。但是我看到表单时,差点TM把水喷出来了 (password为了防止泄密已涂,还有上面的属性也是空字符串不用看了)不止 阅读全文
posted @ 2017-07-28 18:43 DGUT_FLY 阅读(244) 评论(0) 推荐(0)
摘要: 经过上一次的实战,手感有了,普罗西(雾)池也有了,再战taobao/tmall 试着使用phantomJS爬手机端,结果发现爬来的tmall页面全是乱码,taobao页面xpath识别错误。一顿分析了之后才发现:TMD我的python2会把编码搞乱,phantomJS不支持手机独有的tap()操作! 阅读全文
posted @ 2017-07-21 18:48 DGUT_FLY 阅读(496) 评论(0) 推荐(0)
摘要: 淘宝那次抓包,居然发现不了要抓的url位置,三星中。。。 不过不怕,不就是没法快点分析出包嘛,下次用phantomJS硬杠,或者有时间慢慢分析也好。 今天挑战一个稍微好爬的网站:狗搬家(误) 打开后台代码一看,山口山 一堆<p style="display:none;">直接影响分析数据。 有个运用 阅读全文
posted @ 2017-07-19 18:26 DGUT_FLY 阅读(1836) 评论(0) 推荐(0)
摘要: 没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御,直接scan就可以了; 尚妆网:进这个网站时才发现,这和说好的不一样!!!这个网站也是采用了拖动到底 阅读全文
posted @ 2017-07-18 19:03 DGUT_FLY 阅读(4543) 评论(0) 推荐(0)
摘要: 上次完成了MVPtree之后,客户又提出了MVPtree点集元素重复的问题,希望我将元素去重。 集合去重哪家强?java.util找HashSet!如果不计较元素顺序,放进去基本就没有重复元素了。 只是这样的话就要重写equals()和hashCode()函数(方法)。因为equals()默认是比较 阅读全文
posted @ 2017-05-21 21:27 DGUT_FLY 阅读(392) 评论(0) 推荐(0)
摘要: 项目需要,需要把MVPtree这种冷门的数据结构写入Java,然网上没有成形的Java实现,虽说C++看惯了不过对C++实现复杂结构也是看得蒙蔽,幸好客户给了个github上job什么的人用Java写的VPtree,大体结构可以嵌入MVPtree。 对于MVPtree的其他信息请左转百度= =本文只 阅读全文
posted @ 2017-05-21 20:50 DGUT_FLY 阅读(383) 评论(0) 推荐(0)
摘要: 严格来说我们飞跃队是去年ECFinal之后就退役的,只是这几个月有一堆事情在那,考研的考研,求职的求职,都把博客晾一边了。现在,总算能写点东西了。 我与ACM-ICPC的结缘,是从大一开学1个多月后开始的。 那时我还是个游戏废人,对学校的课程也是很不在意,大概就跟普通的废宅差不多。如果不是那次的奇缘 阅读全文
posted @ 2017-05-19 16:42 DGUT_FLY 阅读(407) 评论(0) 推荐(1)
摘要: A.小Hi和小Ho的礼物 谜之第1题,明明是第1题AC率比C还要低。题目是求在n个不同重量袋子选4袋,2袋给A,2袋给B,使2人获得重量相同,求问方案数。 我也是一脸懵b。。。o(n2)暴力枚举发现把第i行列和第j行列去掉,再求剩下的a[i]+a[j]数就是解 用容斥,要把(i,i)(i,j)(j, 阅读全文
posted @ 2017-04-16 16:08 DGUT_FLY 阅读(147) 评论(0) 推荐(0)
摘要: 第一次做这种比赛,被自己坑的好惨。。。 A.这道题的关键其实是如果有k和n满足kD+F>nL>kD则不能走无限远,分支看似难整理,其实比较简单,F>L根本就不用算了,明摆着就是Bsi强迫症的 L和D有倍数约数关系的也比较简单 剩下的就可以规约为kD%L>L-F,如果有k能让此式成立,那强迫症就被Bs 阅读全文
posted @ 2017-03-05 16:13 DGUT_FLY 阅读(193) 评论(0) 推荐(0)