会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Phinehasz Zhi
超越你看到的
超越你所看到的
https://github.com/phinehasz
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
2018年5月20日
爬虫入门(二)用webmagic爬豆瓣豆列的尝试(解决403等常见问题)
摘要: webmagic学习资料:http://webmagic.io/docs/ 原本爬虫的计划是去扒b站的,结果发现b站是js动态加载的,所以先对豆瓣进行尝试,练一下手. 整个项目核心是DoubanProcessor的这个类,继承了webmagic的PageProcessor 其他是自己实现数据库持久化
阅读全文
posted @ 2018-05-20 20:01 phinehasz
阅读(2577)
评论(1)
推荐(0)
2018年5月19日
静态代码扫描工具PMD定制xml的规则(一)操作篇
摘要: 0.前言 PMD作为开源的静态代码扫描工具有很强的扩展能力,可使用java或xpath定制rule.第一篇从操作上讲解如何定制一个用于扫描xml是否规范的规则.首先我们知道xml格式的文件在java工程里往往用于配置文件,像web的ssm框架里的applicationContext.xml或者是sq
阅读全文
posted @ 2018-05-19 16:03 phinehasz
阅读(3567)
评论(0)
推荐(0)
2018年5月17日
爬虫入门(一)基于webmagic理解爬虫原理及核心业务逻辑
摘要: 0.爬虫逻辑 一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 核心步骤: 下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 在webmagic里分为四部分 Downloader、PageProcessor、Scheduler、Pipe
阅读全文
posted @ 2018-05-17 22:58 phinehasz
阅读(364)
评论(0)
推荐(0)
2018年5月14日
VM虚拟机链接克隆及linux eth0网卡的快速设置方法
摘要: 对于后台开发者来说,在学习过程中必然接触众多中间件,在自己的虚拟机进行操作甚至搭建cluster是很常见的事情. 我在初学者时摸索出一套快速的克隆虚拟机方法.分享给大家. 产品VMware® Workstation 版本10.0.2 build-1744117 这是我的虚拟机命名,我觉得这样的命名比
阅读全文
posted @ 2018-05-14 23:00 phinehasz
阅读(448)
评论(0)
推荐(0)
上一页
1
2
3
4
公告