会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
WangHello
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
下一页
2019年1月17日
win10安装redis以及安装redis碰到的一些小问题
摘要: 自己也写了一个爬虫框架,最近在使用scrapy爬虫框架,发现爬小型的还是可以的,但是爬大型的一些网站,感觉使用起来还是不太行的,就考虑这边用scrapy+redis采用分布式爬虫。废话不多说,我们来安装redis,其实很easy。 第一步:https://github.com/tporadowski
阅读全文
posted @ 2019-01-17 14:35 WangHello
阅读(2792)
评论(0)
推荐(0)
2018年12月18日
python3.6+scrapy下载一个网站全部产品网页的源码
摘要: scrapy 一个很好用的python爬虫框架 开发环境:python3.6 + centos 7 安装scrapy: pip install scrapy 爬虫网站: http://www.bsriceones.ga 首先我们创建一个工程: 然后 我们cd bsriceones 进入这个工程,在改
阅读全文
posted @ 2018-12-18 15:51 WangHello
阅读(1774)
评论(0)
推荐(0)
2018年11月22日
python+selenium+appium遇到的环境问题(已解决)
摘要: 手机自动化实现,刚刚开始进行环境配置的时候,但是一般人都会遇到两个问题。 第一个问题解决: 第二个问题解决: 以上这两个问题解决了,也就好办啦!
阅读全文
posted @ 2018-11-22 09:24 WangHello
阅读(701)
评论(0)
推荐(0)
2018年11月13日
python的scrapy框架学习ing
摘要: 大家可能都会爬虫,可能都有各自的爬虫工具,但是我觉得如果要靠爬虫吃饭,python的scrapy这个框架还是需要学习一下的,这两天看了一下这个文档,发现效率还是不错的,分布式爬虫,代码量还很少的,效率还是很高的。 开发平台:centos 7 python版本:python3.6 第一步:要使用这个第
阅读全文
posted @ 2018-11-13 17:17 WangHello
阅读(301)
评论(0)
推荐(0)
2018年10月18日
爬虫分页信息的获取(ruby+selenium python+selenium)
摘要: 在爬虫的时候,我们会遇到一些问题,即使获取到全文的url,但是可能page的连接获取不完整,就会导致我们爬虫的时候,比如说爬商品信息,就会拿不完整商品信息。 页面信息大概有这两种情况: 第一种: 1,2,3,4,5,...,next,last 第二种: 1,2,3,4,5,> 实现语言:ruby o
阅读全文
posted @ 2018-10-18 11:46 WangHello
阅读(1282)
评论(0)
推荐(0)
2018年10月12日
使用ruby爬虫提取数据的特殊字符以及乱码(已解决)
摘要: 情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢 首先 我们 gem install htmlentities 安装这个gem ,下面看这个例子 再看一个例子 情况二:有些编码是ASCII-8
阅读全文
posted @ 2018-10-12 10:27 WangHello
阅读(679)
评论(0)
推荐(0)
2018年9月20日
Android 注册登入界面完美设计
摘要: 今天没啥事情做,就想着复习复习android,不然快把android给忘记了,于是乎就干起来。边学边复习边做做,正好我手上有一些自己爬虫的数据,想着没事干的时候可以做做一个小商城,当作练练手。 开发环境:android studio,win10 首先在google地址栏输入android dev t
阅读全文
posted @ 2018-09-20 14:29 WangHello
阅读(38704)
评论(2)
推荐(1)
ruby之selenium自动化 or ruby爬虫利器-selenium
摘要: selenium是什么?自动化测试工具,他支持各种浏览器,chrome,firefox等,我们可以在这些浏览器里面安装插件,可以方便的进行web测试,也可以通过代码操作,直接对web界面进行测试。 selenium支持多种语言开发java、python、ruby、c#、js、php等。这边,我用的是
阅读全文
posted @ 2018-09-20 10:33 WangHello
阅读(1787)
评论(0)
推荐(0)
2018年9月14日
tomcat的startup.bat闪退问题解决
摘要: 从官网下载一个免安装的tomcat,我把它解压在E盘,配置了环境变量:CATALINA_HOME、CATALINA_BASE、TOMCAT_HOME 为 tomcat的解压路径 进入解压tomcat的bin目录,执行startup.bat,出现闪退。 然后win+R 输入cmd 进入解压tomcat
阅读全文
posted @ 2018-09-14 17:17 WangHello
阅读(6182)
评论(0)
推荐(0)
2018年9月13日
抓产品,采用多进程--perfect
摘要: 前段时间发现单进程爬虫实在是太慢太慢,有时候一天也不一定爬的完,后面就考虑到用多进程,写好程序后,试试看,速度666的。废话不多说,直接干活。 我是用的语言是ruby(当然python也是可以的,我这边就不贴python的,这边我们说ruby的),socket这边我才用udp通讯,因为tcp速度上会
阅读全文
posted @ 2018-09-13 10:03 WangHello
阅读(244)
评论(0)
推荐(0)
上一页
1
2
3
4
下一页
公告