会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一葉知秋
知道可以做什么样的人,是成长的基础。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
16
17
18
19
20
21
22
23
24
下一页
2015年6月18日
用几条shell命令快速去重10G数据
摘要: 试想一下,如果有10G数据,或者更多;怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理。如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select di...
阅读全文
posted @ 2015-06-18 18:17 秋楓
阅读(12255)
评论(9)
推荐(2)
2015年6月16日
如何让你的scrapy爬虫不再被ban之二(利用第三方平台crawlera做scrapy爬虫防屏蔽)
摘要: 前面我们介绍了scrapy爬虫防屏蔽的技巧,前面用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施来达到防屏蔽的效果。然而官方文档还提到了利用Google cache和第三方平台crawlera来做爬虫防屏蔽。本文章着重介绍下利用第三方平台crawlera来避免爬虫被ban的具体方法。
阅读全文
posted @ 2015-06-16 23:33 秋楓
阅读(17872)
评论(11)
推荐(2)
同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)
摘要: 如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运行多个spider。
阅读全文
posted @ 2015-06-16 16:27 秋楓
阅读(38615)
评论(11)
推荐(2)
2015年6月14日
如何让你的scrapy爬虫不再被ban
摘要: 现在很多网站设置了禁止爬虫抓取的策略,那如何让你的scrapy爬虫不在被禁用呢?本文章主要通过一系列的策略做到尽可能避免爬虫被ban。抓取的时候使用随机的user agent、禁用cookies、随机切换代理IP和下载延迟等等的策略来避免网站的反爬虫。
阅读全文
posted @ 2015-06-14 22:50 秋楓
阅读(40102)
评论(21)
推荐(15)
2015年6月12日
scrapy爬虫成长日记之将抓取内容写入mysql数据库
摘要: 前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的。这很显然不满足我们日常的实际应用,接下来看下如何将抓取的内容保存在常见的mysql数据库中吧。 说明:所有的操...
阅读全文
posted @ 2015-06-12 18:58 秋楓
阅读(26651)
评论(13)
推荐(4)
2015年6月10日
scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据
摘要: 在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。...
阅读全文
posted @ 2015-06-10 20:04 秋楓
阅读(13944)
评论(6)
推荐(5)
python将json格式的数据转换成文本格式的数据或sql文件
摘要: python如何将json格式的数据快速的转化成指定格式的数据呢?或者转换成sql文件?下面的例子是将json格式的数据准换成以#_#分割的文本数据,也可用于生成sql文件。[root@bogon tutorial]# vi json2txt.py #-*- coding: UTF-8 -*-imp...
阅读全文
posted @ 2015-06-10 15:35 秋楓
阅读(12768)
评论(0)
推荐(0)
shell脚本去重的几种方法
摘要: 测试文件[root@bogon ~]# cat >testjasonjasonjasonfffffjason按 Ctr + D保存1、sort -u[root@bogon ~]# sort -u testfffffjason2、uniq[root@bogon ~]# uniq testjasonff...
阅读全文
posted @ 2015-06-10 15:15 秋楓
阅读(21538)
评论(0)
推荐(1)
2015年6月6日
安装python爬虫scrapy踩过的那些坑和编程外的思考
摘要: 这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。然后就开干了,没想到的配置一个运行环境就花了我一天时间。...
阅读全文
posted @ 2015-06-06 21:07 秋楓
阅读(139201)
评论(9)
推荐(12)
2015年6月3日
【转】如何调试bash脚本
摘要: 本文转载自:http://coolshell.cn/articles/1379.htmlBash是Linux操作系统的默认Shell脚本。Shell是用来处理操作系统和用户交互的一个程序。Shell的脚本可以帮助用户自动化地和操作系统进行交互。你也可以理解为一种脚本式的编程。即然有编程,那么,程序的...
阅读全文
posted @ 2015-06-03 15:40 秋楓
阅读(475)
评论(0)
推荐(0)
【转】Linux Shell脚本调试技术
摘要: 本文转载自:https://www.ibm.com/developerworks/cn/linux/l-cn-shell-debug/Shell脚本调试技术本文全面系统地介绍了shell脚本调试技术,包括使用echo, tee, trap等命令输出关键信息,跟踪变量的值,在脚本中植入调试钩子,使用“...
阅读全文
posted @ 2015-06-03 15:38 秋楓
阅读(579)
评论(0)
推荐(0)
2015年6月2日
Linux shell脚本编程基础之练习篇
摘要: shell脚本编程基础之练习篇。1、编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息。#!/bin/bashif [ $# -ne 1 ]then echo "请输入一个参数" exitelse echo "参数正确" ...
阅读全文
posted @ 2015-06-02 23:04 秋楓
阅读(1984)
评论(0)
推荐(0)
sybaseIQ索引类型和使用注意事项
摘要: 1、 FP(Fast Projection)此索引为默认的索引形式,在创建表时系统自动设置此索引。 特点:用于SELECT、LIKE '%sys%'、SUM(A+B)、JOIN操作等语句。 此类型索引也是唯一可用于BIT数据类型的索引。 FP索引可以优化索引,将小于255的唯一值的索引压缩到1...
阅读全文
posted @ 2015-06-02 11:04 秋楓
阅读(834)
评论(0)
推荐(0)
kettle使用log4j管理输出日志
摘要: 在使用kettle进行数据分析和清洗时日志非常多而且杂乱,使用原有的日志有时找不到异常的位置,有时日志不够详细,说简单一点就是日志不是我们想要的。因而对kettle日志进行相应的管理就想得尤为重要了。大家都知道java最常用的日志管理包log4j可以很好地实现java日志的管理,然而kettle...
阅读全文
posted @ 2015-06-02 10:51 秋楓
阅读(10476)
评论(0)
推荐(0)
2015年5月31日
mysql主从复制实现数据库同步
摘要: mysql主从复制相信已经用得很多了,但是由于工作原因一直没怎么用过。趁着这段时间相对空闲,也就自己实现一遍。尽管互联网上已有大把类似的文章,但是自身实现的仍然值得记录。环境:主服务器:centos 6.0 mysql 5.1.67-log IP:192.168.0.107从服务器:centos...
阅读全文
posted @ 2015-05-31 18:32 秋楓
阅读(68715)
评论(2)
推荐(5)
上一页
1
···
16
17
18
19
20
21
22
23
24
下一页
公告