摘要: shell实现trim函数效果去除字符串两侧的空格,以下三个命令等价,都能实现 sed 's/^\s*//' totrim.txt |sed 's/\s*$//'>trimed.txt sed 's/^\s*//;s/\s*$//' totrim.txt>trimed.txt sed -e 's/^\s*//' -e 's/\s*$//' totrim.txt>trimed.txt 主要就是利用正则表达式,^\s*表示字符串前面的零个或多个空格,\s*$表示字符串后面的零个或多个空格。 阅读全文
posted @ 2016-03-15 20:04 morein2008 阅读(9278) 评论(0) 推荐(0)
摘要: 对于txt文本类数据,优先采用shell脚本,实在不行才用Python,Java,MySQL 1) Shell命令行或脚本的处理速度极快,比Java快得多。 2) Shell代码量少,几个命令就能完成Python几十行、Java上百行代码的工作,例如 $ cut -f 2 data.txt | so 阅读全文
posted @ 2016-03-15 18:33 morein2008 阅读(670) 评论(0) 推荐(0)
摘要: 当只有一个匹配条件时:egrep pattern file等价于grep -E pattern file 例如: 当多个匹配条件时,只能用egrep -e pattern1 -e pattern2 -e pattern3... filename,而不能用grep -e pattern1 -e pat 阅读全文
posted @ 2016-03-15 18:11 morein2008 阅读(217) 评论(0) 推荐(0)
摘要: 对于千万行级别的数据,处理起来非常麻烦,例如有一个文件a.txt,大小超过2GB,共2000多万行,每行是一个新闻的相关信息,其中有一列为新闻标题,字符串型,新闻标题较长,现需要对新闻标题进行聚类,将类似标题的新闻归为一类,并将其中代表性的标题作为这一组新闻的标题。 例如"海量数据处理经验交流会今天 阅读全文
posted @ 2016-03-09 13:07 morein2008 阅读(614) 评论(0) 推荐(0)
摘要: 基本方法: String filePath="D:\\test\\abc.txt"; BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath))); String data = 阅读全文
posted @ 2016-03-08 11:16 morein2008 阅读(203) 评论(0) 推荐(0)
摘要: 有时候读取同一个url,服务器可能会返回不同的response,并不是爬虫程序代码的问题,而是服务器的问题,初次试验request时,最好把response文本保存在一个txt文件当中,以便后续的比对。得到response文本之后就可以利用正则表达式或通过查找字符串来获取信息了。 只做get请求时,requests.get(url)和urllib.open(url).read()效果是相同的。 要熟练使用requests库或urllib2库,做get,post请求数据,设置参数,获取head及body。(待续) 阅读全文
posted @ 2016-03-07 19:39 morein2008 阅读(183) 评论(0) 推荐(0)
摘要: Java字符串的split方法可以分割字符串,但和其他语言不太一样,split方法的参数不是单个字符,而是正则表达式,如果输入了竖线(|)这样的字符作为分割字符串,会出现意想不到的结果, 如, String str="中国|广东|深圳"; String[]location=str.split("|" 阅读全文
posted @ 2016-03-07 16:44 morein2008 阅读(218) 评论(0) 推荐(0)
摘要: String emailRegex = "^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$"; Pattern pat = Pattern.compile(emailRegex); Boolean matchFlag = pat.matcher 阅读全文
posted @ 2016-03-03 20:10 morein2008 阅读(149) 评论(0) 推荐(0)
摘要: 1 package javatest; 2 3 import java.io.File; 4 import java.util.ArrayList; 5 import java.util.regex.Pattern; 6 7 class FileUtils 8 { 9 public static v 阅读全文
posted @ 2016-03-03 19:53 morein2008 阅读(652) 评论(0) 推荐(0)
摘要: 测试表geoinfo,整个表超过1100万行,表结构:CREATE TABLE `geoinfo` (`objectid` int(11) NOT NULL AUTO_INCREMENT ,`latitude` double NOT NULL ,`longitude` double NOT N... 阅读全文
posted @ 2016-01-27 12:19 morein2008 阅读(368) 评论(0) 推荐(0)