随笔分类 -  大文本处理

摘要:删除文件 text中第一列 方式一 awk '{$1="";print $0}' text 方式二 sed -e 's/[^ ]* //' text 阅读全文
posted @ 2017-09-23 14:58 朽木自雕也 阅读(6496) 评论(0) 推荐(0)
摘要:栗子文本如下: WIN下打开 使用第三方工具打开,可以看见空行,换行符号\r 现在我们使用命令,去掉空白行 方法一:利用grep grep -v '^\s*$' test.txt 注:-v表示将匹配的结果进行反转,正则表达式匹配空行。(空行可包括空格符制表符等空白字符) 方法二:利用sed sed 阅读全文
posted @ 2017-09-22 11:02 朽木自雕也 阅读(243) 评论(0) 推荐(0)
摘要:从网络收集的文本各种各样,难免有垃圾数据,每行长度不一样,由于垃圾数据,导致导入MYSQL的时候导入速度缓慢,对导入缓慢的文本可以使用文本软件打开看看里面是否包含一些空白行 如图 处理办法 对最后去重后的文件进行fold 限制每行长度为300 将一个名为testfile 的文件的行折叠成宽度为300 阅读全文
posted @ 2017-09-19 11:07 朽木自雕也 阅读(268) 评论(0) 推荐(0)
摘要:1.打开Cygwin,把需要处理的文本复制你的安装目录例如:D:\cygwin\home\Administrator 使用 ls命令查看根目录文件 2.现在我们就可以对1.txt文本进行操作, 3.我常用到命令 【Sort排序功能】 1.指定列正向排序 对文本第一列排序 默认TAB分割 对文本第二列 阅读全文
posted @ 2017-08-17 20:01 朽木自雕也 阅读(686) 评论(0) 推荐(0)
摘要:sort sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序。 sort语法 [root@www ~]# sort [-fbMnrtuk] [file or stdin] 选项与 阅读全文
posted @ 2017-08-17 15:31 朽木自雕也 阅读(376) 评论(0) 推荐(0)
摘要:1.虚拟光驱的安装 虚拟光驱下载 一路下一步,不再阐述,这些广告选项不要选 2.安装文档,双击ISO文档 ISO下载地址 链接:http://pan.baidu.com/s/1miFVCYO 密码:z2n1 3.载入 4.Setup.exe 安装 5.选择第三个,本地安装 6.选择安装路径 7.选择 阅读全文
posted @ 2017-08-17 15:09 朽木自雕也 阅读(354) 评论(0) 推荐(0)