摘要: 1.需求 在数据清洗(ETL),日志文件分析,分隔符信息提取时,我们都会遇到如下常见的文本数据: 中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼 中楼层/23层,南北,通惠南路6号,2003年建,板楼 中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼- 一个常见的处理思 阅读全文
posted @ 2016-03-07 11:19 FerventDesert 阅读(6543) 评论(1) 推荐(1) 编辑
摘要: 购买kindle之后,自然欣喜万分,不来自于工具本身,而来自于发现自己能够静下心来阅读长篇和复杂的文字了,可喜可贺。更重要的是,kindle减轻了我眼睛的莫大的压力。但马上就出现几个问题: 不是所有的电子书都有kindle,最常见的是扫描PDF 大量的论文无法阅读,这和上面的问题一致 网络上很多精彩 阅读全文
posted @ 2016-03-07 10:33 FerventDesert 阅读(11900) 评论(4) 推荐(4) 编辑
摘要: 描述数据最常见的结构是平面表格,数据库,Excel,CSV都是典型的表格。表格是扁平结构,理解起来简单,能方便的增删改查。 下面是一个典型的表格: 从上面的表格,明显能看出表格的缺陷: 所有的子项都是平级的,无法描述它们内在的结构 列名很重要,否则很难确定其语义,这和第一条相辅相成 在数据深度上进行 阅读全文
posted @ 2016-03-07 09:57 FerventDesert 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 计算机和人的最大区别在于,人具备彻底的学习和强大的联想能力,而计算机则不同,只能在程序员给定的框架内进行简单的学习(与其说是学习,不如说是参数微调)。人类可以很容易的发现特有的模式,比如看下面几个例子: 然而,如此简单的模式,计算机却无法发现,但如果能让计算机学习这种模式,那无疑是非常有价值的。我们 阅读全文
posted @ 2016-03-07 08:59 FerventDesert 阅读(3421) 评论(0) 推荐(2) 编辑