2013.1.6

Posted on 2013-02-18 16:39  SnakeHunt2012  阅读(102)  评论(0)    收藏  举报

今天上午看了一上午的Emacs,在看正则搜索的时候书上说如果想对正则表达式做深入研究的 话请参考《sed & awk》,然后就搜了相关的一些资料,发现Unix上的正则表达式方案其实有挺多的,也可以用sed + awk + grep这种,还有的使用python,据说python是用来连接高级语言(Bash,Perl)和低级语言(C/C++,Java),好吧编程语言演化到现在连Java和C++都已经沦落到低级语言的地步了,可想而知这两年都发生了什么。的这段时间净是正则表达式主题相关,好吧今年就用正则表达式来开头吧。

回自习室之后继续看正则表达式,昨天晚上看到Unicode那里,其实SCIR的TM组在很大程度上底层处理都可以说使用这个当基础字符集合的。可以说自 然语言处理很依赖这个,比如说之前处理那个语料就一直头疼怎么用正则表达式匹配任意全角字符,后来还是用求补的办法来匹配语料实际内容的。至于那个正则表 达式匹配全角字符到现在还没找到方案。所以看来还非常需要专门调研一下Unicode这部分,包括Unicode本身的情况和Perl等文本处理工具对这 方面的支持。至少应该找到匹配任意全角字符的方法。