摘要: 前一阵子看到刘慈欣老师的《三体3》出版了,很是兴奋,就从网上找到了《三体2》的txt,准备重温一下(不买纸质书,为了环保,家里书太多太重,表鄙视偶)。打开一看,发现都出版了几年了,怎么网上连个像样的盗版都没有,明显是从扫描版pdf上使用文字识别ocr工具抓下来的文字,正确率倒还挺好,但有很多不必要的换行符,让人看起来非常吃力(如图)于是,就花时间自己写了个小工具,来实现不必要换行符的剔除。试了试,效果很不错源码下载:/Files/blodfox777/LineBreak.rar程序下载:/Files/blodfox777/换行移除.rar阅读全文
posted @ 2010-12-06 14:02 LanceZhang 阅读(7247) 评论(11) 编辑