移除txt文本中不必要的换行符

前一阵子看到刘慈欣老师的《三体3》出版了,很是兴奋,就从网上找到了《三体2》的txt,准备重温一下(不买纸质书,为了环保,家里书太多太重,表鄙视偶)。

 

打开一看,发现都出版了几年了,怎么网上连个像样的盗版都没有,明显是从扫描版pdf上使用文字识别ocr工具抓下来的文字,正确率倒还挺好,但有很多不必要的换行符,让人看起来非常吃力(如图)

 

于是,就花时间自己写了个小工具,来实现不必要换行符的剔除。

 

 

 试了试,效果很不错

 

源码下载:/Files/blodfox777/LineBreak.rar

 

程序下载: /Files/blodfox777/换行移除.rar

 

 

 

 

posted @ 2010-12-06 14:02 LanceZhang 阅读(...) 评论(...) 编辑 收藏