Ruby中Yomu包从word,execl,pdf中读取文字

这几天一直在处理各种pdf文档,对于那些可以从pdf中复制出来的文字,我都是先手动把文字从pdf中复制出来,然后再用程序处理他的格式以及相关信息,但是一个程序员怎能采取如此笨的方法呢,今天无意间发现ruby有一个yomu的它可以从这些文档中华获取文字,格式很乱,还需要后期的处理,下面就来看看yomu如何从这些文档中获取文字。

  • 从给定的文件名中来读取文字(用的最多的方式)
requier "yomu"
yomu = Yomu.new 'sample.pages'
text = yomu.text
  • 从url中获取文字(这个我还没有试过)
require "yomu"
yomu = Yomu.new 'http://svn.apache.org/repos/asf/poi/trunk/test-data/document/sample.docx'
text = yomu.text

官方文档说的是必须要有一个可以运行的jre,里面有一些是java的包,需要jre才可以运行
以上这些都是我浅略的理解,后续还会更新,欢迎指正

posted @ 2017-05-24 08:01  -梦里不知身是客  阅读(779)  评论(2编辑  收藏  举报