Lucene学习笔记(4)将M$Word转为HTML
后面是一些关于Luncene外围的工具,这是其中之一。
Majix利用jacob,将M$Word转换为xml,进而转换为html.
试了一下,对英语文档没问题,对汉语的却转换成了乱码,估计是那些地方需要设置一下。
Majix中用了一个tool叫jade(如果你认为是反编译的那个jad就错了,hehe),是一个DSSSL的实现,可以做XML、RTF、TeX、MIF、SGML的转换。
Jacob既然是Java与Com之间的桥梁,则可以乐观地预测M$的所有文档,都有可以转换了,至少抽取其内容应该问题不大吧。
突然感觉很迷惘,让Majix彻底把我搞糊涂了。Majix本身很简单,可其中用了不少XML技术(也叫技术吧),一时搞不清它们之间的关系了。看来,虽然自觉XML比较熟悉了,其实还是欠火侯,抽空再去IBM学习学习了
引自 竹笋炒肉

浙公网安备 33010602011771号