Docbook XML文件前置处理Perl程序,解决回车,空格等等影响FOP排版输出的问题

Docbook的中文问题果然层出不穷,现在都有点后悔采用Docbook格式写论文了,下面一段Perl程序通过删除<para></para>标签下的所有空格和换行符,试图解决FOP中文回车、空格影响排版输出的问题。

同时,程序还会自动保持<![CDATA[ ]]>原始数据原样不变,支持在<footnote>标记内嵌套<para>标记等等特点,总之是论文必备

不过即使这样,FOP还是会傻傻的把中文标点放在行首,这个问题挺麻烦的,可能是<xsl:param name="hyphenate">false</xsl:param>惹得祸,但是如果启用docbook-xsl又会报Couldn't find hyphenation pattern错……,不过这个问题可以通过使用商业的XEP解决,个人版还是免费的,也直接支持中文宋体(不必改cn-ZH为cn了)。

不管如何,现在起码我不用把<para></para>一段文字写成一行了,Oxygen XML 编辑器只要启用text wrap自动折行就不再同时提供代码折叠功能,而没有代码折叠,又必须采用<!ENTITY preface SYSTEM "preface.xml">来管理长文档,一旦采用,preface.xml就作为实体,做不到实时文件架构验证了,我肯定不愿意放弃Oxygen XML Editor的实时验证文档功能,那就只有采用新的XInclude方法了,但是FOP自带的Xalan 2.7.0 XML XSLT引擎目前似乎还没开始支持这个XInclude功能……

# Used for pre-format the Docbook for fix Chinese FO XSL problem in docbook-xsl
# Eric Guo <eric.guocz _@_ gmail.com>, GPL v2 Lincense
#!/bin/env perl

use strict;
use warnings;
use utf8;

open(F, $ARGV[0]) or die "Can't open file $ARGV[0]: $!\n";

my $in_book = 0;
my $in_para = 0;
my $in_cdata = 0;
  
READLINE:
while (<F>)
{
  
if ($in_book == 0)
  {
      
if(/<book>/)
      {
          
$in_book = 1;
      }
      s
#http://www.docbook.org/xml/(.*)/docbookx\.dtd#../docbook-xml-$1/docbookx\.dtd#;
      print $_;
  }
    
else {
        
if(/<!\[CDATA\[/)
        {
            
$in_cdata = 1;
        }
        
if(/\]\]>/)
        {
            
$in_cdata = 0;
        }
        
        
if($in_cdata == 0)
        {
            s
/^\s+//;
            s
/\s+$/\n/;
            
if(/<para>/)
            {
                
$in_para += 1;
            }
            
if(/<\/para>/)
            {
                
$in_para -= 1;
            }
            
            
if($in_para == 0)
            {
                
print $_;
            
next READLINE;             
            }
            
else
            {
                
chomp $_;
                
print $_;
            
next READLINE
            }
        }
        
else
        {
                
print $_;
            
next READLINE
        }
    }
}
posted @ 2007-02-27 04:56 丁丁 阅读(477) 评论(3)  编辑 收藏 所属分类: 其他技术

  回复  引用  查看    
#1楼 2007-02-27 09:59 | JesseZhao      
呵呵,下学习我写论文的时候也用
  回复  引用  查看    
#2楼 [楼主]2007-03-11 04:11 | 丁丁      
嗯,现在已经渐渐习惯Docbook的用法了,一定要用oXygen XML Editor,否则光打docbook的<para>标记估计已经够累的了。等论文搞定了我会再写一篇如何使用Docbook写论文的文章的。
  回复  引用    
#3楼 2008-01-11 11:28 | leonzhu211 [未注册用户]
使用 xmlmind xml editor
可视化编辑 docbook,超好用。

标题  
姓名  
主页
Email (博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  博客园首页

  新闻频道

  社区

  小组

  博问

  网摘

  闪存

  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2007-03-05 03:42 编辑过


相关链接: