摘要:在.NET平台下如何不使用Interop方式(即不借助Office软件)读取Office文档的内容,讲述了微软Office文档的存储结构及解析的方式,读取Office文件的文档摘要信息以及文档文本内容。本文为最后一篇,介绍Office Open XML格式,并介绍如何将Word(.docx)、PowerPoint(.pptx)文字抽取出来以及常见的.NET开源Office文档类库。 阅读全文
posted @ 2013-04-01 23:19 大魔王mAysWINd 阅读(12367) 评论(13) 推荐(20) 编辑
摘要:在.NET平台下如何不使用Interop方式(即不借助Office软件)读取Office文档的内容,讲述了微软Office文档的存储结构及解析的方式,读取Office文件的文档摘要信息以及文档文本内容。本文为第三篇,详细介绍Windows复合文档中的FAT、DIFAT和MiniFAT,介绍如何将PowerPoint文件(.ppt)中存储的文字抽取出来。 阅读全文
posted @ 2013-03-31 01:33 大魔王mAysWINd 阅读(6269) 评论(17) 推荐(31) 编辑
摘要:在.NET平台下如何不使用Interop方式(即不借助Office软件)读取Office文档的内容,讲述了微软Office文档的存储结构及解析的方式,读取Office文件的文档摘要信息以及文档文本内容。本文为第二篇,介绍如何将Word文件(.doc)中存储的文字抽取出来。 阅读全文
posted @ 2013-03-25 21:14 大魔王mAysWINd 阅读(7221) 评论(57) 推荐(17) 编辑
摘要:在.NET平台下如何不使用Interop方式(即不借助Office软件)读取Office文档的内容,讲述了微软Office文档的存储结构及解析的方式,读取Office文件的文档摘要信息以及文档文本内容。本文为第一篇,介绍了如何解析文档的摘要内容(DocumentSummaryInformation和SummaryInformatin)。 阅读全文
posted @ 2013-03-17 22:30 大魔王mAysWINd 阅读(24862) 评论(78) 推荐(99) 编辑
摘要:在VC++ 4.2到VC++ 6.0中,使用老式的iostream库(即iostream.h)时,并使用cout输出内容时缓冲区可能会出现不能及时输出的BUG以及解决办法。推荐还在使用VC++ 6.0并喜欢使用iostream.h的同学看一下,为什么不建议使用iostream.h,而是改为iostream。 阅读全文
posted @ 2013-03-15 22:42 大魔王mAysWINd 阅读(1201) 评论(2) 推荐(5) 编辑
摘要:医学数字影像和通信标准 DICOM(Digital Imaging and Communications in Medicine)中的数字影像文件包括很多内容,诸如患者信息、疾病信息以及数字影像等等,在.NET平台下如何对其进行解析,简要分析下文件的结构,对上述信息是如何存储的有个大概的了解,即使使用第三方类库也也建议了解下文件的结构。推荐一个.NET下第三方的开源类库fo-dicom,将DICOM文件中的信息及图像解析出来。 阅读全文
posted @ 2013-03-14 22:43 大魔王mAysWINd 阅读(7543) 评论(18) 推荐(9) 编辑