上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页
摘要: 上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合。这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的。 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1)。 这段代码,就是给块打分的一个方法。它包含了投票思想以及归一处理问题的思想。对于一个块,我们从不 阅读全文
posted @ 2017-10-27 15:24 micDavid 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 上面就是获取标题的整体逻辑代码。29行,是调用pdfboxLib,读取pdf第一页内容: 第23行 printer.processStream方法,会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition: 这样我们就利用pdfbox收集了pdf文 阅读全文
posted @ 2017-10-27 14:53 micDavid 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了,大家都知道 阅读全文
posted @ 2017-10-27 14:23 micDavid 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 由于工作的需要,研究c#抽取pdf文档标题有3个月了。这项工作是一项”伟大而艰巨”的任务。应该是我目前研究工作中最长的一次。我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然、平静的状态。每一次的研究工作,说实话,都很累,犹如爬山。在到达山顶的那一 阅读全文
posted @ 2017-10-27 10:59 micDavid 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 有个同事想要从html网页标签中提取特定内容,让我帮忙看看。我研究了下,做了个小工具。 目标:匹配出 <p><label id="catalog_FUND">基金:</label> 这个p标签里面的a标签的内容 解决方案:由于一次性匹配出来,难度太大,因此可分为两步走,首先获取这个p标签里面的所有a 阅读全文
posted @ 2017-10-27 09:19 micDavid 阅读(5869) 评论(0) 推荐(1) 编辑
摘要: 总是有客户发现使用office 2013 下的插件有问题,这个问题出现在低版本上,所以要给office 2013打上补丁,打上后,运行插件ok,出现的bug解决掉了。那么给office打补丁包就成了解决此类bug的方案。如何给office打补丁包呢? 360卫士可以扫描软件漏洞,然后在线下载并安装补 阅读全文
posted @ 2017-10-25 14:14 micDavid 阅读(5229) 评论(0) 推荐(0) 编辑
摘要: ProgressBar控件,非常有用。它在什么情况下有用呢?如何使用?带着这两个问题,我们探讨下。 如果程序需要很长时间来运行,用户在不知道的情况下,以为程序已经“卡死”了,没有响应,这时候就该用进度条了,它主动告诉用户的执行情况,那么用户知道还需要等待多久。 上面的使用场景,很好理解,那么,如何使 阅读全文
posted @ 2017-10-18 18:05 micDavid 阅读(1731) 评论(0) 推荐(0) 编辑
摘要: 最近在转移数据,sqlserver的日志文件ldf,占用空间特别大,为了还原库,节省空间,所以压缩日志文件迫在眉睫。在网上找了一段代码: 把数据库名称替换成自己的数据库即可,还真的可以压缩,我几个G的数据量直接压缩到了11M大小,我很是惊讶。那么我们先来理解下 DBCC SHRINKFILE 命令, 阅读全文
posted @ 2017-10-18 15:51 micDavid 阅读(9458) 评论(1) 推荐(0) 编辑
摘要: 记住一大堆git命令,没有任何意义。所谓”学以致用”,”在用中学”是有一定道理的。 我们用git命令解决两大问题: 一、如何将本地项目上传到git 二、修改了本地文件,如何同步到git 想必这两个问题,是开始学习git命令,很想应用的。 添加项目: 1、(先进入项目文件夹)通过命令 git init 阅读全文
posted @ 2017-07-19 17:42 micDavid 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 上一篇,我们完成了具体的开发工作,但是最终必须得部署到客户机器上。所以,部署方面,我花费了一些时间去研究,现在总结下。上一篇中,我为什么建议开发人员安装wps专业版呢?因为装了专业版,方便我们开发,安装过程中会顺便把 office PIA安装到GAC中。否则,我们还得手动安装PIA,这个过程极其繁琐 阅读全文
posted @ 2017-07-19 16:20 micDavid 阅读(5025) 评论(2) 推荐(1) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页