随笔分类 - C#
摘要:一、基于统计的中文网页正文抽取的研究 摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。来源网址:http://blog.csdn.net/zvane/archive/2008/03/21/2201414
阅读全文
摘要:/// <param name="srcpath">源路径</param>/// <param name="aimPath">转换后的路径</param>/// <returns></returns>privatestringmht_show(stringsrcpath,stringaimPath)...{try...{if(!Directory.Exists(srcpath))...{stringtxtname=srcpath.Substring(srcpath.LastIndex
阅读全文
浙公网安备 33010602011771号