基于领域相关度和领域一致度的领域术语抽取实现

领域相关度:

                       其中

领域一致度:

                                    ,其中

在抽取之前,需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。

有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。

   每一个子文件夹中都包含该领域的文档,分别为汽车、育儿、教育、女性、技术、时尚、财经、健康、运动。

一、分词和词性标注

预料准备好之后,需要做分词和词性标注的工作。下面是该工具提供的分词和词性标注API.

建议使用MapReduce版本的标注API,TokenAndTagJob类。

public void run(String inPath, String outPath)

对一个目录中的文本做分词和词性标注

 

  分词和词性标注处理完之后的内容如下:

 

【/w 文献/n 题名/v 】/w :/w 城/n 华/b 地区/n 延安/ns 组/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 【/w 文摘/n 号/q 】/w :/w2001020170/m 【/w 文献/n 类型/n 】/w :/w 刊/g 【/w 分类/vn 号/n 】/w :/wTE112/x ./w 23/m 【/w 期刊/n 名/q 】/w :/w 西安/ns 石油/n 学院/n 学报/n 自然/n 版/n 【/w 年/n 卷/g 期/g 】/w :/w2000/m ,/w 15/m (/w 3/n )/w 【/w 页码/n 】/w :/w1/a ~/x 3/n ,/w 10/n 【/w 作者/n 】/w :/w 宋广寿/nr ,/w 杨/nr 技/g 【/w 作者/n 单位/n 】/w :/w 长庆/ns 油田/n 公司/n 采油/v 二/m 厂/n 地质/n 研究所/n 【/w 原文/n 出版/v 年/qt 】/w :/w2000/m 【/w 图表/n 参/g 】/w :/w 图3参/nr2/n 【/w 主题词/n 】/w :/w 储集层/n 特征/n;/w 孔隙/n 成因/n 【/w 文摘/n 】/w :/w 利用/vX/x 衍射/v 全/a 岩/g 分析方法/n 、/w 粘土/n 矿物/n 定量分析/l 方法/n 和/cc 薄片/n 鉴定/vn 等/u 方法/n 研究/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 和/cc 孔隙/n 成因/n 类型/n 。/w 综合/v 论述/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 油/n 组/q 不同/a 岩/g 相/d 储层/n 砂岩/n 的/u 基本特征/n ,/w 纠正/v 了/u 砂岩/n 定名/v 的/u 错误/n 和/cc 主要/d 填/v 隙/g 物/g 成分/n 的/u 错误/n ,/w 还/d 论述/v 了/u 储层/n 砂岩/n 的/u 孔隙/n 特征/n 和/cc 控制/vn 孔隙/n 发育/v 的/u 主要/b 因素/n 。/w 【/w 文摘/n 员/q 】/w :/w 马丽/nr

二、抽取领域术语

   词性标注完之后,就可以调用Ontology 抽取领域术语了。下面是实例。

 

 

       // 参数封装

              OntologyOperation  operation = new OntologyOperation();

              operation.setTestPath("分类_tokend"); //分词和词性标注后的

              operation.setOutPath("ontology_分类"); //抽取领域术语结果目录

              operation.setLamda(0.6);// ndd和ncd的比重,默认是0.5

              operation.setStopWordsPath("stopwords");//停用词文件路径

 

              Configuration  conf =new Configuration();

              //在hadoop集群中使用,必须设置 hdfs fs name ,具体参看

       //hdfs-site.xml

              conf.set("fs.default.name", "hdfs://192.168.4.23:9999");

             

              Ontology ontology =new Ontology(conf);

       //执行领域术语的抽取

              ontology.run(operation);

 

抽取结果:

                  

     每一个文件中保存某一领域的术语和权重,术语顺序按照术语的权重由大到小。越往上和本领域最相关的部分,越往下是和领域越不相关的部分。

汽车领域:

幻影/n 0.3910593139427473

汽车/n 0.38552070782346365

系列/n 0.3849238241483909

论坛/n 0.3822022955534813

来宾/n 0.3814991553300009

身份证/n   0.3814643303613873

车型/n 0.3812698805672925

嘉年华/n   0.3810316978270879

经销商/n   0.3810294885160848

大众/n 0.3798762521563308

口碑/n 0.3769977747541958

售价/n 0.3706252408163245

动力/n 0.35661561638221867

引擎/n 0.3537919450642671

轴距/n 0.3513435337268461

发动机/n   0.35031323733269465

品牌/n 0.35019905726782324

育儿领域:

孩子/n 0.6083338178366626

妈妈/n 0.5795633679337582

时间/n 0.5666556375725188

宝宝/n 0.5644493150898459

儿童/n 0.5495347522570228

生活/vn    0.5380710659903973

家长/n 0.5376476116436651

影响/vn    0.5347469971542526

身体/n 0.5328702840194202

能力/n 0.5257242831980316

活动/vn    0.5253617853321019

父母/n 0.5204357874228931

营养/n 0.5136165980528928

家庭/n 0.5069390253210327

教育/vn    0.5028661460255032

发育/vn    0.5027495315547349

环境/n 0.5015883969770852

食物/n 0.49767223383846027

女性:

女性/n 0.31487990557885037

肌肤/n 0.31304528683015265

效果/n 0.308960714646986

产品/n 0.3051812878726879

皮肤/n 0.2970426920103549

女人/n 0.2955534547286699

成分/n 0.2938600008759204

功效/n 0.27799975106291236

保湿/n 0.2756107894868808

身体/n 0.27533528526451734

朋友/n 0.2740272629967851

品牌/n 0.27341987878347074

时尚/n 0.2679356026043557

美容/vn    0.2644552884818885

男人/n 0.2641450904843061

质地/n 0.26181214361494803

专业/n 0.26170017085661

水分/n 0.2602422981402292

系列/n 0.26001591640221594

配方/n 0.2599989399928897

财经领域:

市场/n 0.3608140146859866

经济/n 0.3547614541390426

风险/n 0.35239024337960634

金融/n 0.34577383407763246

公司/n 0.34392214119735787

危机/n 0.34255891673024036

投资/vn    0.3395183844284213

国家/n 0.3392216143490847

资产/n 0.33345102321911135

投资者/n   0.3276108467970701

企业/n 0.3247636216772157

财经/n 0.32295135215194143

关系/n 0.32274033777395

国际/n 0.3210001803088927

信息/n 0.32034858779587655

发展/vn    0.3198368908049424

经济学/n   0.31978792379152343

方面/n 0.31848495358432266

政府/n 0.3177799739084163

政策/n 0.31683813309168585

资本/n 0.3164516569407639

posted on 2014-05-23 17:05  代码王子  阅读(282)  评论(0编辑  收藏  举报

导航