LJParser自然语言理解中间件
灵玖拥有搜索和自然语言理解产业的完整技术链。凭借深厚的技术积累和独有的技术优势,能够为用户提供搜索、自然语言理解领域的全面解决方案。解决方案遍布语言基础件、文本中间件和引擎应用件等各个层次。多层次、多角度的技术灵活组合,方便搭建多种业务应用系统。

LJParser自然语言理解中间件包括有:新词发现、语料库分词、词频统计及翻译、聚类基础件、分类基础件、文本摘要及关键词提取、文档去重、HTML正文提取、全文检索等9大功能。
语言基础件:
汉语分词基础件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(ConditionalRandomField,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
汉语分词基础件:
汉语分词基础件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(ConditionalRandomField,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
词性标注基础件:
词性标注基础件能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如"建设"标注为"名词"或"动词"。灵玖采用条件随机场(ConditionalRandomField,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。
人名地名机构名识别基础件:
人名地名机构名识别基础件能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。灵玖采用条件随机场(ConditionalRandomField,简称CRF)模型,识别准确率达到97%,速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。
文档关键词提取基础件:
文档关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
文本分类:
文本分类中间件能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。灵玖基于内容的文本自动分类和基于规则的文本分类两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。
文本聚类:
文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。灵玖基于核心特征发现技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
文本过滤:信息提取
文本过滤中间件能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。灵玖结合内容过滤和规则过滤两种方式,能够精确匹配出符合特定要求的内容;用户可以灵活、方便的更换模板,来实现对不同的主题的过滤。
参考地址:www.lingjoin.com
下载地址:http://www.lingjoin.com/download/LJParser.rar
联 系 人:景先生 15652220050
浙公网安备 33010602011771号