我的公开成果(截至2019年12月)

目录

1. 专利 8 篇

2. 论文 4 篇

3. 获奖 3 项

1. 专利

专利名称:一种对话系统的训练数据选择方法

发明人:张贺;雷欣;李志飞
申请人:出门问问(武汉)信息科技有限公司
申请号:CN201910840420.3
申请日期:20190906
公开号:CN110543636A
公开日期:20191206
链接:http://www2.soopat.com/Patent/201910840420
摘要:本发明提供一种对话系统的训练数据选择方法,包括:确定新增垂直领域和所述新增垂直领域对应的第一正样本数据;选取多个候选垂直领域,确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据;根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据,确定所述每个候选垂直领域与新增垂直领域之间的相似度;根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度,确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。本发明还提供一种对话系统的训练数据选择装置,确定作为用于训练新增垂直领域的候选垂直领域,提高了准确率和效率,同时降低了人力成本。

专利名称:自然语言理解训练数据生成方法、装置、设备及存储介质

发明人:张贺;齐乔松
申请人:出门问问信息科技有限公司
申请号:CN201811600740.3
申请日期:20181226
公开号:CN109815488A
公开日期:20190528
链接:http://www2.soopat.com/Patent/201811600740
摘要:本公开提供了一种自然语言理解训练数据生成方法,包括:确定用于自然语言理解的训练数据的待生成数据模板;确定基于待生成数据模板而生成的训练数据的数量;以及根据待生成数据模板及知识库,填充待生成数据模板以生成所述数量的训练数据。本公开还提供了一种自然语言理解训练数据生成装置、电子设备及可读存储介质。

专利名称:地址解析方法、装置、计算机设备及计算机可读存储介质

发明人:张贺
申请人:出门问问信息科技有限公司
申请号:CN201811564845.8
申请日期:20181220
公开号:CN109740150A
公开日期:20190510
链接:http://www2.soopat.com/Patent/201811564845
摘要:本公开提供了一种地址解析方法,包括:对获得的语料进行分词处理,以得到作为分词语料的词;根据地址划分方式对每个词分别标注一个语义槽;对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及根据处理后的分词语料进行训练以得到地址解析模型。本公开还提供了一种地址解析装置、及计算机设备及计算机可读存储介质。

专利名称:一种自然语言理解模块回归测试方法、装置及电子设备

发明人:张贺
申请人:出门问问信息科技有限公司
申请号:CN201811565020.8
申请日期:20181220
公开号:CN109783369A
公开日期:20190521
链接:http://www2.soopat.com/Patent/201811565020
摘要:本发明提供了一种自然语言理解模块回归测试方法、装置及电子设备,用于解决现有技术中在多种设备类型的情况下,确定各种设备类型需要的维护后的回归测试集的速度慢,且维护成本高的问题。包括:确定设备类型;根据所述设备类型确定自然语言理解模块的多个垂直领域回归测试集和对应的合格率阈值;根据所述多个垂直领域回归测试集进行回归测试;根据每个垂直领域回归测试集的回归测试数据和对应的所述合格率阈值确定测试结果。

专利名称:一种修正自然语言理解模块的方法、装置及电子设备

发明人:张贺
申请人:出门问问信息科技有限公司
申请号:CN201811577608.5
申请日期:20181220
公开号:CN109783808A
公开日期:20190521
链接:http://www2.soopat.com/Patent/201811577608
摘要:本发明提供了一种修正自然语言理解模块的方法、装置及电子设备,用于解决现有技术中采用人工的方式修正自然语言理解模块中的语法规则和统计模型浪费人力资源,修正速度比较低的问题。包括:获取自然语言理解模块解析错误的自然语言文本;根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。

专利名称:自然语言分类方法、装置、设备及存储介质

发明人:张贺
申请人:北京羽扇智信息科技有限公司(即:出门问问信息科技有限公司)
申请号:201811463797.3
申请日期:2018-11-30
公开号:109582774A
公开日期:2019-04-05
链接:http://www2.soopat.com/Patent/201811463797
摘要:本发明实施例公开了一种自然语言分类方法、装置、设备及存储介质。其中,方法包括:获取自然语言语句对应的特征值;将所述特征值分别输入至至少两个二分类模型中,得到各二分类模型输出的概率;在各二分类模型输出的概率中,选取满足预设要求的目标概率,并将目标概率来自的二分类模型的类别,作为所述自然语言语句的类别。本发明实施例的二分类模型之间不存在耦合,使得维护部分二分类模型时,不影响其他二分类模型的预测结果,减少维护难度和成本,加快迭代效率,避免出现回归错误。

专利名称:自然语言解析方法、装置、设备及存储介质

发明人:张贺
申请人:北京羽扇智信息科技有限公司(即:出门问问信息科技有限公司)
申请号:201811459555.7
申请日期:2018-11-30
公开号:109543192A
公开日期:2019-03-29
链接:http://www2.soopat.com/Patent/201811459555
摘要:本发明实施例公开了一种自然语言解析方法、装置、设备及存储介质。其中,方法包括:获取自然语言文本;获取定制自然语言理解模块中,至少一个解析类别分别对应的定制化参数;如果解析类别对应的定制化参数包括非自定义参数和非定制参数,采用通用自然语言理解模块中,所述解析类别对应的解析模型对所述自然语言文本进行解析,本发明实施例当通用自然语言理解模块中对这些解析模型进行优化或更新后,通过采用通用自然理解模块中的模型进行解析,从而实现定制自然语言理解模块的同步优化或更新,降低维护成本。

专利名称:基于信息单元融合的新闻原子事件抽取方法

发明人:刘茂福 张贺
申请人:武汉科技大学
申请号:201410108447.0
申请日期:2014-03-21
公开号:103838870A
公开日期:2014-06-04
链接:http://www2.soopat.com/Patent/201410108447
摘要:本发明涉及一种基于信息单元融合的新闻原子事件抽取方法。其技术方案是:先对新闻正文进行除杂处理,利用自然语言处理软件对新闻标题和除杂处理后的新闻正文进行中文分词、词性标注和命名实体识别处理;再过滤掉词性标注结果中的意向动词、致使动词、言说动词和趋向动词;利用初步融合规则库和信息单元融合规则库对动词过滤后的词性标注结果和命名实体识别结果进行融合;然后利用核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行原子事件抽取。本发明利用信息单元融合的方法能快速地处理新闻语料,对文本长度没有严格限制,能够将新闻正文中的全部原子事件抽取出来,不受事件类型的约束,具有执行效率高和普遍适用性的特点。

2. 论文

论文名称:Topic categorization and representation of health community generated data

作者:Maofu Liu,He Zhang,Huijun Hu,Wei Wei
文献出处:Multimedia Tools and Applications
年份:2017
链接:https://link.springer.com/article/10.1007/s11042-015-3094-3
摘要:The representation and categorization of professional health provider released data have been well investigated and practically implemented. These have facilitated browsing, search and high-order learning of health information. On the other hand, there has been little corresponding studies on the representation and categorization of health community generated data. It is usually more complex, inconsistent and ambiguous, and consequently raises challenges for data access and analytics. This paper explores various representations for health community generated data and categorizes these data in terms of health topics. In addition, this work utilizes pseudo-labeled data to train the supervised topic categorization models, and this makes the whole categorization process unsupervised and extendable to handle large-scale data. The extensive experiments on two real-world datasets reveal our interesting findings of the informative representation approaches and effective categorization models for health community generated data.

论文名称:基于信息单元融合的新闻原子事件抽取

作者:张贺; 刘茂福; 胡慧君; 顾进广;
文献出处:Journal of Wuhan University(Natural Science Edition) / 武汉大学学报(理学版)
年份:2015
链接:http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=WHDY201502006&dbcode=CJFQ&dbname=CJFD2015
摘要:原子事件抽取是将非结构化文本进行结构化表示的重要方法.针对新闻语料,本文提出了一种基于信息单元融合的原子事件抽取方法.在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来.基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的.

论文名称:Result-Controllable Dendritic Cell Algorithm

作者:Song Yuan,He Zhang
文献出处:International Conference on Intelligent Computing
年份:2014
链接:http://xueshu.baidu.com/usercenter/paper/show?paperid=3a8df7666329984255284e64e567a9e1&site=xueshu_se
摘要:To realize that the false positive rate and false negative rate can be adjusted and improve the detection accuracy of the classical Dendritic Cell Algorithm which contains various uncertain elements, the concept of Tendency Factor and a Result-Controllable Dendritic Cell Algorithm are proposed by analyzing the signal processing function, weight matrixes and the other random parameters involved. The new algorithm has the higher detection accuracy and better robustness, in which the Tendency Factor can be obtained according to different contexts in order to control the detection results. Simulation experiments are performed using different parameters and multiple data sets and the Tendency Factor and the Result-Controllable Dendritic Cell Algorithm are proved to be reasonable and effective.

论文名称:结果可控树突状细胞算法

作者:张贺;袁嵩;
文献出处:Computer Applications and Software / 计算机应用与软件
年份:2013
链接:http://xueshu.baidu.com/usercenter/paper/show?paperid=e04602628f639c9a810ea49effecb091&site=xueshu_se
摘要:为解决传统树突状细胞算法因涉及大量不确定因素而导致的难以协调误报率和漏报率的关系的问题并在传统树突状细胞算法的基础上提高算法的检测精度,通过对树突状细胞算法信号转换公式、权值矩阵及其他不确定参数的分析,提出倾向因子的概念和结果可控树突状细胞算法。该算法具有更高的检测精度和更好的普适性,能够根据不同的细胞环境确定相应的倾向因子,进而实现对检测结果的调控能力。通过使用不同参数和多种数据集进行仿真实验,证明了概念的合理性和算法的有效性。

3. 获奖

第八届全国社会媒体处理大会-SMP2019中文人机对话技术评测(SMP-ECDT)-NLU任务第一名

年份:2019
排行榜:https://adamszq.github.io/smp2019ecdt_task1/
技术报告:链接: https://pan.baidu.com/s/1szqqxacQEY2__OplezybKg 提取码: i5nf
主办单位:中国中文信息学会社会媒体处理专业委员会
比赛介绍:本次评测包括领域分类、意图识别和语义槽填充三项子任务,多轮对话整体意图的理解不在此次评测范围之内。
比赛链接:http://conference.cipsc.org.cn/smp2019/evaluation.html

第六届全国社会媒体处理大会-SMP2017中文人机对话技术评测(ECDT)-NLU分类任务开放式评测第三名

年份:2017
排行榜:http://ir.hit.edu.cn/SMP2017-ECDT-RANK
技术报告:链接: https://pan.baidu.com/s/17LAqNvxOuFKxJ0VQwmiw4w 提取码: 5b9r
主办单位:中国中文信息学会社会媒体处理专业委员会
比赛介绍:评测任务1包含闲聊和垂类两大类,其中垂类又细分为30个垂直领域。本次评测任务1中,仅考虑针对单对话轮用户意图的领域分类,多轮对话整体意图的领域分类不在此次评测范围之内。
比赛链接:http://ir.hit.edu.cn/smp2017-ecdt

第六届全国信息技术应用水平大赛-C语言程序设计-全国一等奖

年份:2011
主办单位:教育部教育管理信息中心
大赛主页:http://www.itatedu.com/itatCompete/compete6/index.asp
C语言程序设计比赛说明:http://www.itatedu.com/itatCompete/compete6/fiels/sm2.htm
参赛情况:包括C语言程序设计在内的13个项目,共有15 万学生报名参赛,全国一等奖260名

posted @ 2020-04-25 12:12  ZH奶酪  阅读(196)  评论(0编辑  收藏