随笔分类 -  a:NLP

摘要:句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。 短语结构和依存结构是目前句法分析中研究最... 阅读全文
posted @ 2015-07-28 10:51 ZH奶酪 阅读(5106) 评论(0) 推荐(0) 编辑
摘要:NLPIR工具 支持自定义词表; 可以离线使用;下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示:http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台:(nlpir相关的一些软件、文档、论文... 阅读全文
posted @ 2015-06-18 11:52 ZH奶酪 阅读(1205) 评论(0) 推荐(0) 编辑
摘要:前言 LTP语言云平台 不支持离线调用; 支持分词、词性标注、命名实体识别、依存句法分析、语义角色标注; 不支持自定义词表,但是你可以先用其他支持自定义分词的工具(例如中科院的NLPIR)把文本进行分词,再让ltp帮你标注 支持C#、Go、Java、JavaScript、Nodejs、PHP、Pyt 阅读全文
posted @ 2015-06-18 10:28 ZH奶酪 阅读(3794) 评论(9) 推荐(0) 编辑
摘要:中文译文:深度学习、自然语言处理和表征方法http://blog.jobbole.com/77709/英文原文:Deep Learning, NLP, and Representationshttp://colah.github.io/posts/2014-07-NLP-RNNs-Represent... 阅读全文
posted @ 2015-03-26 20:39 ZH奶酪 阅读(722) 评论(0) 推荐(0) 编辑
摘要:1.17-18:学习HMM模型;1.18-20:学习CRF模型(未完成);1.20-24:应用HMM到具体问题;1.24-27:扩展为second-order HMM(扩展Bi-gram MLE到Tri-gram MLE;扩展Viterbi算法);明确了BW算法不适合正在解决的问题;1.28:在词性... 阅读全文
posted @ 2015-01-30 13:28 ZH奶酪 阅读(679) 评论(2) 推荐(0) 编辑
摘要:网上关于HMM的学习资料、博客有很多,基本都是左边摘抄一点,右边摘抄一点,这里一个图,那里一个图,公式中有的变量说不清道不明,学起来很费劲。经过浏览几篇博文(其实有的地方写的也比较乱),在7张4开的草稿纸上写公式、单步跟踪程序,终于还是搞清楚了HMM的原理。HMM学习过程:1、搜索相关博客:隐马尔可... 阅读全文
posted @ 2015-01-16 22:49 ZH奶酪 阅读(8962) 评论(3) 推荐(1) 编辑
摘要:原文链接:http://www.xianguo.com/go.php?fi=4540220自然语言处理领域的两种创新观念 作者:张俊林 2006年11月26日 自然语言处理作为一个研究领域,曾经是一个颇为冷门的方向,但是现在随着互联网搜索概念股的疯狂被投资... 阅读全文
posted @ 2014-09-02 13:13 ZH奶酪 阅读(488) 评论(0) 推荐(0) 编辑
摘要:原文链接地址:http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation/ 逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子: 输入例句:S1=”计算语言学课程有意思” ; 定义:最大词长M... 阅读全文
posted @ 2014-09-02 12:53 ZH奶酪 阅读(2730) 评论(0) 推荐(0) 编辑
摘要:原文链接地址:http://www.52nlp.cn/hmm-concrete-example-on-wiki/ Alice 和Bob是好朋友,但是他们离得比较远,每天都是通过电话了解对方那天作了什么.Bob仅仅对三种活动感兴趣:公园散步,购物以及清理房间.他选择做什么事情只凭当天天气.Alice... 阅读全文
posted @ 2014-09-02 12:50 ZH奶酪 阅读(1837) 评论(0) 推荐(0) 编辑
摘要:随机选了几张POSTER,之前没做过POSTER的同学可以看一下文字、图片、布局以及每个版块的小标题,以后如果需要做poster就容易多了。据说这种Poster一张需要60RMB左右。其中第5幅是CSWS2014的BEST POSTER。Fig 1 ,这个就是图片比较多,文字描述太少,很难看懂。Fi... 阅读全文
posted @ 2014-08-13 10:01 ZH奶酪 阅读(589) 评论(0) 推荐(0) 编辑
摘要:大数据下的游戏营销模式革新邓大付博士腾讯专家工程师Bio:毕业于华中科技大学,现任腾讯IEG运营部数据中心技术副总监,负责腾讯游戏的数据挖掘相关工作,包括有用户画像,推荐系统,基础算法研究等。主要感兴趣的领域包括有分布式计算平台系统架构,机器学习算法等。=======================... 阅读全文
posted @ 2014-08-12 22:40 ZH奶酪 阅读(727) 评论(0) 推荐(0) 编辑
摘要:Title: 深度问答技术及其在搜索中的应用马艳军博士, 百度Abstract: 深度问答(DeepQA)是一种基于对自然语言深度理解的智能问答技术,其核心技术涉及知识图谱建设、语义表示和计算、语义匹配等技术。深度问答在互联网尤其在搜索中有着广泛的应用价值。本课程将详细介绍深度问答中涉及的核心算法,... 阅读全文
posted @ 2014-08-12 22:33 ZH奶酪 阅读(2243) 评论(0) 推荐(0) 编辑
摘要:【CSWS2014 Summer School】互联网广告中的匹配和排序算法-蒋龙(上)Fig19,用到了矩阵,这个我没有听太明白,蒋博士也没有详细说明。不过可以明确的一点就是,我们常说的K-means、聚类等技术都是有实际应用价值的,而且我们日常就在使用。Fig20,这个定向广告,就更加接近推荐系... 阅读全文
posted @ 2014-08-12 21:39 ZH奶酪 阅读(2005) 评论(0) 推荐(2) 编辑
摘要:Title:互联网广告中的匹配和排序算法蒋龙博士,通联数据Abstract:互联网广告是利用互联网提供的基础设施进行产品和服务营销的一种新形式,具有比传统广告方式更精准,成本收益更透明的优势。互联网广告是当今众多互联网企业实现价值变现的最主要形式之一,可以说,互联网广告产业是当今互联网能蓬勃发展的重... 阅读全文
posted @ 2014-08-12 21:00 ZH奶酪 阅读(4411) 评论(1) 推荐(0) 编辑
摘要:CMPH-CMinimalPerfectHashingLibraryC最小完美哈希库翻译:ZH奶酪博客地址:http://www.cnblogs.com/CheeseZH动机:一个完美的hash函数可以讲一个包含n个键的静态集合映射到m个整数而不出现冲突,此时m大于等于n。如果m等于n,这个函数就可以称作最小;最小完美哈希函数被广泛的应用在高效存储以及从静态集中快速检索条目,比如自然语言中的词语,程序或者交互系统中的预定义词语,网络搜索引擎中的URLs,或者数据挖掘技术中的条目集合。因此,在信息检索系统、数据库系统、语言翻译系统、电商系统、编译器、操作系统以及其他系统中都有最小完美哈希函数的应 阅读全文
posted @ 2012-12-20 16:41 ZH奶酪 阅读(2238) 评论(0) 推荐(0) 编辑
摘要:publicclassCRFClassifier<INextendsCoreMap>extendsAbstractSequenceClassifier<IN>使用CRF模型进行层序划分的类。这个类具有处理不同格式文档的功能,但是当使用标准ColumnDocumentReaderAndWriter类用来训练或者测试模型时,输入文件中要一行一个token(几列标志性的东西,比如单词、POS、chunk和answerclass)。ColumnDocumentReaderAndWriter默认训练集是有3列输入的,分别是:单词、pos、goldclass,但是这个可以通过map 阅读全文
posted @ 2012-11-29 11:39 ZH奶酪 阅读(4016) 评论(0) 推荐(0) 编辑
摘要:【由于本人英语知识匮乏,初涉NLP,对Bio更是一无说知,因此文章中许多英文不知如何翻译较为得当,故本文不作正式翻译,仅供参考,更多详细信息请看英文原版。】原文:http://acl.ldc.upenn.edu/E/E99/E99-1043.pdfE99题目:GENIA项目:关于基因组科研论文的基于语料库的知识获取和信息抽取作者:NC,HSP,NO,YT,CN,TO,TS,HI,KI,JT摘要:我们呈现了GENIA项目(为了从期刊论文以及摘要中自动获取生物医学信息)的一个outline。GENIA在网上可以搜索到,它是为了辅助信息抽取、信息检索、信息可视化以及帮助科研人员缓解科研信息过剩而设计 阅读全文
posted @ 2012-10-29 10:48 ZH奶酪 阅读(519) 评论(0) 推荐(1) 编辑
摘要:GENIA语料库:http://www.nactem.ac.uk/genia/genia-corpusGENIA corpus The GENIA corpus is the primary collection of biomedical literature compiled and annotated within the scope of the GENIA project. The corpus was created to support the development and evaluation of information extraction and text mining 阅读全文
posted @ 2012-10-28 10:54 ZH奶酪 阅读(3156) 评论(0) 推荐(1) 编辑
摘要:语料库包含一定篇目(语篇),每篇篇目包含一定量的词汇。语种:单语种语料库,多语种语料库;记载媒体:单媒体语料库,多媒体语料库;地域:国家语料库,国际语料库;以语料库代表性和平衡性为主要区分依据的:平衡语料库,平行语料库;平衡性好坏取决于语料库中语料的使用度是否可以真实反映语言使用情况。平行型表现为语料选取的时间、对象、比例、文本数、文本长度等几乎一致(一般用于机器翻译)。以语料库用途为主要区分依据的:通用语料库,专用语料库;(二者是相对的)以语料分布时间为主要区分依据的:共时语料库,历时语料库;按照索绪尔的观点,共时研究是研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的 阅读全文
posted @ 2012-10-28 10:08 ZH奶酪 阅读(854) 评论(0) 推荐(0) 编辑