06 2013 档案
摘要:英语原文地址:http://nlp.hivefire.com/articles/share/40221/ 注:本人翻译NLP新闻只为学习专业英语和扩展视野,如果翻译的不好,请谅解! (实在是读不大懂,翻译的一塌糊涂…如果有人能明白这篇文章的大题意思,一定要留言,感激不尽!) When thinking about how best to review papers, it seems hel...
阅读全文
摘要:英语原文地址:http://nlp.hivefire.com/articles/share/39865/注:本人翻译NLP新闻只为学习专业英语和扩展视野,如果翻译的不好,请谅解!(我挺想看这本书的,但是一查价格,贵的离谱…唉…)自然语言处理的领头人、LinguaSys Co-Founders 创始人Brian Garr 、Vadim Berman 对新书的贡献《Where Humans Meet Machines: Innovative Solutions of Knotty Natural Language Problems 》BOCA RATON, Fla. --LinguaSys co-
阅读全文
摘要:英语原文地址:http://nlp.hivefire.com/articles/share/39645/注:本人翻译NLP新闻只为学习专业英语和扩展视野,如果翻译的不好,请谅解!Google’s search capabilities are king, and they’re getting richer now with features including the use of more powerful voice recognition on mobile devices and desktops,谷歌的搜索能力可以说是在众多搜索当中的王级别的,现在他们的功能越来越丰富了,包括强大的
阅读全文
摘要:11.4使用Toolbox数据 语言结构中使用XML (2) <entry><headword>whale</headword><pos>noun</pos><gloss>anyofthe larger cetaceanmammalshaving a streamlinedbodyand breathing through a blowhole onthe head</gloss></e...
阅读全文
摘要:从网上获取数据 我们讨论过访问单个文件,如RSS订阅、搜索引擎的结果。 1、有的时候,还需要大量的WEB文本。最简单的方法是获得出版的网页文本的文集。在http://www.sigwac.org.uk/维护的有一个资源列表。 2、使用网络爬虫。 从字处理器文件获取数据 例11-1. 将MicrosoftWord创建的HTML转换成CSVdef lexical_data(html_f...
阅读全文
摘要:TIMIT的结构 NLTK包括TIMIT语料库的一个样本,可以使用help(nltk.corpus.timit)访问他的文档; nltk.corpus.timit.fileids()可以查看语料样本中160个录制的话语列表; 每个文件名如图所示: TIMIT的结构如下: 基本数据类型 TIMIT语料库只包含两种基本数据类型:词典和文本。 语料库创建的三种方案 1、...
阅读全文
摘要:段落是句子的序列。 段落表示理论 一阶逻辑中的量化标准方法仅局限于单个句子,但是有的量词的范围是可以扩大到两个以上的句子. 看下面的例子: (54)a. Angus owns a dog. It bit Irene.b.∃x.(dog(x) &own(Angus, x)&bite(x, Irene))段落表示理论(Discourse RepresentationTheory,DRT)...
阅读全文
摘要:基于特征的文法中的合成语义学组合原则:整体的含义是部分的含义与它们的句法结合方式的函数。我们的目标是以一种可以与分析过程平滑对接的方式整合语义表达的构建。类似于下面这幅图:SEM 是语义的意思。1、根节点的SEM显示了整个句子的语义表示。2、较低节点的SEM值显示了句子的成分。3、SEM值要以特殊的方式对待,所以被放在了尖括号里面。可以这样构造文法:S[SEM=<?vp(?np)>]-> NP[SEM=?subj]VP[SEM=?vp]VP[SEM=?v]-> IV[SEM=?v]NP[SEM=<cyril>]-> 'Cyril'IV[
阅读全文
摘要:这一节,通过翻译自然语言表达式为一阶逻辑来表示它们的意思。 并不是所有的自然语言语义都可以用一阶逻辑来表示。 句法 一阶逻辑保留了所有命题逻辑的布尔运算符但是它增加了一些重要的新机制。 1、命题被分析成谓词和参数。 一阶逻辑的标准构造规则承认以下术语:独立变量、独立常量、带不同数量的参数的谓词 例如: Angus walks可以被形式化为walk(angus),Angus se...
阅读全文
摘要:10.1自然语言理解 查询数据库 如果有人提出一个问题: Which country is Athens in? 得到的回答应该是: Greece. 这个数据可以通过数据库语言得到答案: SELECT Country FROM city_table WHERE City= 'athens'这里有一个文法,可以把句子转换成SQL语句: >>>nltk.data.show_c...
阅读全文
摘要:9.2处理特征结构 这一节内容为如何构建特征结构以及在NLTK中操作。 NLTK提供了特征结构使用的构造函数FeatStruct()声明。 >>>fs1 = nltk.FeatStruct(TENSE='past',NUM='sg')>>>print fs1[ NUM = 'sg' ][ TENSE= 'past' ]将特征结构作为图来查看往往是有用的(有向无环图)也会出现结构共享,或...
阅读全文
摘要:为了获得更大的灵活性,我们改变我们对待文法类别,如S,NP,V的方式,我们将这些原子标签分解为类似字典的结构,以便可以提取一系列的值作为特征。 9.1文法特征 先从一个简单的例子开始,使用字典存储特征和他们的值。 >>>kim = {'CAT':'NP', 'ORTH': 'Kim', 'REF': 'k'}>>>chase = {'CAT':'V', 'ORTH': 'chased'...
阅读全文
摘要:短语结构文法是关于词和词序列如何结合起来形成句子成分的。 依存文法是一个独特的和互补的方式,集中关注的是词与其他词之间的关系。依存关系是一个中心词与它的依赖之间的二元对称关系。一个句子的中心通常是动词,所有其他词要么依赖于中心词,要么依赖路径与它联通。 依赖关系表示是一个加标签的有向图,其中节点是词汇项,加标签的弧表示依赖关系,从中心词到依赖。 图中显示了一个依存关系图,箭头从中心词指向它们...
阅读全文
摘要:为什么要使用左角表? 一般的自顶向下的分析法中存在回溯现象,这种严重的限制了分析法,构造了推导树,但是有的时候会出现搜索空的情况,使分析效率很低。为了提高自顶向下的分析效率,减少盲目性,可以给CFG文法建立一个左角表(left-corner table)。 左角表中存有什么? 例如这个文法: G = {Vn , Vt , S , P}Vn = {S , NP , VP ,...
阅读全文
摘要:8.2文法有什么用? 超越n-grams 用bigrams中的频率信息生成句子,短的时候可以接收,但是长的时候就显得无法接受。 我们系统地可以用较短的序列替代较长的序列,并使其依然符合语法规则。 例如下面这句话: 我们可以为这幅图上添上文法类别标签。 NP为名词短语;VP为动词短语;PP为介词短语; 用树来表示: 句子可以有任意的长度。短语结构树可以有任意深度。 在下...
阅读全文

浙公网安备 33010602011771号