08 2020 档案
摘要:这一周也没学啥 Pytorch安装配置,还有简单的学习; 不学习基础知识是学不明白的; 所以还是得把《Python深度学习》这本书学着,边看边学Pytorch代码。 接下来几天就是把师兄给的两篇论文仔仔细细的看完,还有那两本书。 周四开始做PPT吧!
阅读全文
摘要:今天就安装anaconda和pytorch了.......
阅读全文
摘要:一、什么是深度学习 1、机器学习系统是训练出来的,而非明确地用程序写出来的; 2、机器学习需要的三个要素:输入数据点、预期输出的示例、衡量算法效果好坏的方法; 衡量结果是一种反馈信号,用于调节算法的工作方式,这个调节步骤即所说的“学习”;机器学习中的学习指的是:寻找更好数据表示的自动搜索过程; 3、
阅读全文
摘要:句法分析 1、句法是研究句子的每个组成部分和它们之间的组合方式; 常用的句法分析形式为:短语结构分析(phrase structure parsing)和依存分析(dependency parsing); 单词:终结符;词性(动名词等):预终结符;其他句法标记:非终结符; 短语结构树可以转换为依存树
阅读全文
摘要:1、建模 语言模型的目的是描述文字序列出现的规律,这个对问题建模的过程被称作是语言建模; n-gram只和它前面的n-1个词相关,根据这n-1生成第n个词; n-gram在分词、文本生成、信息检索、摘要等NLP任务中都有着举足轻重的地位,包括与训练模型本质上也是统计语言模型; 强调:统计语言模型为解
阅读全文
摘要:中文分词 1、分词:将输入的自然语言字符串切割为单元序列(token序列),每个单元都对应可以处理的最小单位; 分词得到单元序列的过程称作词法分析; 2、基于词典的分词方法: 缺点:过于生硬,当出现歧义时,较难解决; 因此,基于词典的分词方法基于规则,在遇歧义时,需要人工定义消除歧义的规则; 3、基
阅读全文
摘要:1、正则表达式:“\d”表示数字,即找到数字;“\D”为除去数字,给出剩下的非数字; 下图为查找字符串中的数字: 正则表达式分为普通字符和元字符;元字符有哪些去百度; :匹配字符串中a*c,中间为C或F的字符串; :匹配中间非c或f的字符串; :c~f的全部匹配; 2、贪婪匹配方式,比如给一个3-6
阅读全文
摘要:1、贝叶斯法则 全概率公式: 2、熵:对系统无序性的一种度量标准; 信息熵:在NLP领域用来描述文字的信息量大小(不确定性); 太阳从东方升起:信息熵较低(不确定性低); 明天天气多云:信息熵较高; 自信息用来衡量单一事件发生时所包含信息的多少,下式为一个事件X的自信息的表达式: 上图的意思就是,事
阅读全文
摘要:1、类:首字母大写,单词之间不用连接符,而用首字母大写; 2、类的实例化: student = Student() 3、调用类下的方法:student.print_file() 4、类最基本的作用:封装 类内部使用变量,需要用“self.”进行引用,如: 函数调用不要放在类里; 5、方法:设计层面;
阅读全文
摘要:1、round:保留小数点后几位; 2、函数的特点: 功能性(实现功能)、隐藏细节(可以直接调用,忽略细节)、避免编写重复的代码; 3、定义函数语法:def funcname(parameter_list): pass 参数列表可以没有,返回值用return value,没有的话默认没有返回值; 4
阅读全文
摘要:1、分词和句法分析NP:名词短语、VP:动词短语; 2、预处理(送入MT系统之前对文字序列进行处理和加工)和后处理(在MT模型输出译文后进行的处理); 3、对句子的切分和结构化分析:有很多思路,常用方法为:对问题进行概率化,用统计模型来描述问题对进行求解。如一个句子切分的好坏,并非非零即一的判断,而
阅读全文
摘要:1、强行终止代码运行: control+c; 2、for循环主要用来遍历/循环 序列、集合、字典; 3、continue:与break不同,break不会继续执行(跳出内部循环),continue是只跳过符合条件的; 如:的输出结果为:1,3 4、range:运行多少次 range(0,10,2),
阅读全文
摘要:1、运算符优先级: and优先级大于or 2、左结合和右结合: a or b and c(左结合);c=a+b(右结合); 3、IDE:vs code 4、流程控制语句:条件控制(if else)、循环控制(for while)、分支(switch); 5、命名:均为小写,中间用下划线连接; 6、c
阅读全文
摘要:1、董振东先生对机器翻译方法的评价: 基于规则和实例的机器翻译是傻子(依赖一定人工,在匹配规则和模板的情况下翻译质量高,但是系统泛华能力有限),统计和神经机器翻译是疯子(只依赖数据,系统健硕性强,但是精度不稳定且翻译过程难以人工干预)。 2、翻译质量评价: 有参考答案的评价:在参考答案或者评价标准已
阅读全文
摘要:1、机器翻译系统包括两部分:资源和系统,资源如翻译规则、知识库,系统是机器翻译算法的程序实现。 2、语料:双(单)语数据,目前已有大量高质量的双语和单语数据被整理并电子化存储。 3、机器翻译面临的挑战:(1)自然语言翻译问题的复杂性极高; (2)计算机的“理解”与人类的“理解”存在鸿沟; (3)单一
阅读全文

浙公网安备 33010602011771号