2018年11月15日

摘要: 意义: 1. 数据的量纲不同,数量级别差别很大 2. 平衡各特征的贡献:距离、协方差,是因为要使各特征贡献一致所以使用标准化 3. 加快梯度下降求最优解的速度 方法: 1.min-max标准化: 比较适用在数值比较集中的情况 不涉及距离度量、协方差计算、数据不符合正太分布的时候 2. z-score 阅读全文
posted @ 2018-11-15 15:08 happygril3 阅读(191) 评论(0) 推荐(0)

2018年11月7日

摘要: 脱离语料库,仅对单篇文档提取 (1) pageRank算法:有向无权,平均分配贡献度 基本思路: 链接数量:一个网页越被其他的网页链接,说明这个网页越重要 链接质量:一个网页被一个越高权值的网页链接,表明这个网页越重要 思路:将每个网页初始得分为1 通过多次迭代对每个网页进行收敛 若收敛,则收敛时的 阅读全文
posted @ 2018-11-07 19:11 happygril3 阅读(218) 评论(0) 推荐(0)
摘要: TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次,次数越多,表达能力越强 IDF:统计一个词在文档集的多少篇文档中出现,一个词在越少的文档中出现,则对该文档的区分能力就越强 词i在文档j中出现的概 阅读全文
posted @ 2018-11-07 18:16 happygril3 阅读(334) 评论(0) 推荐(0)
摘要: 思想: 把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词 利用字与字相邻出现的频率反映词的可靠度 buzhou: 建立统计语言模型 对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式 语言模型: 长度为m的字符串确定其概率分布为P(w1,w 阅读全文
posted @ 2018-11-07 18:02 happygril3 阅读(152) 评论(0) 推荐(0)

2018年11月6日

摘要: 规则分词: 简单高效,但是词典的维护是一个庞大的工程。正向分词: 1、统计分词词典,确定词典中最长词条的字符m; 2、从左向右取待切分语句的m个字符作为匹配字段,查找词典,如果匹配成功,则作为一个切分后的词语, 否则,去掉待匹配字符的最后一个继续查找词典,重复上述步骤直到切分出所有词语。dictA 阅读全文
posted @ 2018-11-06 16:57 happygril3 阅读(272) 评论(0) 推荐(0)
摘要: 实词:有实际意义的词,包括: 1.名词:表示人或事物名称的词。 有人物名词:如学生、群众、老头、妇女、同志、叔叔、维吾尔族、酒鬼等; 有事物名词:如笔、杉木、蜗牛、猎豹、奥托、棒球、战斗机、冥王星、思想、中学、物理、过程等; 有时间名词:如上午、过去、将来、午夜、三更、甲戊、世纪等; 有方位名词:如 阅读全文
posted @ 2018-11-06 16:17 happygril3 阅读(2065) 评论(0) 推荐(0)

2018年11月4日

摘要: # a--形容词--# b--区别词--所有,总,# c --连词--和,可以,由,同时,但,所以# d--副词--就,同样,也,很,真的,都,真好,反正 #df--# e--叹词--唉,哦# f--方位词--间,下# g--语素--# h--前接成分# i--成语--# j--简称# k-后接成份 阅读全文
posted @ 2018-11-04 17:24 happygril3 阅读(372) 评论(0) 推荐(0)
摘要: from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh2Hant, zh2Hansexcept ImportError: from zhtools. 阅读全文
posted @ 2018-11-04 15:16 happygril3 阅读(1767) 评论(0) 推荐(0)
摘要: from langconv import *def simple2tradition(line): #将简体转换成繁体 line = Converter('zh-hant').convert(line) return linedef tradition2simple(line): # 将繁体转换成简 阅读全文
posted @ 2018-11-04 15:14 happygril3 阅读(411) 评论(0) 推荐(0)
摘要: s = "线程是程序执行时的最小单位,它是进程的一个执行流,\ 是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\ 线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\ 线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\ 同样多线程也可以实现并发操作,每个请求分 阅读全文
posted @ 2018-11-04 10:28 happygril3 阅读(191) 评论(0) 推荐(0)

导航