12 2019 档案

摘要:一、概述 训练语料来源:维基媒体 https://dumps.wikimedia.org/backup index.html 汉语数据 用word2vec训练词向量,并用所学得的词向量,计算 pku_sim_test.txt 文件中每行两个词间的余弦距离作为两词相似度,并输出到文件中。 二、数据准备 阅读全文
posted @ 2019-12-27 22:21 Yanqiang 阅读(2039) 评论(0) 推荐(0)
摘要:一、概述 本实验做的是一个很常见的数据挖掘任务:新闻文本分类。 语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据, 下载地址:https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步: 1)语料库的数据预处理; 2)文本建模; 3)训练 阅读全文
posted @ 2019-12-27 17:25 Yanqiang 阅读(1319) 评论(0) 推荐(0)
摘要:读取原始数据 训练感知机模型 使用自己写的MyPerceptron类训练 perceptron = MyPerceptron() time1 = datetime.datetime.now() perceptron.fit(X_train, y_train) time2 = datetime.dat 阅读全文
posted @ 2019-12-14 10:10 Yanqiang 阅读(1035) 评论(0) 推荐(0)