高考
等位分:自己今年的分数在去年相当于多少分
分词:把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
停用词:搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。 如常见的“的”、“在”、“和”、“接着”之类
词嵌入(word embedding):把文本转换成数值形式,或者说——嵌入到一个数学空间里,而 Word2vec,就是词嵌入( word embedding) 的一种
Skip-gram 模型:如果是用一个词语作为输入,来预测它周围的上下文
CBOW 模型:如果是拿一个词语的上下文作为输入,来预测这个词语本身
词向量:一个单词所对应的向量(非one hot),向量之间的数学关系可以表示单词之间的语义关系
余弦相似性:计算2个向量夹角的余弦值,值越接近1,则2个向量差异越小,越来越相似,对于2个n维向量:

简单共有词:2个文本的共有词的字符数 / 最长文本的字符数
论文思路:
1.第一步筛选:根据考生今年的名次,找到去年该名次的分数就是他的分数,将他的分数与投档线相比较以及他想去哪个省份,从而筛选出他能上的大学
2.利用word2vector算法将考生的专业意向切分成几个关键词,再转化成对应的几个词向量
3.将所有能上的学校里面的所有专业转化成院校专业词向量
4.第二步筛选:利用余弦相似度和共有词算法,求出与考生的那几个词向量最接近的院校专业词向量,保存结果集
5.排序:查询院校+专业的别的属性:院校等级(985:5分,211:4分...),专业等级(分值表),校园环境(分值表),师资力量(分值表),对每个属性进行200份问卷调查确定权重,计算综合得分后排序

浙公网安备 33010602011771号