随笔档案「2021年8月」 - Simbanana

十大经典预测算法

摘要：线性回归输入与输出符合线性关系定义损失函数，损失函数是点（输入，标签）到直线的距离表示，越小越好通过梯度下降的方法，求解最优参数是一个迭代更新的过程属于监督学习逻辑回归输入属于与输入不符合线性关系标签为0-1 只能通过梯度下降来求最优参数分类任务， GBDT （梯度提升决策树）阅读全文

posted @ 2021-08-24 13:59 Simbanana 阅读(3081) 评论(0) 推荐(0)

NLP 任务官方过程

摘要：####sklearn.model_selection.split模块将模型分割，eg.数据集与验证集 ####Keras分词器 Tokenizer 测试的时候由于版本问题，导包要在Keras前面家tensorflow. Tokenizer中ovv以及其它参数的使用案例 ####序列预处理pad_ 阅读全文

posted @ 2021-08-19 18:19 Simbanana 阅读(62) 评论(0) 推荐(0)

Jigsaw Unintended Bias in Toxicity Classification 完整代码

摘要：from collections import Counter from contextlib import contextmanager import copy from functools import partial from itertools import chain from multi 阅读全文

posted @ 2021-08-17 20:26 Simbanana 阅读(90) 评论(0) 推荐(0)

Jigsaw Unintended Bias in Toxicity Classification

摘要：##任务的目的 ###原文表述 Jigsaw Unintended Bias in Toxicity Classification Training a model from data with these imbalances risks simply mirroring those biases 阅读全文

posted @ 2021-08-12 14:37 Simbanana 阅读(131) 评论(0) 推荐(0)

anaconda笔记

摘要：通过anaconda创建了新的环境后，进入新的环境，通过pip命令安装依赖的包，安装的位置为：/opt/anaconda3/envs/tf2/lib/python3.8/site-packages，即anaconda目录下，对应环境里，python3.8（根据python版本确定）下的site-pa 阅读全文

posted @ 2021-08-12 12:26 Simbanana 阅读(31) 评论(0) 推荐(0)

Neural Machine Translation

摘要：##目的： ####将输入的语句，换一种形式输出，不改变原有的意思 ##过程： ####数据预处理：分为两个字典待翻译字典翻译后的字典下标-to-字符字符-to-下标两个长度 Tx:待翻译句子的最大长度，小于则用做填充，大于则截取，一般选取词典的大小 Ty:f翻译后语句的长度，通过需求设阅读全文

posted @ 2021-08-11 16:31 Simbanana 阅读(80) 评论(0) 推荐(0)

Emojify!

摘要：#####目的：通过输入目标语句，输出对应的表情过程： 1、计算句子的平均词向量传入：目标句子、词向量词典将目标句子进行分词处理将每个词的词向量累加并基数，再求平均输出：输出平均词向量 2、训练模型传入（训练集，标签集，词向量词典，学习率，迭代次数）输出（预测的概率集合， softMa 阅读全文

posted @ 2021-08-09 20:12 Simbanana 阅读(91) 评论(0) 推荐(0)

Operations on Word Vectors

摘要：1、导包 2、加载词向量 3、词嵌入向量--独热编码 4、余弦相似度的（图一）通过点乘完成二范式的计算（针对一维向量可以实现）练习一 5、词类推任务练习二函数推理（三个词、一个词嵌入字典）将词转换成小写得到对应的词嵌入向量得到字典中的所有词设置初始相似度值以及最优解遍历整个字典阅读全文

posted @ 2021-08-06 16:38 Simbanana 阅读(55) 评论(0) 推荐(0)

Improvise a Jazz Solo with an LSTM Network编程作业随笔记录

摘要：#####加载生语料，并进行预处理，使之成为可供模型训练的“值” #####输入：X ( m , Tx , n ) m表示样本的个数 Tx表示有多少时间步（一个样本被分成了多少个部分 n表示有多少个候选项（所有音符） #####与恐龙名字对比：初始化：生成音乐：X初始化为非0向量，因为音乐是从片阅读全文

posted @ 2021-08-04 17:47 Simbanana 阅读(176) 评论(0) 推荐(0)

Character level language model - Dinosaurus Island脉络总结

摘要：##1、打开数据集读取恐龙名字，并创建字符列表创建 char_to_ix 与 ix_to_char，作用：将softmax结果转换成字母 ##2、初始化参数输入X 0向量隐藏层状态a 0向量循环：前向传播计算损失反向传播计算关于损失的梯度修剪梯度以免梯度爆炸用梯度下降更新规则更新参阅读全文

posted @ 2021-08-04 10:12 Simbanana 阅读(160) 评论(0) 推荐(0)

Simbanana

08 2021 档案

公告