随笔分类 -  NLP

上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要:背景介绍 阿里巴巴的生态系统下面有很多的计算平台,上面有各种各样的业务层,最中间是买家和卖家之间包括销售、支付等等之间的关系,外面建了一圈从娱乐到广告到金融到购物到物流等等各方面这样一个生态,中间有非常多的数据能够关联起来,所以对于阿里巴巴而言,这个图可以非常简练的概括我们在做什么,中间是最重要的数 阅读全文
posted @ 2021-09-30 14:20 今夜无风 阅读(760) 评论(0) 推荐(0)
摘要:问题: # 给你二叉树的根结点 root ,请你将它展开为一个单链表: # # # 展开后的单链表应该同样使用 TreeNode ,其中 right 子指针指向链表中下一个结点,而左子指针始终为 null 。 # 展开后的单链表应该与二叉树 先序遍历 顺序相同。 # # # # # 示例 1: # 阅读全文
posted @ 2021-09-07 17:58 今夜无风 阅读(214) 评论(0) 推荐(0)
摘要:思路: 1、由二叉树的前(先)序序列和中序序列建立该二叉树 分析:若二叉树的任意两个结点的值都不相同,则二叉树的前序序列和中序序列能唯一确定一棵二叉树。另外,由前序序列和中序序列的定义可知,前序序列中第一个结点必为根结点,而在中序序列中,根结点刚好是左、右子树的分界点,因此,可按如下方法建立二叉树: 阅读全文
posted @ 2021-09-06 22:14 今夜无风 阅读(832) 评论(0) 推荐(0)
摘要:问题: # 给你一个二叉树,请你返回其按 层序遍历 得到的节点值。 (即逐层地,从左到右访问所有节点)。 方法:广度优先遍历 # leetcode submit region begin(Prohibit modification and deletion) # Definition for a b 阅读全文
posted @ 2021-09-03 20:02 今夜无风 阅读(262) 评论(0) 推荐(0)
摘要:问题: # 给定一个二叉树,检查它是否是镜像对称的。 # # # # 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。 方法:递归 # leetcode submit region begin(Prohibit modification and deletion) # Definition 阅读全文
posted @ 2021-09-03 16:14 今夜无风 阅读(42) 评论(0) 推荐(0)
摘要:拿数据标注业务来说,学者们通过一些技术手段或者数学方法来降低人们标注的成本,学者们把这个方向称之为主动学习(Active Learning)。在整个机器学习建模的过程中有人工参与的部分和环节,并且通过机器学习方法筛选出合适的候选集给人工标注的过程。主动学习(Active Learning)的大致思路 阅读全文
posted @ 2021-09-03 14:33 今夜无风 阅读(312) 评论(0) 推荐(0)
摘要:[ ]+的意思是大于0取原值,小于0则取0。这叫做合页损失函数,训练方法叫做margin-based ranking criterion。此loss函数来自SVM,目的是将正和负尽可能分开。一般margin=1。 其中d是L1或L2的距离,表示h+r向量与t向量之间的距离。 资料:https://w 阅读全文
posted @ 2021-08-27 11:39 今夜无风 阅读(1312) 评论(0) 推荐(0)
摘要:torch.nn.Module.apply(fn) # 递归的调用weights_init函数,遍历nn.Module的submodule作为参数 # 常用来对模型的参数进行初始化 # fn是对参数进行初始化的函数的句柄,fn以nn.Module或者自己定义的nn.Module的子类作为参数 # f 阅读全文
posted @ 2021-08-20 16:45 今夜无风 阅读(789) 评论(0) 推荐(0)
摘要:如果模型中有BN层(Batch Normalization)和Dropout,需要在训练时添加model.train(),在测试时添加model.eval()。其中model.train()是保证BN层用每一批数据的均值和方差,而model.eval()是保证BN用全部训练数据的均值和方差;而对于D 阅读全文
posted @ 2021-08-20 16:06 今夜无风 阅读(1636) 评论(0) 推荐(0)
摘要:A command-line interface is provided to convert original Bert/GPT/GPT-2/Transformer-XL/XLNet/XLM checkpoints in models than be loaded using the from_p 阅读全文
posted @ 2021-08-10 16:04 今夜无风 阅读(617) 评论(0) 推荐(0)
摘要:最近也看了一些博客中的方法,不准备造轮子了,拿来主义使用当先。 几个参考: https://spaces.ac.cn/archives/4176 https://mp.weixin.qq.com/s?__biz=MzUyMDY0OTg3Nw%3D%3D&idx=1&mid=2247483824&sc 阅读全文
posted @ 2021-08-04 16:08 今夜无风 阅读(536) 评论(5) 推荐(0)
摘要:中文维基百科:高质量、易获取的语料,相当厚道,每月把所有条目都打包一次,爱我大维基。百度百科、互动百科 差评! 源数据下载地址:https://dumps.wikimedia.org/zhwiki/ 数据抽取脚本: from gensim.corpora.wikicorpus import extr 阅读全文
posted @ 2021-08-03 16:56 今夜无风 阅读(599) 评论(0) 推荐(0)
摘要:参考博客: https://www.ruilog.com/notebook/view/7287471fa6e0.html https://kavita-ganesan.com/how-to-incorporate-phrases-into-word2vec-a-text-mining-approac 阅读全文
posted @ 2021-08-02 21:31 今夜无风 阅读(137) 评论(0) 推荐(0)
摘要:知识体系的构建是指采用什么样的方式来组织和表达知识,核心是构建一个本体(或 schema)对目标知识进行描述。在这个本体中需要定义:1)知识的类别体系(如:人物类,娱乐人物,歌手等);2)各类别体系下实体间所具有的关系和实体自身所具有的属性;3)不同关系或者属性的定义域,值域等约束信息(如:出生日期 阅读全文
posted @ 2021-07-26 21:57 今夜无风 阅读(649) 评论(0) 推荐(0)
摘要:地址:https://zhuanlan.zhihu.com/p/388854673 阅读全文
posted @ 2021-07-13 22:05 今夜无风 阅读(25) 评论(0) 推荐(0)
摘要:from : 计算机学报 阅读全文
posted @ 2021-07-13 18:29 今夜无风 阅读(460) 评论(0) 推荐(0)
摘要:该文章信息量非常大,很多trick都具有极高的研究价值,可以应用到工程提升中。 参考该知乎:https://zhuanlan.zhihu.com/p/333202482 阅读全文
posted @ 2021-06-29 21:19 今夜无风 阅读(134) 评论(0) 推荐(0)
摘要:最近有幸看到美团知识图谱,专业性很强,业务场景中的应用也不错,大家可以借鉴学习下。 参考地址:https://mp.weixin.qq.com/s?src=11&timestamp=1624952442&ver=3159&signature=RVyvH4HBVEteaiJ6vaPzy-iiiRMMG 阅读全文
posted @ 2021-06-29 16:39 今夜无风 阅读(207) 评论(0) 推荐(0)
摘要:TextBrewer is a PyTorch-based model distillation toolkit for natural language processing. It includes various distillation techniques from both NLP an 阅读全文
posted @ 2021-06-29 15:11 今夜无风 阅读(294) 评论(0) 推荐(0)
摘要:基于SimBERT生成相似文本和检索相似文本的能力,我们会在文本分类任务中通过SimBERT来获取更多的伪标签语料。通过SimBERT根据现有的标注语料来生成相似文本,或者构建搜索库从搜索库中检索相似文本可以获取很多语义相关性较好的伪标签语料数据。这在实际的业务中也证明了可以有效提升我们分类器的效果 阅读全文
posted @ 2021-06-28 15:51 今夜无风 阅读(246) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 ··· 12 下一页