justDoIT& - 博客园

2020年8月22日

摘要：转载自一个博客——作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！一、jieba分词特点：支持3种分词模式；支持繁体分词；支持自定义词典。二、jieba分词的过程： 1、基于前缀词典实现词图扫描，生成句子中所有可阅读全文

posted @ 2020-08-22 13:13 justDoIT& 阅读(767) 评论(0) 推荐(0)

2020年8月7日

[NLP]搜狗词典、百度词典转换成txt文件

摘要：将搜狗的scel文件转换成txt格式，从网站上copy的，但是忘记是哪个网站了。 #!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb # 搜狗的scel词库就是保存阅读全文

posted @ 2020-08-07 17:53 justDoIT& 阅读(1093) 评论(0) 推荐(0)

2020年8月5日

[NLP]分词模型、创建词库

摘要：金融领域的专有名词较多，使用通用的分词工具的话效果很不好，我使用了4个分词工具：lac,pkuseg,thulac,jieba，针对分词效果来说，thulac能考虑到金融名词，但是在数字的切词上很奇怪，其余三个则是完全不考虑金融名词，具体过程如下：原句：三季报显示，公司资本公积比年初增加了2306 阅读全文

posted @ 2020-08-05 17:23 justDoIT& 阅读(2372) 评论(0) 推荐(0)

2020年7月23日

[NLP]文本分类-textCNN

摘要：一、简要卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram. 卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。二、textCNN 具体描述： 1、第一层是输入层，输入层是一个n*d矩阵，其中阅读全文

posted @ 2020-07-23 20:37 justDoIT& 阅读(765) 评论(0) 推荐(0)

2020年7月22日

[NLP]词向量查询

摘要： 1、可以使用annoy进行词向量搜索加速，速度可以提高200倍左右 2、腾讯有一个公开的中文词向量集，800多万中文词，200维，有16G多（很占内存）阅读全文

posted @ 2020-07-22 22:48 justDoIT& 阅读(395) 评论(0) 推荐(0)

2020年7月16日

[DL]正则

摘要：阅读全文

posted @ 2020-07-16 14:05 justDoIT& 阅读(118) 评论(0) 推荐(0)

[DL]优化算法

摘要：一、优化算法：我们知道，经过网络层的计算后，计算结果可能距离真值很远，此时，我们需要通过优化算法来不断调整计算值，使其最终的计算结果——预测值，与真值中的差异尽量小。二、优化算法举例： 1、梯度下降： Mini-batch梯度下降：用子训练集进行梯度下降 batch梯度下降：用整个训练集进行梯度下阅读全文

posted @ 2020-07-16 13:48 justDoIT& 阅读(262) 评论(0) 推荐(0)

[DL]激活函数

摘要：一、激活函数：是一个非线性函数，用激活函数套在线性函数外面，正割函数就变成非线性函数，用在神经网络中，可以使得本只能拟合线性曲线的网络层，可以拟合非线性曲线。二、激活函数举例： 1、sigmoid: y=1/(1+e^{-x}) ——>0<y<1,mean=0.5，适用于二分类 2、tanh: y 阅读全文

posted @ 2020-07-16 13:08 justDoIT& 阅读(210) 评论(0) 推荐(0)

2020年7月7日

[DL]pytorch中部分损失函数粗解：NLLLoss与CrossEntropyLoss，BCELoss与CrossEntropyLoss，BCELoss与BCEWithLosgitsLoss之间的区别

摘要： 1、NLLLoss与CrossEntropy之间的区别: NLLLoss中是先做log-softmax处理后，再取负即可。 CrossEntropyLoss则直接计算损失，内部会自动进行softmax处理。 2、BCELoss与CrossEntropyLoss之间的区别：（交叉熵的计算公式不一样）阅读全文

posted @ 2020-07-07 23:01 justDoIT& 阅读(697) 评论(0) 推荐(0)

2020年7月5日

[NLP]文本摘要介绍

摘要：一、摘要的主要分类文本摘要：从数据上来看，分为利用无监督数据（自动摘要）和有监督数据两种方法文本摘要：从获取方法上看，分为抽取式摘要（从原文中抽取多个句子组成概要）和生成式摘要（先是自然语言理解进行篇章理解，然后用自然语言生成来生成摘要）两种方法。深度学习模型：BertSum,XLNet等阅读全文

posted @ 2020-07-05 21:36 justDoIT& 阅读(1582) 评论(0) 推荐(0)

JustDoIT

公告