随笔分类 - NLP
摘要:1.深度模型增加参数空间,提高拟合能力; 2.Attention机制捕捉各基础特征间的关联信息,组合性更加强悍; 3.文本多标签预测难度较大,采用0,1进行label表示。 以下给出模型类供参考,分类效果很不错: class BaseClassier(object): def __init__(se
阅读全文
摘要:多模态数字内容生成,泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成,成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。在京东
阅读全文
摘要:作为人工智能领域中热度最高、挑战最大的子领域之一,自然语言处理(NLP)在最近几年得到了飞速的发展。2020 年我们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的激烈讨论。短短一年时间,知识图谱的成熟度由萌芽期一跃达到预期膨胀高峰且非常接近最高点… 近日,京东科技算法科学家、高级
阅读全文
摘要:在工程应用中,有时会用到一些辅助模块提高性能指标,如在营业执照识别中,有识别name这一功能,但针对分类来说效果是比较差的,需要ner专门识别,但独立训练就比较鸡肋,此时可以借助相应工具。如deepner组件: 1) 安装 pip install deep-text pip install deep
阅读全文
摘要:例如,查找包含有“hello"关键词的行: cat file.txt | grep hello #实现查看关键字的所有行 cat file.txt | grep hello head -n 100 #实现查看关键字的前100行 cat file.txt | grep hello | tail -n
阅读全文
摘要:使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa
阅读全文
摘要:今天恶补一下遗留的知识点,在sh文件中,注意以下几点: 1)首行最好加上:#!/bin/bash 2)$0 就是你写的shell脚本本身的名字,$1 是你给你写的shell脚本传的第一个参数,$2 是你给你写的shell脚本传的第二个参数 例子, 新建test.sh: #!/bin/sh expor
阅读全文
摘要:最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co
阅读全文
摘要:默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = {
阅读全文
摘要:def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat
阅读全文
摘要:nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim=
阅读全文
摘要:使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F
阅读全文
摘要:1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v
阅读全文
摘要:对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu
阅读全文
摘要:方式一:multiprocessing.Process def worker(procnum, return_dict): '''worker function''' print str(procnum) + ' represent!' return_dict[procnum] = procnum
阅读全文
摘要:记录一个小的脚本 """ Function: extract the key info Author: dyx DateTime: 20200805 """ import pandas as pd current_file = r'./data/original.xlsx' to_save = r'
阅读全文
摘要:今天简单列举两个常用的采样方法:softmax采样和gamble采样。 在我们已知数据的概率分布后,想要根据已有的概率值,抽取出适合的数据。此时,就需要特定的采样函数拿数据。 简要代码如下: """ 采样方法 """ import numpy as np np.random.seed(1111) #
阅读全文
摘要:模型精简的流程如下:pretrian model -> retrain with new data(fine tuning) -> pruning -> retrain -> model 对bert进行层数剪枝,保留第一层和第十二层参数,再用领域数据微调。代码如下: """ test """ imp
阅读全文
摘要:资源一、Synonyms Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。 该中文近义词工具包采用的
阅读全文
摘要:1.问题:写出一个算法,对给定的n个数的序列,返回序列中的最大和最小的数. 设计出一个算法,只需要执行1.5n次比较就能找到序列中最大和最小的数吗?能否再少? 解析:要求比较次数为1.5n,使用一般的逐个遍历每个元素然后判断其是否为最大最小值是需要2n次的比较的,所以这样的方法是行不通的。现在考虑采
阅读全文
浙公网安备 33010602011771号