今夜无风 - 博客园

2020年12月

摘要：使用pandas在做“与”操作时，居然要将各自的条件使用括号🔗起来，不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文

posted @ 2020-12-01 10:52 今夜无风阅读(81) 评论(0) 推荐(0)

2020年11月

Shell中$0、$1、$2含义

摘要：今天恶补一下遗留的知识点，在sh文件中，注意以下几点： 1）首行最好加上：#!/bin/bash 2）$0 就是你写的shell脚本本身的名字，$1 是你给你写的shell脚本传的第一个参数，$2 是你给你写的shell脚本传的第二个参数例子，新建test.sh： #!/bin/sh expor 阅读全文

posted @ 2020-11-26 11:16 今夜无风阅读(499) 评论(0) 推荐(0)

流计算

摘要：数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase存放大量的静态数据，由MapRedu 阅读全文

posted @ 2020-11-11 21:00 今夜无风阅读(912) 评论(0) 推荐(0)

2020年10月

Java 版本tensorflow模型推理实现（基于bert命名实体、基于transform文本分类）

摘要：最近在做文本分类任务，由于在实际工程中需要用服务对外提供功能，故采用java调用pb模型完成推理，特将过程记录如下： 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co 阅读全文

posted @ 2020-10-30 17:30 今夜无风阅读(2159) 评论(2) 推荐(0)

bert文本分类模型保存为savedmodel方式

摘要：默认bert是ckpt，在进行后期优化和部署时，savedmodel方式更加友好写。 train完成后，调用如下函数： def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = { 阅读全文

posted @ 2020-10-28 18:26 今夜无风阅读(1946) 评论(1) 推荐(1)

修正数据到json格式

摘要： def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat 阅读全文

posted @ 2020-10-27 13:41 今夜无风阅读(330) 评论(0) 推荐(0)

实际应用中的词向量维度使用注意

摘要： nlp业务中，无可避免地要使用词向量做特征构建，维度过大导致计算量复杂，在百万级数据处理中速度非常慢，为了权衡工程需要，我们要根据实际情况做选取。我对比了不同纬度在使用上的效果，确定一个合理的范围，供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim= 阅读全文

posted @ 2020-10-23 20:22 今夜无风阅读(297) 评论(0) 推荐(0)

找出一组数据中重复数据

摘要：使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F 阅读全文

posted @ 2020-10-23 16:05 今夜无风阅读(229) 评论(0) 推荐(0)

快速进行词向量训练和读取

摘要： 1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v 阅读全文

posted @ 2020-10-22 13:05 今夜无风阅读(446) 评论(0) 推荐(0)

多线程提速

摘要：对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu 阅读全文

posted @ 2020-10-22 12:35 今夜无风阅读(263) 评论(0) 推荐(0)

公告