会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
今夜无风
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
22
23
24
25
26
27
28
29
30
···
64
下一页
2020年12月
pandas奇怪的&操作
摘要: 使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa
阅读全文
posted @ 2020-12-01 10:52 今夜无风
阅读(81)
评论(0)
推荐(0)
2020年11月
Shell中$0、$1、$2含义
摘要: 今天恶补一下遗留的知识点,在sh文件中,注意以下几点: 1)首行最好加上:#!/bin/bash 2)$0 就是你写的shell脚本本身的名字,$1 是你给你写的shell脚本传的第一个参数,$2 是你给你写的shell脚本传的第二个参数 例子, 新建test.sh: #!/bin/sh expor
阅读全文
posted @ 2020-11-26 11:16 今夜无风
阅读(499)
评论(0)
推荐(0)
流计算
摘要: 数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapRedu
阅读全文
posted @ 2020-11-11 21:00 今夜无风
阅读(912)
评论(0)
推荐(0)
2020年10月
Java 版本tensorflow模型推理实现(基于bert命名实体、基于transform文本分类)
摘要: 最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co
阅读全文
posted @ 2020-10-30 17:30 今夜无风
阅读(2159)
评论(2)
推荐(0)
bert文本分类模型保存为savedmodel方式
摘要: 默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = {
阅读全文
posted @ 2020-10-28 18:26 今夜无风
阅读(1946)
评论(1)
推荐(1)
修正数据到json格式
摘要: def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat
阅读全文
posted @ 2020-10-27 13:41 今夜无风
阅读(330)
评论(0)
推荐(0)
实际应用中的词向量维度使用注意
摘要: nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim=
阅读全文
posted @ 2020-10-23 20:22 今夜无风
阅读(297)
评论(0)
推荐(0)
找出一组数据中重复数据
摘要: 使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F
阅读全文
posted @ 2020-10-23 16:05 今夜无风
阅读(229)
评论(0)
推荐(0)
快速进行词向量训练和读取
摘要: 1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v
阅读全文
posted @ 2020-10-22 13:05 今夜无风
阅读(446)
评论(0)
推荐(0)
多线程提速
摘要: 对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu
阅读全文
posted @ 2020-10-22 12:35 今夜无风
阅读(263)
评论(0)
推荐(0)
上一页
1
···
22
23
24
25
26
27
28
29
30
···
64
下一页
公告