摘要: B站账号:皮一下很开心的豆子 https://space.bilibili.com/152063970 阅读全文
posted @ 2020-04-14 19:42 douzujun 阅读(400) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/weixin_34032792/article/details/86010299 文件内容如下: more eng.txt chi.txt :::::::::::::: eng.txt :::::::::::::: semicolon comma deli 阅读全文
posted @ 2022-01-05 15:19 douzujun 阅读(9) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/f-ck-need-u/p/7521357.html 阅读全文
posted @ 2021-11-29 12:27 douzujun 阅读(8) 评论(0) 推荐(0) 编辑
摘要: cat result.tmp.case_t |awk -F'\t' '(($3==2) || ($3==3)) && ($4 < 0.4) {print}' 按 '\t'分开列,第三列为2/3,第四列 < 0.4的数据输出 阅读全文
posted @ 2021-11-15 15:17 douzujun 阅读(26) 评论(0) 推荐(0) 编辑
摘要: import sys for line in sys.stdin: line = line.strip('\n\r').split('\t') print("{0}\t{1}\1{2}\1{3}\1{4}\t{5}".format(line[0], line[2], line[3], line[4] 阅读全文
posted @ 2021-11-08 18:25 douzujun 阅读(10) 评论(0) 推荐(0) 编辑
摘要: shuf input_file.txt -o output_file.txt 阅读全文
posted @ 2021-11-08 17:45 douzujun 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 推荐系统评估指标 https://www.cnblogs.com/eilearn/p/14164687.html PNR(Positive Negative Rate) 正逆序比 = 正序数 / 逆序数; AUC(Area Under Curve) ROC(Receiver Operating Ch 阅读全文
posted @ 2021-10-21 15:25 douzujun 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 1 语法 https://www.runoob.com/linux/linux-comm-sed.html Linux sed 命令是利用脚本来处理文本文件。 sed 可依照脚本的指令来处理、编辑文本文件。 Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。 1. 1 语 阅读全文
posted @ 2021-10-11 10:13 douzujun 阅读(12) 评论(0) 推荐(0) 编辑
摘要: shell找出出现在A文件中,但是不在B文件中的行 cat A B B |sort |uniq -u > output.txt 阅读全文
posted @ 2021-10-11 10:04 douzujun 阅读(30) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/259993570 阅读全文
posted @ 2021-09-23 12:41 douzujun 阅读(40) 评论(0) 推荐(0) 编辑
摘要: # coding=utf-8 """PyTorch RoBERTa model. """ import math import warnings import fitlog import torch import torch.nn as nn import torch.nn.functional a 阅读全文
posted @ 2021-09-22 14:28 douzujun 阅读(62) 评论(0) 推荐(0) 编辑
摘要: 笔记摘抄 索引池是对当前所有item的判定,并不是所有item都可以出现在推荐这整个大的逻辑下面。举个例子,广告主的某个计划,只设定了相应的预算,如果预算花完了,或者广告主已经不想投了,那就需要从索引池里面拿掉。另一种情况是可能有多种索引池,广告主不想投放20-30的人群的时候,索引池就等于是其他年 阅读全文
posted @ 2021-09-20 22:14 douzujun 阅读(92) 评论(0) 推荐(0) 编辑
摘要: # In[1] import os from docx import Document dir_lists = os.listdir() for dir in dir_lists: if os.path.isdir(dir): # print(dir) words_lst = os.listdir( 阅读全文
posted @ 2021-09-09 22:18 douzujun 阅读(56) 评论(0) 推荐(0) 编辑
摘要: from PyPDF2 import PdfFileReader, PdfFileWriter def split(path, name_of_split): pdf = PdfFileReader(path) pdf_writer = PdfFileWriter() for page in ran 阅读全文
posted @ 2021-09-07 14:46 douzujun 阅读(38) 评论(0) 推荐(0) 编辑
摘要: import re re.findall('《(.*?)》', '《1334》qasdfa《23423》') 阅读全文
posted @ 2021-09-05 15:09 douzujun 阅读(343) 评论(0) 推荐(0) 编辑
摘要: # In[1] import os path = '/home/zjdou/jupyter/root/Smart-Writing/TextClassification/DATA' os.chdir(path) print(os.getcwd()) # In[2] import pandas as p 阅读全文
posted @ 2021-09-02 22:11 douzujun 阅读(40) 评论(0) 推荐(0) 编辑
摘要: import sys import numpy as np from scipy import stats ### Normality Check # H0: data is normally distributed def normality_check(data_A, data_B, name, 阅读全文
posted @ 2021-09-02 15:24 douzujun 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 一、简单DP 礼物最大价值(矩阵贪心类题目)剑指 Offer 47 class Solution { public: int maxValue(vector<vector<int>>& grid) { int m = grid.size(), n = grid[0].size(); for(int 阅读全文
posted @ 2021-08-30 20:04 douzujun 阅读(59) 评论(0) 推荐(0) 编辑
摘要: #include <iostream> #include <vector> #include <algorithm> using namespace std; int selectPartition(vector<int>& arr, int low, int high) { int mid = l 阅读全文
posted @ 2021-08-23 22:47 douzujun 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 先生成该表格: # In[1] import pandas as pd import os df = pd.read_excel('list.xlsx') ids = df['Pap ID'].to_list() lens = df['Page Length'].to_list() titles = 阅读全文
posted @ 2021-08-21 22:13 douzujun 阅读(60) 评论(0) 推荐(0) 编辑
摘要: https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247537696&idx=4&sn=4db4f54f831277c05e63b9c1df4ca75a&chksm=ebb76cf4dcc0e5e254f0b76fddcab79008837 阅读全文
posted @ 2021-07-08 11:06 douzujun 阅读(264) 评论(0) 推荐(0) 编辑
摘要: https://github.com/garrettj403/SciencePlots Demo import numpy as np import matplotlib.pyplot as plt import matplotlib matplotlib.matplotlib_fname() de 阅读全文
posted @ 2021-07-05 20:05 douzujun 阅读(210) 评论(0) 推荐(0) 编辑
摘要: ![PyTorch实现断点继续训练](https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA==&mid=2247556102&idx=3&sn=5977564462ff8c0db99ea044bc4dd3d4&chksm=ec1cf1ffdb6b78e95a8dec57e001c1db091cba7ec95fb5da27a3fb98f4c857297293 阅读全文
posted @ 2021-05-14 22:21 douzujun 阅读(253) 评论(0) 推荐(0) 编辑
摘要: Demo1 TfidfTransformer + CountVectorizer = TfidfVectorizer from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer corpus = [ 'T 阅读全文
posted @ 2021-05-13 16:51 douzujun 阅读(331) 评论(0) 推荐(0) 编辑
摘要: import spacy from tqdm import tqdm import numpy as np # In[8] def adj_dependcy_tree(argments, max_length=80): nlp = spacy.load('en') depend = [] depen 阅读全文
posted @ 2021-05-10 21:23 douzujun 阅读(178) 评论(0) 推荐(0) 编辑
摘要: nn.Parameter和F.linear class TextRNN(nn.Module): def __init__(self, input_size = 768, hidden_size = 164, output_size = 768, n_layers = 1, dropout = 0.1 阅读全文
posted @ 2021-05-06 16:02 douzujun 阅读(1612) 评论(0) 推荐(0) 编辑
摘要: 数据增强 自监督 GAN,VAE 对抗训练 https://zhuanlan.zhihu.com/p/91269728 (这个非常好!!!) 二阶段训练 迁移学习 其他 layerNorm可能有用 阅读全文
posted @ 2021-04-19 21:49 douzujun 阅读(119) 评论(0) 推荐(0) 编辑
摘要: https://segmentfault.com/a/1190000037592155 阅读全文
posted @ 2021-04-15 17:47 douzujun 阅读(327) 评论(0) 推荐(0) 编辑
摘要: import torch import torch.nn as nn from sklearn.preprocessing import LabelBinarizer from torch.nn import functional as F # In[4] class TextRNN(nn.Modu 阅读全文
posted @ 2021-04-14 22:41 douzujun 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 超级有用! 从上图的方程可以看出: 1、loss大则梯度更新量也大; 2、不同任务的loss差异大导致模型更新不平衡的本质原因在于梯度大小; 3、通过调整不同任务的loss权重wi可以改善这个问题; 4、直接对不同任务的梯度进行处理也可以改善这个问题; 所以,后续的方法大体分为两类: 1、在权重wi 阅读全文
posted @ 2021-04-08 17:35 douzujun 阅读(1136) 评论(0) 推荐(1) 编辑
摘要: https://github.com/hujinsen/pytorch_VAE_CVAE/blob/master/CVAE.ipynb 阅读全文
posted @ 2021-04-07 16:52 douzujun 阅读(231) 评论(0) 推荐(0) 编辑