花阴偷移

[置顶] Elasticsearch 所有内置分析器介绍(5)

摘要： Elasticsearch 附带了各种内置分析器，可以直接在任何索引中使用，而无需额外配置： 1) 标准分析器 Standard Analyzer 该分析器的文本分词规则是：过滤掉大多数标点符号来划分单词，通过Unicode 文本分割算法，再转成小写的分词。支持删除常用的停用词(如:the， a 阅读全文

posted @ 2024-04-19 16:44 花阴偷移阅读(1) 评论(0) 推荐(0) 编辑

[置顶] Elasticsearch 创建自定义分析器(4)

摘要：一.自定义分析器当内置分析器不能满足时，可以创建一个自定义分析器，自定义分析器(analyzer)由： 1）0或多个 charactcr filter 字符过滤器 2) 1个 tokenizer 分词器，将文本切分为分词 3）0或多个 token filter 令牌过滤器，是属于分词后再过滤自定阅读全文

posted @ 2024-04-11 11:52 花阴偷移阅读(1) 评论(0) 推荐(0) 编辑

[置顶] Elasticsearch 配置内置分析器(3)

摘要：一. 内置分析器(analyzer) 内置分析器无需任何配置即可直接使用，也支持配置选项来更改其行为。下面示例，分别使用了自定义分析器与内置分析器 PUT my-index-000001 { "settings": { "analysis": { "analyzer": { "std_englis 阅读全文

posted @ 2024-04-09 10:34 花阴偷移阅读(3) 评论(0) 推荐(0) 编辑

[置顶] Elasticsearch 配置与测试分析器 (2)

摘要：一. 配置文本分析器(Configure text analysis) 默认情况下，Elasticsearch 使用standard分析器来进行文本分析，如果使用该分析器，则不用额外的配置。如果不满足，可以使用其它内置分析器，也可以创建自定义的分析器更好的控制，通常在生产实战中都是自定义分析器，方便阅读全文

posted @ 2024-04-08 11:43 花阴偷移阅读(1) 评论(0) 推荐(0) 编辑

[置顶] Elasticsearch 认识分词(1)

摘要：一.概述分词是构建倒排索引的重要一环。根据语言不同可以分为英文分词、中文分词等；根据分词实现的不同又分为标准分词器、空格分词器、停用词分词器等。在传统的分词器不能解决特定业务场景的问题时，往往需要自定义分词器。 1.1认识分词对于分词操作来说，英语单词分词相对简单，因为单词之间都会以空格或者标点阅读全文

posted @ 2024-04-07 17:25 花阴偷移阅读(3) 评论(0) 推荐(0) 编辑

[置顶] 动态判断是否需要Api接口鉴权

摘要：一.概述问题：在使用 asp.net core api 做业务开发时，在本地vs开发环境，部署后的测试环境，都需要先获取access_token，才能访问api接口，这样浪费了调试与测试时间。现状：我这里是通过Apollo 配置中心定义了二套配置环境，一是Dev环境：用于本地vs开发环境，部阅读全文

posted @ 2024-03-28 15:14 花阴偷移阅读(9) 评论(0) 推荐(0) 编辑

[置顶] 倒排索引

摘要：倒排索引主要由两部分组成： 1）单词词典，即每个文档进行分词后的词项在去重后组成的集合； 2）倒排文件是倒排列表持久化存储的结果，通常保存在磁盘等存储设备上。倒排列表记录了词项所在文档的文档列表、单词频率等信息。我们以4个文档为例：文档编号文档内容 1 作为一款领先的聊天助手，ChatGPT 阅读全文

posted @ 2024-03-27 10:54 花阴偷移阅读(3) 评论(0) 推荐(0) 编辑

[置顶] 数据清洗使用Parallel 多线程

摘要：一.概述在开发数据清洗时，ES数据集有600w条，每一条的子对象又有几十条，需要拿到子对象去重后的集合，使用分批提取ES数据，共535批。开始使用List来操作，关键代码如下： var specListAll = new List<SpecInfo>(); for (int i = 0; i < 阅读全文

posted @ 2024-03-21 18:09 花阴偷移阅读(8) 评论(0) 推荐(0) 编辑

[置顶] elasticsearch 在.net core中使用Script脚本批量更新

摘要：目的：目前有一家供应商数据有110w条数据，需要每天更新全部数据的Createtime创建时间(创建时间到秒不能全部都是一样的)，如果使用es游标或者使用分页查询出来再更新，方案是行不通的，这时想到使用Script脚本来批量更新(半小时内全部更新完成)，代码如下所示： /// <summary> 阅读全文

posted @ 2024-02-27 17:05 花阴偷移阅读(19) 评论(0) 推荐(0) 编辑

[置顶] linux cpu 内存分析

摘要： 1.通过分析服务器资源，当发现资源消耗过多时，需要分析什么进程占用了，如下所示 2.分析第一台服务器通过登录服务器，使用top命令查看，出来信息如下所示：进程182618的内存占用了52.6%,属于.net应用程序，通过已维护的文档，知道了哪些.net程序的部署了，最终找到是该web应用程序内存阅读全文

posted @ 2024-02-23 17:50 花阴偷移阅读(2) 评论(0) 推荐(0) 编辑

[置顶] 使用chrome 扩展书签自动保存网页，辅助采集

该文被密码保护。阅读全文

posted @ 2024-02-01 17:21 花阴偷移阅读(0) 评论(0) 推荐(1) 编辑

[置顶] scrapy 响应文本乱码(不支持Brotli解压)

摘要：一.介绍在scrapy中，默认不支持Brotli解压，当发现响应乱码时，如何分析确定是由Brotli压缩引起的呢？ 1）是看请求头是否有'Accept-Encoding': "gzip, deflate, br" 中的br，如果去掉br 再请求网页，如果响应不成功，则表示服务端只支持br压缩格式，阅读全文

posted @ 2024-01-31 10:59 花阴偷移阅读(11) 评论(0) 推荐(0) 编辑

[置顶] ja3/ja4 客户端指纹反爬

该文被密码保护。阅读全文

posted @ 2024-01-24 16:31 花阴偷移阅读(0) 评论(0) 推荐(0) 编辑

[置顶] javascript逆向--PyExecJS模拟执行破解compress加密网站(11)

摘要：一.digikey网站分析下面结合digikey网站的案例来分析：访问：https://www.digikey.cn/zh/products/filter/logic/buffers-drivers-receivers-transceivers/704 这个网站。通过浏览器开发工具知道，参数过滤是阅读全文

posted @ 2023-09-11 17:11 花阴偷移阅读(64) 评论(0) 推荐(0) 编辑

[置顶] elasticsearch from + size must be less than or equal to: [10000] but was [100000]

摘要：说明:当分页查询时，默认最大总数是10000（from+size<=10000），当我现在业务需要查询最大100000条时，就报错了。方案1：可以为某个es放开到指定的返回总数，也可以对整个es的索引做设置。但这样对内存消耗很大, 可能导致内存溢出，elasticsearch重启又会恢复默认100 阅读全文

posted @ 2023-08-24 10:37 花阴偷移阅读(29) 评论(0) 推荐(0) 编辑

[置顶] 将博客搬至CSDN

摘要：本人的博客将如数全部搬至CSDN。个人CSDN博客地址：https://blog.csdn.net/weixin_43394129 阅读全文

posted @ 2023-08-18 15:35 花阴偷移阅读(21) 评论(0) 推荐(0) 编辑

[置顶] js逆向--使用Tampermonkey监控、定位JavaScript操作cookie(10)

该文被密码保护。阅读全文

posted @ 2023-08-16 11:22 花阴偷移阅读(2) 评论(0) 推荐(0) 编辑

[置顶] js逆向--PyExecJS模拟执行javascript破解加密C网站(9）

该文被密码保护。阅读全文

posted @ 2023-08-15 15:25 花阴偷移阅读(1) 评论(0) 推荐(0) 编辑

[置顶] js逆向--常见的编码和加密(8）

该文被密码保护。阅读全文

posted @ 2023-08-11 15:32 花阴偷移阅读(2) 评论(0) 推荐(0) 编辑

[置顶] js逆向--借助playwright实现逆向js(7）

该文被密码保护。阅读全文

posted @ 2023-08-10 14:56 花阴偷移阅读(3) 评论(0) 推荐(0) 编辑

功名本是真儒事，公知否？

[置顶] Elasticsearch 所有内置分析器介绍(5)

[置顶] Elasticsearch 创建自定义分析器(4)

[置顶] Elasticsearch 配置内置分析器(3)

[置顶] Elasticsearch 配置与测试分析器 (2)

[置顶] Elasticsearch 认识分词(1)

[置顶] 动态判断是否需要Api接口鉴权

[置顶] 倒排索引

[置顶] 数据清洗使用Parallel 多线程

[置顶] elasticsearch 在.net core中使用Script脚本批量更新

[置顶] linux cpu 内存分析

[置顶] 使用chrome 扩展书签自动保存网页，辅助采集

[置顶] scrapy 响应文本乱码(不支持Brotli解压)

[置顶] ja3/ja4 客户端指纹反爬

[置顶] javascript逆向--PyExecJS模拟执行破解compress加密网站(11)

[置顶] elasticsearch from + size must be less than or equal to: [10000] but was [100000]

[置顶] 将博客搬至CSDN

[置顶] js逆向--使用Tampermonkey监控、定位JavaScript操作cookie(10)

[置顶] js逆向--PyExecJS模拟执行javascript破解加密C网站(9）

[置顶] js逆向--常见的编码和加密(8）

[置顶] js逆向--借助playwright实现逆向js(7）

导航

公告