随笔分类 -  python

1 2 3 4 5 ··· 18 下一页

python
Python 系列--爬虫利器Playwright
摘要:和数据打交道,工作中难免会遇到一些需要爬取数据的场景,由于一些网站的反爬措施,模拟浏览器登录,从开发者选项的源代码中获取想要的数据就成了一种解决方案。此时,Playwright、selenium 这些原本的自动化测试工具就派上了大用场。亲自体验后,觉得前者用起来特别方便,各种网站基本都能应付。因此准 阅读全文

posted @ 2025-04-21 16:44 ExplorerMan 阅读(1025) 评论(0) 推荐(0)

Python FlashText库:高效的关键词搜索和替换
摘要:在文本处理中,关键词搜索和替换是常见且重要的任务。传统的正则表达式在处理大量文本时可能效率不高,而Python的FlashText库提供了一种高效的关键词搜索和替换方法,尤其适合处理海量数据。本文将详细介绍FlashText库的功能、安装与配置、基本和高级用法,以及如何在实际项目中应用它。 Flas 阅读全文

posted @ 2025-04-09 19:43 ExplorerMan 阅读(114) 评论(0) 推荐(0)

莱文斯坦距离Levenshtein,一个超强的 Python 库!
摘要:更多Python学习内容:ipengtao.com 大家好,今天为大家分享一个超强的 Python 库 - Levenshtein。 Github地址:https://github.com/ztane/python-Levenshtein/ 文本相似性在许多领域如自然语言处理、数据清洗和信息检索中都 阅读全文

posted @ 2024-08-22 11:32 ExplorerMan 阅读(778) 评论(0) 推荐(0)

15行python代码,帮你理解令牌桶算法
摘要:在网络中传输数据时,为了防止网络拥塞,需限制流出网络的流量,使流量以比较均匀的速度向外发送,令牌桶算法就实现了这个功能, 可控制发送到网络上数据的数目,并允许突发数据的发送。 什么是令牌 从名字上看令牌桶,大概就是一个装有令牌的桶吧,那么什么是令牌呢? 紫薇格格拿的令箭,可以发号施令,令行禁止。在计 阅读全文

posted @ 2022-03-01 20:23 ExplorerMan 阅读(401) 评论(0) 推荐(0)

python下SimpleHTTPServer 用法
摘要:从VMware workstation虚拟机里面的linux传输文件时,除了ssh和scp、ftp常见的方法外,还有python下SimpleHTTPServer小工具也可以快捷的进行文件分析 SimpleHTTPServer是Python 2自带的一个模块,是Python的Web服务器。在Pyth 阅读全文

posted @ 2021-11-09 14:32 ExplorerMan 阅读(534) 评论(0) 推荐(0)

python --kakfa(三):kafka模块生产和消费数据
摘要:文章目录一、kafka是什么?二、使用步骤1. 安装1.引入库2.消费端:读取数据3.发送端:发送数据总结一、kafka是什么?kafka 是一个分布式流式计算平台。而在大部分企业开发人员中,都是把 kafka 当成消息系统使用,即它是一个分布式消息队列,很少会使用 kafka 的流式计算。它有四个 阅读全文

posted @ 2021-06-29 19:33 ExplorerMan 阅读(1077) 评论(0) 推荐(0)

python-- kafka(一): kafka 安装和查询
摘要:kafka 应用数据读取理论生产者和消费者 生产者:生产数据 消费者:消费生产者产生的数据 对应关系:一个任务可以有多个分组,可以对应多个消费者,但消费者数量不能大于生产者分组数量,多余的也是无用的。(多对多的中的一对一关系) 特性:kafka只需写入一次,可以支持任意多的应用读取全部数据,如果应用 阅读全文

posted @ 2021-06-29 19:32 ExplorerMan 阅读(456) 评论(0) 推荐(0)

python --kafka(二): confluent-kafka 模块生产数据消费数据
摘要:文章目录前言一、confluent-kafka 是什么?二、使用步骤1.引入库2.消费数据2.1 初始化consumer对象2.2 消费数据偏移量3. 生产数据总结前言kafka是一个开源的流处理平台,一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 一、conflu 阅读全文

posted @ 2021-06-29 19:31 ExplorerMan 阅读(4738) 评论(0) 推荐(0)

中文分词概述及结巴分词原理
摘要:词是中文表达语义的最小单位,自然语言处理的基础步骤就是分词,分词的结果对中文信息处理至为关键。 本文先对中文分词方法进行一下概述,然后简单讲解一下结巴分词背后的原理。 中文分词概述 简单来说,中文分词根据实现特点大致可分为两个类别: 基于词典的分词方法、基于统计的分词方法。 基于词典的分词方法 基于 阅读全文

posted @ 2021-06-22 17:11 ExplorerMan 阅读(1955) 评论(0) 推荐(0)

异步请求库aiohttp的使用
摘要:异步请求库aiohttp的使用 1.使用aiohttp发起一个请求 官方推荐使用一个客户端会话来发起所有请求,会话中记录了请求的cookie,但你还可以使用aiohttp.request来发送请求。 当我们使用 async def 就是定义了一个异步函数,异步逻辑由asyncio提供支持。 asyn 阅读全文

posted @ 2021-06-22 16:50 ExplorerMan 阅读(507) 评论(0) 推荐(0)

不懂抓包也能做APP爬虫?1招教你爬取抖音流行歌名
摘要:前言 说起APP爬虫,相信大家会很容易联想到一些抓包工具:Fiddler、Charles、mitmproxy和anyproxy等等。 借助这些抓包工具,我们可以知道APP在运行过程中具体发起了什么请求,之后我们就可以详细分析这些请求,再用程序模拟这些请求最终实现爬虫。 然而,在爬虫的实操中,APP的 阅读全文

posted @ 2021-06-22 11:57 ExplorerMan 阅读(768) 评论(0) 推荐(0)

Python异步Request操作: aiohttp
摘要:目录 1. Tutorial 2. 其他库推荐 2.1. aiohttp-requests 2.2. aiofiles 2.3. grequests 3. 问题记录 3.1. Multipart.FormData 示例 3.2. with open("xxx") 会被自动关闭 3.3. filena 阅读全文

posted @ 2021-06-10 15:33 ExplorerMan 阅读(612) 评论(0) 推荐(0)

小白爬虫第四弹之爬虫快跑(多进程 + 多线程)
摘要:PS:使用多线程时好像在目录切换的问题上存在问题,可以给线程加个锁试试 Hello 大家好!我又来了。你是不是发现下载图片速度特别慢、难以忍受啊!对于这种问题 一般解决办法就是多进程了!一个进程速度慢!我就用十个进程,相当于十个人一起干。速度就会快很多啦!(为什么不说多线程?懂点 Python 的小 阅读全文

posted @ 2021-06-10 15:25 ExplorerMan 阅读(203) 评论(0) 推荐(0)

python 爬虫之requests模块设置代理
摘要:文章目录为什么设置代理?设置代理常用获取代理IP地址测试IP地址可用性为什么设置代理?我们都知道上网连接到互联网时会有一个【ip】地址。 而网站都有请求的临界点,当我们对一个网站发起多次请求时,网站发现请求次数超过了临界点,就会自动屏蔽掉我们的【ip】,这时就再也无法访问此网站了。 这就是基础的一种 阅读全文

posted @ 2021-06-10 14:33 ExplorerMan 阅读(1492) 评论(0) 推荐(0)

python : itertools 中的 islice : 获取迭代器结果的切片,消耗迭代器
摘要:islice(iterable, [start, ] stop [, step]):创建一个迭代器,生成项的方式类似于切片返回值: iterable[start : stop : step],将跳过前start个项,迭代在stop所指定的位置停止,step指定用于跳过项的步幅。与切片不同,负值不会用 阅读全文

posted @ 2021-06-03 20:33 ExplorerMan 阅读(306) 评论(0) 推荐(0)

python中的imp模块——让引用模块更加简单
摘要:最近撸代码的时候发现python有一个imp模块,有点儿意思。 首先: pip install imp看模块名,可以看出其实就是"import"的缩写。在功能上也一样,但用起来比import要成熟一些。 直接看例子:在一个py文件中调用另一个py文件,不用import的方式。 第一个文件func.p 阅读全文

posted @ 2021-06-03 20:15 ExplorerMan 阅读(854) 评论(0) 推荐(0)

python3实现字符串的全排列的方法(无重复字符)
摘要:https://www.jb51.net/article/143357.htm 抛出问题 求任意一个字符串的全排列组合,例如a='123',输出 123,132,213,231,312,321。(暂时假定字符串没有重复) 解决方案 目前有两种解决的方法 方法一: 1 2 3 4 5 6 7 8 9 阅读全文

posted @ 2021-05-08 18:06 ExplorerMan 阅读(175) 评论(0) 推荐(0)

最长回文子序列
摘要:【题目】 注意,子序列跟子串是不一样的。子序列是从字符串中取出元素,相对顺序不变,但是可以不挨着。子串肯定是截取一段。 【方法一:记忆化搜索】 假设fun(char[] S , int i , int j) 返回的是串S[i...j]的最长回文子序列。 则如果S[i]==S[j] , 则:fun(S 阅读全文

posted @ 2021-04-20 11:44 ExplorerMan 阅读(72) 评论(0) 推荐(0)

iostat相关参数说明——await:平均每次设备I/O操作的等待时间 (毫秒),如果%util接近 100%,说明产生的I/O请求太多...
摘要:iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出 CPU使用情况。同vmstat一样,iostat也有一个弱点,就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。 iosta 阅读全文

posted @ 2021-03-25 13:17 ExplorerMan 阅读(954) 评论(0) 推荐(0)

【Python】说说字典和散列表,散列冲突的解决原理
摘要:散列表 Python 用散列表来实现 dict。散列表其实是一个稀疏数组(总是有空白元素的数组称为稀疏数组)。在一般书中,散列表里的单元通常叫做表元(bucket)。在 dict 的散列表当中,每个键值对都占用一个表元,每个表元都有两个部分,一个是对键的引用,一个是对值的引用。因为每个表元的大小一致 阅读全文

posted @ 2021-01-27 17:22 ExplorerMan 阅读(182) 评论(0) 推荐(0)

1 2 3 4 5 ··· 18 下一页

导航