皓_月 - 博客园

2022年11月9日

摘要：在配置zookeeper集群时，遇到启动zookeeper后几秒就闪退经过一系列疯狂查找后解决问题方法一：在zookeeper的配置文件zoo.cfg中在/zkData/installed里面查找zookeeper_server.pid这个文件文件内保存的是zookeeper的启动id，当阅读全文

posted @ 2022-11-09 12:48 皓_月阅读(1955) 评论(0) 推荐(0)

2022年10月26日

Hadoop集群切换（Active - Standby）

摘要：最近在使用Hadoop集群的时候，一直无法从Standby切换回Active 模式，导致无法使用，寻找方法数小时，未果。最终解决问题方法一： linux没有安装 psmisc 在每台机器上安装一下 yum -y install psmisc 方法二: linux系统之间需要免密登陆，在dsa加阅读全文

posted @ 2022-10-26 09:15 皓_月阅读(935) 评论(0) 推荐(0)

2022年10月20日

One of the configured repositories failed，yum在下载httpd时出错

摘要：最近在使用虚拟机时，遇到了如下的问题 One of the configured repositories failed (未知), and yum doesn't have enough cached data to continue. At this point the only safe th 阅读全文

posted @ 2022-10-20 10:00 皓_月阅读(3062) 评论(1) 推荐(1)

2022年6月17日

协程爬取标题和作者

摘要：思想和方法上都很简单就是要注意我们爬取的xpath路径的问题此处代码我嫌弃有点慢，就用了多线程下载代码如下： ``` import requestsfrom lxml import etreefrom concurrent.futures import ThreadPoolExecutorim 阅读全文

posted @ 2022-06-17 17:57 皓_月阅读(65) 评论(0) 推荐(0)

2022年6月16日

爬虫协程爬取

摘要：运用了python本身自带的协程库asyncio 协程的思路就是运用了多个程序作用一样当程序有多个io操作时，会大大降低程序运行的效率为了提高效率，我们在使用python协程库爬取的时候，当我们遇到一个函数中的io操作拖慢我们的时间时协程可以让我们的cpu不停下来，去运行其他的代码，当其他的代阅读全文

posted @ 2022-06-16 09:54 皓_月阅读(144) 评论(0) 推荐(0)

2022年6月14日

多线程版本的网页爬取

摘要：首先多线程和多进程都是一样的格式，这个是python本身语言的封装优势也就是说python中，多线程和多进程的调用方法几乎是一模一样的就是把调用线程的函数换成了调用进程的函数其次就是调用线程和进程的函数库是python自带的原生库不用自己去pip下载！！！！！ from concurre 阅读全文

posted @ 2022-06-14 22:13 皓_月阅读(105) 评论(0) 推荐(0)

python爬虫爬取指定内容

摘要：爬取一些网站下指定的内容，一般来说可以用xpath来直接从网页上来获取，但是当我们获取的内容不唯一的时候我们无法选择，我们所需要的、所指定的内容。解决办法：可以使用for In 语句来判断如果我们所指定的内容在这段语句中我们就把这段内容爬取下来，反之就丢弃实列代码如下：（以我们学校为例） i 阅读全文

posted @ 2022-06-14 08:56 皓_月阅读(1141) 评论(0) 推荐(0)

h-y-26

公告