摘要: 在配置zookeeper集群时,遇到启动zookeeper后几秒就闪退 经过一系列疯狂查找后解决问题 方法一: 在zookeeper的配置文件zoo.cfg中 在/zkData/installed里面查找zookeeper_server.pid这个文件 文件内保存的是zookeeper的启动id,当 阅读全文
posted @ 2022-11-09 12:48 皓_月 阅读(1929) 评论(0) 推荐(0)
摘要: 最近在使用Hadoop集群的时候,一直无法从Standby切换回Active 模式,导致无法使用,寻找方法数小时,未果。 最终解决问题 方法一: linux没有安装 psmisc 在每台机器上安装一下 yum -y install psmisc 方法二: linux系统之间需要免密登陆 ,在dsa加 阅读全文
posted @ 2022-10-26 09:15 皓_月 阅读(921) 评论(0) 推荐(0)
摘要: 最近在使用虚拟机时,遇到了如下的问题 One of the configured repositories failed (未知), and yum doesn't have enough cached data to continue. At this point the only safe th 阅读全文
posted @ 2022-10-20 10:00 皓_月 阅读(3047) 评论(1) 推荐(1)
摘要: 思想和方法上都很简单 就是要注意我们爬取的xpath路径的问题 此处代码我嫌弃有点慢,就用了多线程下载 代码如下: ``` import requestsfrom lxml import etreefrom concurrent.futures import ThreadPoolExecutorim 阅读全文
posted @ 2022-06-17 17:57 皓_月 阅读(64) 评论(0) 推荐(0)
摘要: 运用了python本身自带的协程库asyncio 协程的思路就是运用了多个程序作用一样 当程序有多个io操作时,会大大降低程序运行的效率 为了提高效率,我们在使用python协程库爬取的时候,当我们遇到一个函数中的io操作拖慢我们的时间时 协程可以让我们的cpu不停下来,去运行其他的代码,当其他的代 阅读全文
posted @ 2022-06-16 09:54 皓_月 阅读(133) 评论(0) 推荐(0)
摘要: 首先 多线程和多进程都是一样的格式,这个是python本身语言的封装优势 也就是说python中,多线程和多进程的调用方法几乎是一模一样的 就是把调用线程的函数换成了调用进程的函数 其次就是 调用线程和进程的函数库是python自带的原生库 不用自己去pip下载!!!!! from concurre 阅读全文
posted @ 2022-06-14 22:13 皓_月 阅读(98) 评论(0) 推荐(0)
摘要: 爬取一些网站下指定的内容,一般来说可以用xpath来直接从网页上来获取,但是当我们获取的内容不唯一的时候我们无法选择,我们所需要的、所指定的内容。 解决办法: 可以使用for In 语句来判断 如果我们所指定的内容在这段语句中我们就把这段内容爬取下来,反之就丢弃 实列代码如下:(以我们学校为例) i 阅读全文
posted @ 2022-06-14 08:56 皓_月 阅读(1135) 评论(0) 推荐(0)