随笔分类 -  爬虫

摘要:一句命令就行,主要是搭配RSS使用 docker run -d -p 3000:3000 ghcr.io/yhdsl/huginn:latest 这次主要是为了自定义爬取内容 筛选掉一些我用不上的,比如说奶粉啥的 { "schema_version": 1, "name": "什么值得买榜单", " 阅读全文
posted @ 2024-01-19 14:40 Mokou 阅读(130) 评论(0) 推荐(0)
摘要:发包给数据库 def send_to_db(sql,data): conn = pymysql.connect(host='', user='', password='', port=, database='', autocommit=True ) cursor = conn.cursor(curs 阅读全文
posted @ 2022-07-04 15:07 Mokou 阅读(49) 评论(0) 推荐(0)
摘要:在使用huginn的时候,常用到xpath语法和Liquid语法,liquid语法教程还是很好找的,但是xpath function相对来说比较难找一点,在这里自己总结下 translate translate(string, abc, XYZ) number 这个直接number(.)就可以用,但 阅读全文
posted @ 2022-06-30 10:38 Mokou 阅读(282) 评论(0) 推荐(0)
摘要:查有什么数据库 import pymysql conn = pymysql.connect(host='', user='root', password='123456', port=) cursor = conn.cursor(cursor=pymysql.cursors.DictCursor) 阅读全文
posted @ 2022-06-23 10:06 Mokou 阅读(63) 评论(0) 推荐(0)
摘要:主要是datetime和str之间的互相转化 记录一下 import time import datetime import json # a = datetime.datetime.now() # b = a.strftime("%Y%m%d") # c = a + datetime.timede 阅读全文
posted @ 2022-06-21 15:58 Mokou 阅读(69) 评论(0) 推荐(0)
摘要:huginn的代理真的是太多了,我需要专门用一个帖子来记录用得上的代理 Http Status Agent HttpStatusAgent将检查一个url,并发出结果的HTTP状态代码,其中包含它等待回复的时间。此外,它还将选择性地发出一个或多个指定标头的值。 指定 ,Http 状态代理将生成一个具 阅读全文
posted @ 2022-06-20 14:37 Mokou 阅读(723) 评论(0) 推荐(0)
摘要:网上huginn的SMTP配置有很多,但是有些教程很老了,而且也有些邮箱不适配国内的邮件服务商。所以在这里po一下我的docker配置 方便以后我进行迁移 阅读全文
posted @ 2022-06-13 10:04 Mokou 阅读(335) 评论(0) 推荐(0)
摘要:经过一段时间在公司的工作,我深刻意识到信息获取的重要性 huginn/huginn: Create agents that monitor and act on your behalf. Your agents are standing by! (github.com) 已经搭载在宿舍的服务器上了 阅读全文
posted @ 2022-06-08 17:28 Mokou 阅读(199) 评论(0) 推荐(0)
摘要:数据采集 天气 首先进入huginn新建一个WeatherAgent,huginn使用的是Dark Sky的数据 但是Dark Sky已经不让注册了,我在翻别人的攻略的时候倒是有找到一个api_key 4731c5bca1bc15e6f0738a8d0bc13665 输入以下数据 可以得到 { "a 阅读全文
posted @ 2022-06-07 10:41 Mokou 阅读(203) 评论(0) 推荐(0)
摘要:步骤 备份 进入docker内部 mysqldump --single-transaction --opt -u root -ppassword huginn_production > huginn_backupfile.sql 会在当前目录生成huginn_backupfile.sql文件 迁移 阅读全文
posted @ 2022-06-06 15:25 Mokou 阅读(132) 评论(0) 推荐(0)
摘要:前言 下载了别人的scenarios,Huginn.io (huginnio.herokuapp.com),想看看数据是怎么进行传输的,最后怎样生成RSS 结果发现该链接已经变成了动态网页,不能使用静态获取 那么就顺便学习一下怎么爬取动态网页吧 Phantom Js agent 注册 进入网站进行注 阅读全文
posted @ 2022-06-06 10:38 Mokou 阅读(652) 评论(0) 推荐(0)
摘要:因为最近有获取RSS的需求,所以打算开始研究Huginn 复杂的事情简单化,简单的事情标准化,标准的事情流程化,流程的事情自动化 而huginn扮演的事情就是后三步 最初的素材A(或者是等待烧制RSS的网站,或者是摘要RSS),进入Huginn/工厂,通过一个又一个的Agent/车间流水线,在工厂内 阅读全文
posted @ 2022-06-05 22:34 Mokou 阅读(1112) 评论(0) 推荐(0)
摘要:最近因为B站和油管的垃圾算法推荐,我取消推荐后,仍然给我推送,让我感觉很难受,所以盯上了RSS 之前我觉得RSS没有必要,只是瞎折腾罢了,深入了解了一下后,发现其还是有不少优点的 优点 优点1 最大的优点就是,我们可以不使用APP直接获取消息 比如我偶尔会看什么值得买的数码推荐榜,但是每次要获取这个 阅读全文
posted @ 2022-06-05 15:49 Mokou 阅读(251) 评论(0) 推荐(0)
摘要:之前写爬虫使用的都是强制等待,这么做的话会有问题,有的时候网络环境不好的话,那么可能始终加载不出来,所以本次采用了显示等待 隐式等待是在加载整个网页加载完成,所以还是使用显示等待,等待某个元素出现,这样会比较好一些 读取网络路径的文件出了一点儿问题,以前都是读取本地文件的 那么就读取下来 from 阅读全文
posted @ 2022-05-29 16:02 Mokou 阅读(200) 评论(0) 推荐(0)
摘要:jupyter notebook 因为之前写爬虫项目时候总是要从头开始开始跑 所以这次就安装一个jupyter,因为可以保存变量,方便我逐步调参 在终端输入 pip install jupyter 在目录下打开并且终端输入 jupyter notebook 这样就可以在网页中使用jupyter no 阅读全文
posted @ 2022-05-26 09:18 Mokou 阅读(461) 评论(0) 推荐(0)
摘要:学习内容 今天主要要做的就是将爬取到的数据放入excel文件之中 在使用selenium的时候,需要解析网页数据的话,使用driver.page_source获取到网页源代码,再使用lxml解析最方便 还踩了一个坑:将循环得到的字典添加到列表中,输出的结果出现重复最后一个字典,要把字典声明放在循环内 阅读全文
posted @ 2022-05-26 07:52 Mokou 阅读(85) 评论(0) 推荐(0)