爬虫 - 随笔分类 - Mokou

【2024.01.19】huginn爬取什么值得买的排行榜

摘要：一句命令就行，主要是搭配RSS使用 docker run -d -p 3000:3000 ghcr.io/yhdsl/huginn:latest 这次主要是为了自定义爬取内容筛选掉一些我用不上的，比如说奶粉啥的 { "schema_version": 1, "name": "什么值得买榜单", " 阅读全文

posted @ 2024-01-19 14:40 Mokou 阅读(138) 评论(0) 推荐(0)

【2022.07.04】executemany的插入前检查值是否存在

摘要：发包给数据库 def send_to_db(sql,data): conn = pymysql.connect(host='', user='', password='', port=, database='', autocommit=True ) cursor = conn.cursor(curs 阅读全文

posted @ 2022-07-04 15:07 Mokou 阅读(66) 评论(0) 推荐(0)

【2022.06.30】huginn常使用的xpath语法函数

摘要：在使用huginn的时候，常用到xpath语法和Liquid语法，liquid语法教程还是很好找的，但是xpath function相对来说比较难找一点，在这里自己总结下 translate translate(string, abc, XYZ) number 这个直接number(.)就可以用，但阅读全文

posted @ 2022-06-30 10:38 Mokou 阅读(302) 评论(0) 推荐(0)

【2022.06.23】python连接数据库

摘要：查有什么数据库 import pymysql conn = pymysql.connect(host='', user='root', password='123456', port=) cursor = conn.cursor(cursor=pymysql.cursors.DictCursor) 阅读全文

posted @ 2022-06-23 10:06 Mokou 阅读(78) 评论(0) 推荐(0)

【2022.06.21】python对日期进行的处理

摘要：主要是datetime和str之间的互相转化记录一下 import time import datetime import json # a = datetime.datetime.now() # b = a.strftime("%Y%m%d") # c = a + datetime.timede 阅读全文

posted @ 2022-06-21 15:58 Mokou 阅读(87) 评论(0) 推荐(0)

【2022.06.20】一些用得上的huginn代理

摘要：huginn的代理真的是太多了，我需要专门用一个帖子来记录用得上的代理 Http Status Agent HttpStatusAgent将检查一个url，并发出结果的HTTP状态代码，其中包含它等待回复的时间。此外，它还将选择性地发出一个或多个指定标头的值。指定，Http 状态代理将生成一个具阅读全文

posted @ 2022-06-20 14:37 Mokou 阅读(786) 评论(0) 推荐(0)

【2022.06.13】docker中huginn配置SMTP邮箱

摘要：网上huginn的SMTP配置有很多，但是有些教程很老了，而且也有些邮箱不适配国内的邮件服务商。所以在这里po一下我的docker配置方便以后我进行迁移阅读全文

posted @ 2022-06-13 10:04 Mokou 阅读(356) 评论(0) 推荐(0)

【2022.06.08】为什么选择Huginn

摘要：经过一段时间在公司的工作，我深刻意识到信息获取的重要性 huginn/huginn: Create agents that monitor and act on your behalf. Your agents are standing by! (github.com) 已经搭载在宿舍的服务器上了阅读全文

posted @ 2022-06-08 17:28 Mokou 阅读(227) 评论(0) 推荐(0)

【2022.06.06】通过huginn获取当日天气，每日一句英语

摘要：数据采集天气首先进入huginn新建一个WeatherAgent，huginn使用的是Dark Sky的数据但是Dark Sky已经不让注册了，我在翻别人的攻略的时候倒是有找到一个api_key 4731c5bca1bc15e6f0738a8d0bc13665 输入以下数据可以得到 { "a 阅读全文

posted @ 2022-06-07 10:41 Mokou 阅读(223) 评论(0) 推荐(0)

【2022.06.05】未映射到宿主机docker文件的备份与迁移（以huginn为例）

摘要：步骤备份进入docker内部 mysqldump --single-transaction --opt -u root -ppassword huginn_production > huginn_backupfile.sql 会在当前目录生成huginn_backupfile.sql文件迁移阅读全文

posted @ 2022-06-06 15:25 Mokou 阅读(139) 评论(0) 推荐(0)

【2022.06.04】huginn对动态网页进行爬取

摘要：前言下载了别人的scenarios，Huginn.io (huginnio.herokuapp.com)，想看看数据是怎么进行传输的，最后怎样生成RSS 结果发现该链接已经变成了动态网页，不能使用静态获取那么就顺便学习一下怎么爬取动态网页吧 Phantom Js agent 注册进入网站进行注阅读全文

posted @ 2022-06-06 10:38 Mokou 阅读(692) 评论(0) 推荐(0)

【2022.06.03】huginn的搭建，和基础介绍

摘要：因为最近有获取RSS的需求，所以打算开始研究Huginn 复杂的事情简单化，简单的事情标准化，标准的事情流程化，流程的事情自动化而huginn扮演的事情就是后三步最初的素材A（或者是等待烧制RSS的网站，或者是摘要RSS），进入Huginn/工厂，通过一个又一个的Agent/车间流水线，在工厂内阅读全文

posted @ 2022-06-05 22:34 Mokou 阅读(1161) 评论(0) 推荐(0)

【2022.06.02】RSS入门

摘要：最近因为B站和油管的垃圾算法推荐，我取消推荐后，仍然给我推送，让我感觉很难受，所以盯上了RSS 之前我觉得RSS没有必要，只是瞎折腾罢了，深入了解了一下后，发现其还是有不少优点的优点优点1 最大的优点就是，我们可以不使用APP直接获取消息比如我偶尔会看什么值得买的数码推荐榜，但是每次要获取这个阅读全文

posted @ 2022-06-05 15:49 Mokou 阅读(272) 评论(0) 推荐(0)

【2022.05.28】动态网页爬取，对txt文档处理

摘要：之前写爬虫使用的都是强制等待，这么做的话会有问题，有的时候网络环境不好的话，那么可能始终加载不出来，所以本次采用了显示等待隐式等待是在加载整个网页加载完成，所以还是使用显示等待，等待某个元素出现，这样会比较好一些读取网络路径的文件出了一点儿问题，以前都是读取本地文件的那么就读取下来 from 阅读全文

posted @ 2022-05-29 16:02 Mokou 阅读(209) 评论(0) 推荐(0)

【2022.05.26】安装jupyter lab

摘要：jupyter notebook 因为之前写爬虫项目时候总是要从头开始开始跑所以这次就安装一个jupyter，因为可以保存变量，方便我逐步调参在终端输入 pip install jupyter 在目录下打开并且终端输入 jupyter notebook 这样就可以在网页中使用jupyter no 阅读全文

posted @ 2022-05-26 09:18 Mokou 阅读(478) 评论(0) 推荐(0)

【2022.05.25】对无验证码的整个网页公告的内容进行自适应爬取(4)

摘要：学习内容今天主要要做的就是将爬取到的数据放入excel文件之中在使用selenium的时候，需要解析网页数据的话，使用driver.page_source获取到网页源代码，再使用lxml解析最方便还踩了一个坑：将循环得到的字典添加到列表中，输出的结果出现重复最后一个字典，要把字典声明放在循环内阅读全文

posted @ 2022-05-26 07:52 Mokou 阅读(99) 评论(0) 推荐(0)

莫多心情小站

———— I continue to fight.

随笔分类 - 爬虫

公告