上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 135 下一页

2024年7月17日

整理几个youtube 数据处理的包

摘要: 对于需要进行youtube 数据处理的,有几个不错的工具包,可以选择youtube-transcript-api 核心是处理字幕的,可以提供不少参数pytube 支持下载视频,字幕,缩略图。。。yt-dlp 属于一个cli 以及python 包包含的功能比较完备,支持不少视频数据的处理 参考资料 h 阅读全文

posted @ 2024-07-17 08:00 荣锋亮 阅读(88) 评论(0) 推荐(0)

2024年7月16日

ollama 的一些参数简单说明

摘要: ollama 提供了不少配置可以方便我们进行ollama 服务的调整,比如访问端口(默认127.0.0.1),模型内存管理。。。 以下简单说明下访问以及模型内存管理的 完整配置信息 可以通过golang 代码查看,主要定义在envconfig/config.go 中 默认配置 func AsMap( 阅读全文

posted @ 2024-07-16 07:53 荣锋亮 阅读(6807) 评论(0) 推荐(0)

2024年7月15日

chdb 简单试用

摘要: 通过python 模式包体验下chdb 参考使用 安装依赖 pip install chdb 简单代码 from chdb.session import Session db = Session('./db') db.query("CREATE DATABASE if not exists db") 阅读全文

posted @ 2024-07-15 07:39 荣锋亮 阅读(109) 评论(0) 推荐(0)

2024年7月14日

Crunchy Bridge 通过duckdb 对于pg 进行扩展

摘要: Crunchy 最近发布了一个Crunchy Bridge 的服务,通过duckdb 扩展了pg 对于数据分析的能力,官方发布的内容值得学习下 参考玩法 说明 实际上目前社区也有一个pg 的duckdb_fdw ,也值得体验下,Crunchy Bridge 不是一个fdw 扩展,反而是使用了类似ci 阅读全文

posted @ 2024-07-14 08:00 荣锋亮 阅读(72) 评论(0) 推荐(0)

2024年7月13日

ollama 0.2.3 发布

摘要: 就在今天ollama 0.2.3 发布了,主要修复了关于系统prompt 不能生效的问题,而且通过测试glm4 的兼容也比较好了,以前版本对于结构化输出是有一些问题的 参考资料 https://github.com/ollama/ollama/releases 阅读全文

posted @ 2024-07-13 21:53 荣锋亮 阅读(64) 评论(0) 推荐(0)

chdb 基于clickhouse 的进程olap 引擎 基于clickhouse 的进程olap 引擎

摘要: chdb 是基于clickhouse 的进程olap 引擎 包含的特性 基于clickhouse 的进程内的sql olap 引擎 serverless,不需要安装clickhouse 服务 通过python memoryview 的最小c++ python 数据拷贝 输入以及输出支持parquet 阅读全文

posted @ 2024-07-13 07:41 荣锋亮 阅读(173) 评论(0) 推荐(0)

2024年7月12日

dremio 25.0.5 docker 镜像

摘要: 就在今天dremio 提供了25.0.5 社区版的下载地址,但是目前docker 镜像暂时还没提供,以下是基于eclipse-temurin:11.0.23_9-jdk 基础镜像 的一个可用镜像 Dockerfile FROM eclipse-temurin:11.0.23_9-jdk LABEL 阅读全文

posted @ 2024-07-12 20:29 荣锋亮 阅读(59) 评论(0) 推荐(0)

ollama 0.2.2 发布

摘要: 就在今天ollama 0.2.2 解决了不少问题,比如nvida v100 gpu 问题,同时修复了一些关于特定模型以及nvida gpu oom 的问题 说明 以前在测试0.2.1 版本v100 的时候有明显的异常,造成服务不能正常工作, 通过测试0.2.2 目前是可以正常工作了 参考资料 htt 阅读全文

posted @ 2024-07-12 10:14 荣锋亮 阅读(54) 评论(0) 推荐(0)

dremio 25.0.5 社区版下载提供了

摘要: 就在昨天dremio 提供了社区版的下载地址,此版本的变动核心是一些fix,新功能并不多 说明 目前源码暂时还没push 到github,同时docker 镜像也暂时未提供,后边体验下 参考资料 https://docs.dremio.com/current/release-notes/versio 阅读全文

posted @ 2024-07-12 07:51 荣锋亮 阅读(85) 评论(0) 推荐(0)

polaris-catalog 即将开源的apache iceberg catalog 服务

摘要: polaris-catalog是snowflake 即将开源的apache iceberg catalog 服务,实现上基于了iceberg 的rest api,这样就可以实现多引擎的数据处理,而不用进行数据的移动 参考多引擎集成 说明 从机制上也是支持dremio 的,但是因为databricks 阅读全文

posted @ 2024-07-12 06:08 荣锋亮 阅读(209) 评论(0) 推荐(0)

2024年7月11日

scrapyd scrapy调度服务

摘要: scrapyd 是官方出的调度服务,对于部署可以结合scrapyd-client,以下是一个简单说明 配置 scrapy 提供了一个scrapy.cfg 的配置文件,可以定义scrapyd服务地址 scrapy.cfg 参考配置 [deploy] url = http://scrapyd.examp 阅读全文

posted @ 2024-07-11 07:12 荣锋亮 阅读(65) 评论(0) 推荐(0)

2024年7月10日

luax 构建&简单试用

摘要: luax 目前没有提供直接的安装包,我们需要自己构建,以下说明下使用 构建&&使用 注意mac 系统构建有问题,没成功,使用的linux 构建 需要ninja 构建工具,可以通过pip 安装 git clone https://github.com/CDSoft/luax cd luax ./boo 阅读全文

posted @ 2024-07-10 07:55 荣锋亮 阅读(84) 评论(0) 推荐(0)

2024年7月9日

ollama 0.2.0 发布

摘要: 就在最近ollama 0.2.0 发布了,比较重要的是支持并发处理 并发处理的特性 并行请求,同时处理多个chat 会话,同步的处理一个文档的多个部分,同时运行多个agent 多模型处理,支持RAG 场景,同时处理嵌入以及文本完成,同时运行多个agent 新模型支持 包含了GLM-4,CodeGee 阅读全文

posted @ 2024-07-09 15:43 荣锋亮 阅读(191) 评论(0) 推荐(0)

scrapy 几个环境变量

摘要: 如果查看scrapyd 内部处理以及scrapy 介绍的话,会发现有几个环境变量比较重要,scrapyd 在实际执行的时候会进行变量参数的处理 以下简单说明下 环境变量 SCRAPY_SETTINGS_MODULE 配置相关的,对于scrapy 框架是基于配置文件的 def init_env(pro 阅读全文

posted @ 2024-07-09 06:15 荣锋亮 阅读(100) 评论(0) 推荐(0)

2024年7月8日

scrapyd 运行egg 的内部处理简单说明

摘要: 以前简单说明了下scrapyd_client deploy 的处理,现在说明下scrapyd 运行egg 的内部处理 内部处理 激活egg 模块 scrapyd 包装了自己的方法,对于激活的会添加的执行环境中 def activate_egg(eggpath): """Activate a Scra 阅读全文

posted @ 2024-07-08 07:25 荣锋亮 阅读(64) 评论(0) 推荐(0)

2024年7月7日

scrapyd_client deploy 内部实现简单说明

摘要: scrapyd_client deploy 提供了对于开发的spider 的打包,同时push 到scrapyd server 中,因为python 的特殊性,我们开发的spider 可能有依赖,scrapyd_client 会结合实际命令打包应用为是否包含依赖的egg 包 egg 包处理 对于eg 阅读全文

posted @ 2024-07-07 05:48 荣锋亮 阅读(48) 评论(0) 推荐(0)

2024年7月6日

serverpod 基于dart 的flutter 下一代app 以及web server 开发框架

摘要: serverpod 按照官方的介绍是基于dart 的flutter 下一代app 以及web server 开发框架 包含的能力 代码生成 可以辅助通过分析server 端代码生成客户端代码,这样调用就比较方便了trpc 就干了这类的事情 世界一流的日志处理 内置cache 内置cache 可以减少 阅读全文

posted @ 2024-07-06 08:00 荣锋亮 阅读(136) 评论(0) 推荐(0)

2024年7月5日

scrapy + browserless 集成简单说明

摘要: 以前简单说明过scrapy 集成s3 feed exports 的配置,以下是集成browserless 的处理,通过browserless 进行数据内容的处理(尤其适合包含了基于ajax的请求,以及延迟加载的项目) 项目准备 主要是s3以及browserless docker-compose ve 阅读全文

posted @ 2024-07-05 07:31 荣锋亮 阅读(83) 评论(0) 推荐(0)

2024年7月4日

browserless + dremio 的数据爬虫方案

摘要: 数据爬虫的玩法很多,框架也不少,对于实际开发我们会面临不少问题,比如存储,分析,数据使用,爬虫站点的分析处理,动态proxy 池以下是一个简单的集成 参考架构 基于自定义爬虫开发的 自己开发爬虫任务,基于调度对于任务基于容器运行,对于部分web 数据的爬取处理可以使用browserless ,数据存 阅读全文

posted @ 2024-07-04 08:00 荣锋亮 阅读(78) 评论(0) 推荐(0)

2024年7月3日

scrapy minio feed expoprts 配置简单说明

摘要: scrapy 对于解析的item 可以直接配置后端存储,可以直接配置不同的格式写入数据到存储中,以下是关于minio的简单说明 配置 核心是feed 以及backend 配置 feed 配置 settings.py # feed 配置 FEED_EXPORT_ENCODING = "utf-8" F 阅读全文

posted @ 2024-07-03 08:00 荣锋亮 阅读(41) 评论(0) 推荐(0)

2024年7月2日

browserless webhooks 简单说明

摘要: 以前说明browserless 的hooks,实际上browserless还支持webhooks 也是一个很不错的功能,可以进行统计分析 而且webhooks 的地址都是可以通过环境变量配置的 参考使用 docker 启动 docker run -d \ --restart always \ --n 阅读全文

posted @ 2024-07-02 08:00 荣锋亮 阅读(46) 评论(0) 推荐(0)

2024年7月1日

browserless hooks 简单说明

摘要: browserless提供了hooks 能力,默认实现都为空,以下简单说明下内部处理 默认实现 如下图 内部处理 hooks.ts 定义 import { AfterResponse, BeforeRequest, BrowserHook, PageHook, } from '@browserles 阅读全文

posted @ 2024-07-01 08:00 荣锋亮 阅读(30) 评论(0) 推荐(0)

2024年6月30日

browserless ws 服务处理简单说明

摘要: browserless ws 的处理实际上一个proxy 对于启动的实际无头浏览器ws 服务进行了代理,同时为了安全browserless 进行了token 的处理 以下对于内部实现进行一个简单说明 参考处理 ws route 注册 browserless 模块中的start 方法 wsRoutes 阅读全文

posted @ 2024-06-30 08:00 荣锋亮 阅读(189) 评论(0) 推荐(0)

2024年6月29日

browserless scrape api 简单说明

摘要: 以前说过browserless提供了不少api 能力,以下简单说明下scrape api 的处理 参考定义 如下图,browserless 对于不同浏览器进行了不同的处理(内部实现包含了公共的) 内部处理 scrape.http.ts 定义中,browserless 使用了puppeteer-cor 阅读全文

posted @ 2024-06-29 08:00 荣锋亮 阅读(143) 评论(0) 推荐(0)

2024年6月28日

browserless 提供的api 能力

摘要: browserless 提供了不少方便的api,可以让我们基本写很好的代码就能实现一些不错的功能(pdf生成,快照) api 分类 目前api 包含了面向浏览器的以及面向管理的 浏览器api /content 获取内容的 /download 下载内容的 /function 执行自定义函数的 /pdf 阅读全文

posted @ 2024-06-28 08:00 荣锋亮 阅读(135) 评论(0) 推荐(0)

2024年6月27日

scrapy-playwright scrapy 集成无头浏览器的插件

摘要: scrapy-playwright scrapy 集成无头浏览器的插件,同时我们也可以集成browserless 这类的服务scrapy-playwright 插件文档以及提供的能力还是比较全的 说明 对于基于scrapy 进行数据处理,同时需要一些其他功能的(比如登陆,渲染的)是一个不错的选择,后 阅读全文

posted @ 2024-06-27 08:00 荣锋亮 阅读(493) 评论(0) 推荐(0)

2024年6月26日

playwright-har 试用

摘要: playwright-har是puppeteer-har 的playwright 移植,使用方法上类似,以下是一个简单试用 环境准备 docker-compose 使用了browserless version: "3" services: browser: image: ghcr.io/browse 阅读全文

posted @ 2024-06-26 08:00 荣锋亮 阅读(118) 评论(0) 推荐(0)

2024年6月25日

browserless docker 镜像简单说明

摘要: browserless docker 镜像默认安装了一些字体文件,对于我们日常使用基本够用了,了解下docker 镜像的制作,可以更好的使用以及配置browserless 简单说明 browserless docker 镜像包含了基础镜像以及不同浏览器的,基础镜像主要提供基础包的安装,不同浏览器的主 阅读全文

posted @ 2024-06-25 08:00 荣锋亮 阅读(213) 评论(0) 推荐(0)

2024年6月24日

playwright结合adblocker进行广告拦截

摘要: 现在基本网站都会有埋点(统计分析)或者不少有广告的,对于爬虫场景可能不太方便,社区已经提供了相关的插件 我们可以直接使用,以下是一个简单的使用说明 环境准备 基于browserless docker-compose version: "3" services: browser: image: ghc 阅读全文

posted @ 2024-06-24 08:00 荣锋亮 阅读(103) 评论(0) 推荐(0)

2024年6月23日

playwright 连接browserless 服务

摘要: playwright是与puppeteer类似的包装,但是playwright 实现的周边更加丰富,也是一个很不错的工具,值得使用下,以下是关于 playwright 连接browserless服务的简单说明 环境准备 docker-compose version: "3" services: ng 阅读全文

posted @ 2024-06-23 07:13 荣锋亮 阅读(232) 评论(0) 推荐(0)

2024年6月22日

puppeteer exposeFunction 方法简单试用

摘要: 以下简单演示下puppeteer exposeFunction 的使用 环境准备 基于browserless docker-compose version: "3" services: nginx: image: nginx:alpine volumes: - ./index.html:/usr/s 阅读全文

posted @ 2024-06-22 08:00 荣锋亮 阅读(110) 评论(0) 推荐(0)

2024年6月21日

browserless docker服务支持的一些配置参数

摘要: browserless 实际上提供了不少配置参数,使用好这些配置参数可以提升服务的稳定性,以下是关于一些参数的简单说明 参考配置 并发请求配置 默认为5,可以结合自己的资源建议配置大一些,尤其是进行大量处理的CONCURRENT=10 队列配置 队列实际上是对于资源的一种控制,确保系统的稳定,配置  阅读全文

posted @ 2024-06-21 06:53 荣锋亮 阅读(153) 评论(0) 推荐(0)

2024年6月20日

deequ aws 开源的数据质量框架

摘要: deequ 是aws 开源的基于spark 的数据质量框架(数据单元测试),同时也提供了python 包 deequ 提供的能力 metrics 计算 约束建议 约束校验 metrics repo 参考架构图 说明 对于希望实现数据质量的团队deequ的设计还是很值得学习参考的,只是目前是基于spa 阅读全文

posted @ 2024-06-20 07:16 荣锋亮 阅读(359) 评论(0) 推荐(0)

2024年6月19日

dbt 编写自定义通用测试

摘要: 以前简单介绍或dbt 的数据测试(包含了通用测试以及异常测试),通用测试可复用性比较高,是比较推荐的选择 而且通用测试的扩展能力也是比较强大的,可以直接引用模型,自定义配置 一个参考使用 version: 2 models: - name: orders columns: - name: order 阅读全文

posted @ 2024-06-19 07:14 荣锋亮 阅读(75) 评论(0) 推荐(0)

2024年6月18日

dbt dq-tools 数据质量工具

摘要: dbt dq-tools 数据质量工具,对于数据质量 dq-tools 围绕 Accuracy,Consistency,Completeness,Timeliness,Validity,Uniqueness这6个kpi 进行处理 包含的功能 存储测试结果到表中 创建方便数据质量的数据集市 提供bi 阅读全文

posted @ 2024-06-18 06:50 荣锋亮 阅读(125) 评论(0) 推荐(0)

2024年6月17日

dbt data class column 简单说明

摘要: 以前有简单介绍过dbt的 data class里边实际上包含了relation 以及column 一些方便的api 可以直接在macro 中调用 relation 比较常用,column 直接使用的并不是特别多,以下简单说明下 内部包装 与dbt context 对象一样属于一个包装 参考定义 @c 阅读全文

posted @ 2024-06-17 08:00 荣锋亮 阅读(44) 评论(0) 推荐(0)

2024年6月16日

unitycatalog datagrics 开源的data&ai 多模catalog

摘要: unitycatalog datagrics 开源的data&ai 多模catalog 包含的特性 支持任意格式、引擎、资产的多摸接口 支持包含了delta lake,iceberg,uniform,paquert,csv。。。等格式,超越表,支持非结构化数据以及ai 资产,插件化的架构,可以支持h 阅读全文

posted @ 2024-06-16 10:15 荣锋亮 阅读(91) 评论(0) 推荐(0)

dbt_artifacts 包内部实现简单说明

摘要: 以前对于dbt_artifacts 有过简单的介绍,以下从设计以及源码上分析下,方便学习使用 使用 dbt_artifacts 提供了不少macro 同时也提供了不少模型,比如stg 类型的以及dim,fact 类型的, 对于使用 dbt_artifacts 推荐的方法是是使用了dbt 的on-ru 阅读全文

posted @ 2024-06-16 07:05 荣锋亮 阅读(48) 评论(0) 推荐(0)

2024年6月15日

maven maven.config 简单说明

摘要: maven 从3.3.1+ 开始支持基于maven.config 模式的命令行参数处理,以下简单说明下 配置 位置 .mvn/maven.config 参考配置 注意从3.9 开始参数应该是每行一个 -Pconsume-incrementals -Pmight-produce-incremental 阅读全文

posted @ 2024-06-15 08:00 荣锋亮 阅读(1672) 评论(0) 推荐(0)

2024年6月14日

dbt 部分macro 中namespace的使用简单说明

摘要: 比如在dbt adapter 中的snapshot_check_all_get_existing_columns 中就使用了namepace 这个对象,以下简单说明下 namespace 对象的作用 实际上就是进行跨scope 的数据共享,因为jinja2 每个block 中的设置的变量是不能跨范围 阅读全文

posted @ 2024-06-14 06:00 荣锋亮 阅读(39) 评论(0) 推荐(0)

上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 135 下一页

导航