AiFly - 博客园

[置顶] 精准与效率：RAG应用PDF文档图文提取OCR策略

摘要：在RAG应用中通常需要对各种文档进行文本提取，如果稳定是纯文本那文档提取会简单很多，但通常文档中会存在各种图片信息，这是就需要使用OCR在提取文档文本信息的同时对图片进行OCR获取图片中的文本内容。本文只介绍PDF文档中OCR技术方案。PDF文档解析目前有不少开源框架亦可支持对PDF中的图片进行OC 阅读全文

posted @ 2025-07-23 08:37 AiFly 阅读(13) 评论(0) 推荐(0)

[置顶] 详解智能体应用——资讯简报智能体

摘要：在智能体爆发的浪潮中，信息的获取与处理效率无论是对企业亦或是个人都是保持竞争力的关键。面对日益分散和爆炸式增长的信息源，常常极易使人沉迷其中，陷入碎片化消耗陷阱，时间萧然流失。本文将深度剖析一个智能体的构建的全自动 AI 资讯简报智能体，从架构设计、技术实现和应用价值三个层面，揭示如何打造一个可扩展阅读全文

posted @ 2025-07-07 08:35 AiFly 阅读(27) 评论(0) 推荐(0)

[置顶] AI工作流与智能体的人机协作及应用

摘要： AI正改变着各行各业，从内容创作到客户服务、知识问答等AI的应用日益广泛。为了更有效的利用AI，通常需要构建智能体或其初级形式的workflow。但在目前阶段无论是智能体亦或许Workflow都无法保证其自动运行能达到100%的可靠性，根源在于大模型存在着下面的一些问题：幻觉问题、工具调用的可靠性、阅读全文

posted @ 2025-06-16 08:43 AiFly 阅读(55) 评论(0) 推荐(0)

[置顶] ESP32大模型AI语音助手-软件到硬件

摘要：去年底开始基于ESP32开发DIY的各种AI语音智能助手层出不穷，AI智能玩偶也比较火热。目前市面上也都有比较成熟的开发板集成了各种模块麦克风、OLED、功放、摄像头等几乎是开箱即用，普通开发者买了折腾一通总能搞点什么出来，当然对于批量推出市场的使用这种开发板成本比较高，通常比较少人这么用。目前市阅读全文

posted @ 2025-05-26 08:44 AiFly 阅读(370) 评论(0) 推荐(0)

[置顶] 小玩具：ESP32——刷固件与亮屏

摘要：去年开始大模型火爆后也带动了ESP32芯片的爆发出圈带动股票暴涨。各种AI玩具层出不穷。ESP32的低门槛再加上B站UP的带动，光开源的小智AI两月就带动了10万AI设备，当然这和原来的智能音箱如小爱同学比只能算是毛毛雨，而且门槛很低智能音箱厂商发个OTA或新出个版本也就接入大模型了，而且大厂生态更阅读全文

posted @ 2025-04-27 08:43 AiFly 阅读(493) 评论(0) 推荐(0)

[置顶] 数说海南—五年来各市县城市建设概况

摘要：这里简单通过2019年到2023年这五年的城区面积、建成区面积、城市人口密度、征用土地情况、城市规划建设用地情况几个指标简单看看海南各市县发展。海南各市县规模差别巨大，最大与最小的无论是城市规模或是人口规模都不是一个数量级，但由于海南省直辖县的特性县和地市通常也是放在一个图表中，也是可以进行比较的阅读全文

posted @ 2025-03-17 08:43 AiFly 阅读(100) 评论(0) 推荐(0)

[置顶] 浅看浅谈浅体验DeepSeek-R1模型

摘要： DeepSeek-V2.5的时就有听说过，直到 V3出来时开始使用已经体验了一个多月，说实话效果没那么惊艳会莫名从中文会话突然吐出英文。用的官方Web网页稍微多点，Api接口也有在使用其性价比比较高，价格性能相对于其他模型比较便宜，目前注册就送十块钱使用额度。 V3推出时就已经因为其开源、性能、低成阅读全文

posted @ 2025-02-01 17:19 AiFly 阅读(1472) 评论(0) 推荐(0)

[置顶] AI Agents(智能体)是什么能做什么

摘要： Agents从去年大模型火后就开始爆发，特别是今年2025又被称为Agents元年，像是要无处不存在Agents似的。Agent是什么，直译过来就是代理，但在国内人工智能领域通常被译为智能体。从智能体这个名字可以大概想象出这个Agents可能与智能相关，此概念出现已经有相当长时间了。随着大模型的爆发阅读全文

posted @ 2025-01-14 08:40 AiFly 阅读(445) 评论(0) 推荐(0)

[置顶] 模型上下文协议MCP

摘要： MCP(Model Context Protocol) Anthropic推出的一种开放协议，旨在统一LLM应用于外部数据源之间的通讯协议使之无缝集成，MCP提供了标准化协议使得LLM与所需要的上下文无缝衔接。使用MCP可以插件式为LLM的集成各种外部数据源。 MCP概念上图为MCP官方所描述的M 阅读全文

posted @ 2024-12-24 08:39 AiFly 阅读(5041) 评论(1) 推荐(2)

[置顶] 大模型微调—海南小百科(一)

摘要：语言大模型是通过大规模数据集训练而来可以帮我们进行文本生成、内容总结，但对于一些小众知识、内部数据模型不一定知道怎么回答，这时候可能会胡言乱语。目前要想在特定领域小众知识或私密数据时模型能够表现出比较好的水平目前主要有两种方式可以实现：模型微调、外挂知识库也就是RAG模式，RAG模式之前我们有介绍过阅读全文

posted @ 2024-11-26 08:42 AiFly 阅读(144) 评论(0) 推荐(0)

[置顶] 海南话语音识别模型——数据预处理

摘要：现在很多语音助手比如小爱同学、小度等都有支持方言语音识别，开源模型也有不少中文的ASR(自动语音识别)预训练模型可做到开箱即用。方言的ASR模型比较少特别是海南话ASR模型更是没有。这几篇文章主要是基于Transformer从0开始训练一个海南话语音识别模型，当然效果可能不会特别好，这也是方言语音识阅读全文

posted @ 2024-09-18 08:40 AiFly 阅读(368) 评论(0) 推荐(0)

[置顶] RAG知识库之知识库图谱应用

摘要：上篇文章介绍了使用大模型构建生成知识图谱，其实也可不用大模型用其他方式构建生成知识图谱，但RAG要结合知识图谱使用关键还是怎么把图谱的内容查询出来；简单来说可以先查出Chunk集在关联查出每个Chunk所关联的实体Entity再查询出实体之间的的关系集；这里说的RAG结合知识图谱和微软开源的Grap 阅读全文

posted @ 2024-09-03 08:42 AiFly 阅读(325) 评论(0) 推荐(0)

[置顶] RAG知识库之构建知识库图谱

摘要：前面几篇文章谈了多种针对RAG的优化如多表示索引（Multi-representation indexing）、Raptor等但其都是存储在向量库中的，这里将介绍一种新的存储模式，图数据库，适合存储数据高度相关的数据。其存储实体与实体间的关系，存储着丰富的关系类型数据，能给RAG知识库带来更精准的上阅读全文

posted @ 2024-08-12 08:40 AiFly 阅读(1209) 评论(0) 推荐(0)

[置顶] RAG知识库之针对长文档的Raptor索引

摘要：在现有的朴素RAG应用中其只是简单的对文档进行分块后存储的向量库中，然后在使用是根据提问问题从查询向量库中查询相识度较高的文档快作为问题上下文提交到LLM让其根据上下文去回答用户所提问的问题。对于小文本可以直接将整个文档作为上下文或使用上篇文章所提到的多表示索引（Multi-representa 阅读全文

posted @ 2024-08-05 08:39 AiFly 阅读(210) 评论(0) 推荐(0)

[置顶] 小林同学智能AI大模型语音助手

摘要：闲来无事，想起吃灰的树莓派拿来做点什么，貌似去年还专门买了个麦克风还没怎么用过。正好拿来做个类似小爱智能语音助手的小林同学，现在智能助手不接入大模型都不好意思说出来，当然小林同学没有小爱同学的米家生态功能，后续如果加入多模态图片识别貌似会更有点意思。智能助手涉及到的技术主要由：语音离线唤醒、录音、阅读全文

posted @ 2024-07-12 08:40 AiFly 阅读(317) 评论(0) 推荐(0)

[置顶] RAG知识库之多表示索引

摘要：在朴素RAG中通常会对文档、文本进行分块后进行文档嵌入，对所有文件、文本都没有经过采用Chunk方法可能有时候效果不是和好，尽管有着各种分块策略有针对大文件的、针对小文件的策略，但都难免可能会造成上下文语义丢失。分块通常有两个非常重要的参数chunk_size、chunk_overlap，分别代表阅读全文

posted @ 2024-07-08 08:42 AiFly 阅读(317) 评论(0) 推荐(0)

[置顶] 一个非侵入式跟踪分析程序

摘要： otel-profiling-agent为elastic开源项目，用于对生产环境中的应用程序进行性能分析，帮助开发者理解程序的运行情况，识别瓶颈，优化性能。用于包括CPU和内存使用情况的分析、调用跟踪、性能指标收集等功能。它是一个用于Linux的全系统、跨语言的性能分析器，通过eBPF（Extend 阅读全文

posted @ 2024-06-24 08:35 AiFly 阅读(142) 评论(0) 推荐(0)

[置顶] 数说海南——近6年海南各市县人口简单看

摘要：时隔7年再看海南人口流入情况，这几年海南政策相当多特别是提出海南自由贸易港之后，还提出了百万人才进海南计划。这几年海南人口相对前些年也有所增长，其中在2020年常住人口首次超过1000万人。七年后再看海南近十个市县的户籍人口与常住人口，人口的净流入肯定和当地的经济发展有着莫大的联系，看看经过了几年阅读全文

posted @ 2024-05-31 13:25 AiFly 阅读(375) 评论(0) 推荐(0)

[置顶] RAG知识库优化之Rerank应用

摘要：前面几篇文章介绍了最基本的RAG实现，也了解了RAG的基本原理。最基本的RAG 流程为用户Query问题，RAG应用在向量库查询出Context，然后将Query与 Context喂到LLM，LLM生成满足Query的Response答案。从这里可以存在三元组： Query、Context 和 R 阅读全文

posted @ 2024-04-15 08:41 AiFly 阅读(3343) 评论(0) 推荐(0)

[置顶] RAG知识库的可靠性评估（二）

摘要：上篇文件介绍了RAG优化与评估的基本概念，以及使用TruLens-Eval在没有Ground-truth的情况下评估RAG应用。本篇文件主要是使用Ragas对RAG应用进行评估；使用了Gagas生成合成测试数据集，在只有知识库文档并没有Ground-truth（真实答案）的情况下让想评估该知识库文阅读全文

posted @ 2024-04-01 08:39 AiFly 阅读(1169) 评论(2) 推荐(0)

搜索

我的标签

积分与排名

随笔分类 (217)

随笔档案 (167)

阅读排行榜

评论排行榜

推荐排行榜

最新评论