2025 年 3月 19 日随笔档案 - 慕尘

2025年3月19日

摘要：今天试用了几个提取网页内容的，为了避免以后忘记，先记下来 Goose 是一个开源的网页内容提取库，主要用于从网页中提取文章的主要文本内容适用于那些结构化较好、主要由文章组成的网页在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色安装 pip install goose3 使用阅读全文

posted @ 2025-03-19 23:23 慕尘阅读(36) 评论(0) 推荐(0)

trafilatura

摘要： trafilatura是一个专为从网页中提取核心内容设计的Python库特别适用于那些需要从HTML页面中提取主要文本信息的应用场景，比如文章正文、标题等，同时排除掉导航栏、广告、侧边栏和其他非主要内容安装 pip install trafilatura 示例 import trafilatur 阅读全文

posted @ 2025-03-19 23:01 慕尘阅读(147) 评论(0) 推荐(0)

unstructured

摘要： unstructured 是一个开源的 Python 库，专门用于处理非结构化数据，如从 PDF、Word 文档、HTML 文件等中提取文本内容，并将其转换为结构化格式（1）安装依赖库 pip install unstructured 使用text from unstructured.partit 阅读全文

posted @ 2025-03-19 22:47 慕尘阅读(1126) 评论(0) 推荐(0)

逆水行舟，不进则退

路漫漫其修远兮，吾将上下而求索

公告