摘要: 今天试用了几个提取网页内容的,为了避免以后忘记,先记下来 Goose 是一个开源的网页内容提取库,主要用于从网页中提取文章的主要文本内容 适用于那些结构化较好、主要由文章组成的网页 在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色 安装 pip install goose3 使用 阅读全文
posted @ 2025-03-19 23:23 慕尘 阅读(29) 评论(0) 推荐(0)
摘要: trafilatura是一个专为从网页中提取核心内容设计的Python库 特别适用于那些需要从HTML页面中提取主要文本信息的应用场景,比如文章正文、标题等,同时排除掉导航栏、广告、侧边栏和其他非主要内容 安装 pip install trafilatura 示例 import trafilatur 阅读全文
posted @ 2025-03-19 23:01 慕尘 阅读(123) 评论(0) 推荐(0)
摘要: unstructured 是一个开源的 Python 库,专门用于处理非结构化数据,如从 PDF、Word 文档、HTML 文件等中提取文本内容,并将其转换为结构化格式 (1)安装依赖库 pip install unstructured 使用text from unstructured.partit 阅读全文
posted @ 2025-03-19 22:47 慕尘 阅读(969) 评论(0) 推荐(0)