西南交大互联网搜索引擎项目一搜索引擎文本预处理

项目要求：

通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页，以及500个中文文档/网页，越多越好，并保留原始的文档/网页备份(如:News_1_Org.txt）

编程对所下载文档进行自动预处理:

将各个单词进行字符化，完成删除特殊字符、大小写转换等操作

调研并选择合适的中文分词技术和工具实现中文分词

删除英文停用词(Stop Word)

删除中文停用词

调用或者编程实现英文Porter Stemming功能

将中文文档进行字符化，即可被搜索引擎索引的字符单元

对于英文文档，经过以上处理之后，将经过处理之后所形成简化文档保存（如:News_1_E.txt），以备以后的索引处理

对于中文文档，经过以上处理之后，将经过处理之后所形成简化文档保存（如:News_1_C.txt），以备以后的索引处理

运行前需要安装:

beautifulsoup4 - 用于解析HTML内容
jieba - 用于中文分词
nltk - 用于自然语言处理
fake_useragent - 用于生成随机的User-Agent
requests - 用于发送HTTP请求
requests-html - 用于执行JavaScript渲染

可以执行以下命令来安装这些库

pip install beautifulsoup4 jieba nltk fake_useragent requests requests-html

配置要爬取哪些网站在 configs.py 中修改

部分网页较好爬取,爬取失败率较低, 爬取速度较快; 部分网页不好爬取,爬取失败率较高, 爬取速度较慢(因此可能会存在有acb_org.txt文件, 但是没有abc_c.txt文件的情况)

有的网站无法爬取, 如非必要, 可以换个网站爬取

注意, 部分英文网站可能需要挂代理才能爬

运行main.py会生成crawler文件夹, 其下有多个xxx-crawler文件夹, 对应不同的网站

若爬取中文网站, 会生成xxx_org.txt 和 xxx_c.txt文件

若爬取英文网站, 会生成xxx_org.txt 和 xxx_e.txt文件

posted on 2025-04-21 09:14 Your_Sun 阅读(62) 评论(0) 收藏举报