摘要: Nutch开发(四) 文章目录 Nutch开发(四)开发环境 1.Nutch插件设计介绍2.解读插件目录结构3. build.xml4. ivy.xml5. plugin.xml6. 解读parse-html插件HtmlParsersetConf(Configuration conf)parse(I 阅读全文
posted @ 2022-02-16 17:50 鸭梨的药丸哥 阅读(17) 评论(0) 推荐(0)
摘要: mkl_def.dll文件加载失败 下载 mkl_def.dll文件的下载地址如下:Fix mkl_def.dll related errors in Windows 7, 8 or 10 | DLLs Pedia win10系统修复方法 下载文件,并把文件拷贝到C:\Windows\System3 阅读全文
posted @ 2022-02-16 17:09 鸭梨的药丸哥 阅读(77) 评论(0) 推荐(0)
摘要: Nutch开发(三) 文章目录 Nutch开发(三)开发环境 1.Nutch url过滤2.示例3.在Solr建立index关于solr字段的配置 4.关于Nutch plugin5.关于Nutch的默认配置信息6.使用metadata plugin7.Nutch2.4 存储方式配置 开发环境 Li 阅读全文
posted @ 2022-02-16 14:11 鸭梨的药丸哥 阅读(20) 评论(0) 推荐(0)
摘要: nutch开发(二) 文章目录 nutch开发(二)开发环境 1.爬取后生成的目录结构crawldblinkdbsegments 2.阅读TestCrawlDbMergercreateCrawlDb读取crawldb 3.关于索引的建立4.创建一个一步式的爬虫启动类创建启动类关于如何配置solr服务 阅读全文
posted @ 2022-02-16 11:39 鸭梨的药丸哥 阅读(46) 评论(0) 推荐(0)
摘要: solr 使用IK分词器 1.jar包下载地址 https://repo1.maven.org/maven2/com/github/magese/ik-analyzer/ 使用wget下载 wget https://search.maven.org/remotecontent?filepath=co 阅读全文
posted @ 2022-02-16 03:09 鸭梨的药丸哥 阅读(19) 评论(0) 推荐(0)