Loading...

随笔分类 -  爬虫

python爬虫,java爬虫
摘要:链接到mongo 新建超级用户 上文中我们提到mongo用户库表管理。为了方便我们先新建一个root权限的用户。 db.createUser({user:'dbadmin',pwd:'123456', roles:[{role:'userAdminAnyDatabase', db:'admin'}] 阅读全文
posted @ 2020-10-25 16:09 倒霉蛋蛋虾 阅读(240) 评论(0) 推荐(0)
摘要:webmagic简介 webmagic可以说是中国传播度最广的Java爬虫框架,https://github.com/code4craft/webmagic,阅读相关源码,获益良多。阅读作者博客【代码工匠】,能够领略到一个IT工作者的工匠精神,希望以后成为他这样的开源贡献者。Webmagic的文档也 阅读全文
posted @ 2020-10-23 10:26 倒霉蛋蛋虾 阅读(558) 评论(0) 推荐(0)
摘要:使用时先安装 lxml 包 开始使用 和beautifulsoup类似,首先我们需要得到一个文档树 把文本转换成一个文档树对象 from lxml import etree if __name__ == '__main__': doc=''' <div> <ul> <li class="item-0 阅读全文
posted @ 2020-10-07 11:08 倒霉蛋蛋虾 阅读(68255) 评论(3) 推荐(8)
摘要:基本上是按官方文档所写 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/,过完。·BeautifulSoup 内容太多了,用的时候查起来方便一点 开始使用呢 从一个soup对象开始,以下两种方式生成一个soup对象 from bs4 import 阅读全文
posted @ 2020-10-03 09:59 倒霉蛋蛋虾 阅读(1628) 评论(0) 推荐(0)