jar可以避免抓取/抓取完全

我不想禁止IP,特别是因为这个IP将来可能被重新分配给合法的用户(或网络)。但他们增加了我的主机使用,这反过来又导致主机提供商建议升级的计划。这与我无关,我只是一个例子--数以百万计的网站请求都是…没用的。

我的建议(和请求)是这-请修理你的爬虫。或者以编程方式出现在网站上并获取其内容的东西。

多么?第一做新的东西(除非有一个非常具体的用例)。一

第二,让你的爬虫“礼貌”(上面文章中的“礼貌”)括对robots.txt的尊重。现有的实现很可能有礼貌选项,但您可能必须配置它们。

在这里,我建议另一个选项-设置一个动态爬行率每个网站,这取决于多久内容被更新。我的博客每月更新3次--不需要每天爬一次或两次。TechCrunch每天更新很多次;更频繁地爬行可能是个好主意。我没有公式,但你可以想出一个在2分钟到1天之间爬行不同站点的公式。

第三,如果支持更好的协议,不要“刮”内容。许多内容网站都使用RSS,而不是页面的HTML。如果没有,则获得牵引力,您可以避免抓取/抓取完全,并得到通知的新内容。

最后,确保您的爬虫/刮刀器可以由UserAgent识别。您可以提供您的服务名称或网址,使网站所有者更容易找到你和投诉,以防你错了什么东西。

https://movie.douban.com/people/246404409/

我想看看是否使用这样的服务是有意义对你的使用是有意义的,而不是重新发明轮子。

无论您的用例或方法是什么,请确保您不会给其他人的网站带来不必要的压力。

我不得不承认我不。似乎从2013年起就已经存在了。显开始使用了。

在过去,我手动遍历依赖项,以检查它们是否存在漏洞数据库,或者在许多情况下,我对我的依赖项所具有的任何漏洞一无所知。

这篇文章的目的只是-推荐在几乎每个Maven项目中都是必须的。(有)

当您添加插件时,它会生成一个报告。最初,您可以手动升级有问题的依赖项(我在当前项目中升级了其中的两个),或者阻止错误(例如,Cassandra库被标记为易受攻击,而实际的漏洞是Cassandra绑定了一个未经身份验证的RMI端点,我已经通过堆栈设置解决了这个问题,因此库不是问题)。

https://www.douban.com/note/812388868/

然后,您可以为漏洞配置一个阈值,并在出现新漏洞时使构建失败--要么添加易受攻击的依赖项,要么在现有依赖项中发现漏洞。

所有这些都显示在且相当直截了当。我建议立即添加插件,这是必须的:

1
2
3
4
5
6
7
8
9
10
11
12
<plugin>
    <groupId>org.owasp</groupId>
    <artifactId>dependency-check-maven</artifactId>
    <version>3.1.0</version>
    <executions>
        <execution>
            <goals>
                <goal>check</goal>
            </goals>
        </execution>
    </executions>
</plugin>

当然也不全是玫瑰。Reddit上的人抱怨说,虽然插件在本地缓存一些东西,但它仍然可以显著降低您的构建速度。因此,将其排除在一般构建之外并在CI系统和/或部署管道中每晚运行是一个好主意。

现在,检查依赖项是否存在漏洞只是使您的软件安全的一个小方面,它不应该给您一种错误的安全感(一种“我检查了我的依赖项,因此我的系统是安全的”谬误)。但这是一个重要的方面。自动检查是一项巨大的收获。

posted @ 2021-09-10 21:54  javd9w  阅读(56)  评论(0)    收藏  举报