随笔档案「2019年10月18日」：网络爬虫 ... - kexinxin

网络爬虫

摘要：网络爬虫通用爬虫技术框架爬虫系统首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子放入待爬取URL队列中，爬虫从待爬取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名交给网页下载器，网页下载器负责页阅读全文

posted @ 2019-10-18 23:40 kexinxin 阅读(451) 评论(0) 推荐(0)

跳跃表

摘要：跳跃表跳跃表的引入无论是数组还是链表在插入新数据的时候，都会存在性能问题。排好序的数据，如果使用数组，插入新数据的方式如下：如果要插入数据3，首先要知道这个数据应该插入的位置。使用二分查找可以最快定位，这一步时间复杂度是O(logN)。插入过程中，原数组中所有大于3的商品都要右移，这一步时间复阅读全文

posted @ 2019-10-18 16:50 kexinxin 阅读(1330) 评论(0) 推荐(0)

正向代理和反向代理

摘要：正向代理和反向代理正向代理 A同学在大众创业、万众创新的大时代背景下开启他的创业之路，目前他遇到的最大的一个问题就是启动资金，于是他决定去找马云爸爸借钱，可想而知，最后碰一鼻子灰回来了，情急之下，他想到一个办法，找关系开后门，经过一番消息打探，原来A同学的大学老师王老师是马云的同学，于是A同学找到阅读全文

posted @ 2019-10-18 11:26 kexinxin 阅读(132) 评论(0) 推荐(0)

java内存泄露与内存溢出

摘要： java内存泄露与内存溢出基本概念内存泄露：指程序中动态分配内存给一些临时对象，但是对象不会被GC所回收，它始终占用内存。即被分配的对象可达但已无用。内存溢出：指程序运行过程中无法申请到足够的内存而导致的一种错误。内存溢出通常发生于OLD段或Perm段垃圾回收后，仍然无内存空间容纳新的Java 阅读全文

posted @ 2019-10-18 10:18 kexinxin 阅读(527) 评论(0) 推荐(0)

kexinxin

导航

公告