// // // //

2019年6月11日

摘要: kmeans 中k值一直是个令人头疼的问题,这里提出几种优化策略。 手肘法 核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑,称之为聚合程度; 2. 类别数越大,样本划分越精细,聚合程度越高,当类别数为样本数时,一个样本一个类,聚合程度最高; 3. 当k小于真实类别数时,随着k的增大,聚合程度显 阅读全文
posted @ 2019-06-11 11:24 努力的孔子 阅读(2060) 评论(0) 推荐(0)
 
摘要: 知乎是爬虫的一个经典案例,因为他经常改版,越来越难爬,可能我这个教程写完他就又改版了。 知乎的难点 1. 登录,且url跳转 2. 参数加密 3. 验证码 本文将介绍模拟登录知乎的详细过程。 抓包 -- 分析登录过程 使用 fiddler 抓包 使用浏览器抓包 1. 获取登录url 输入账号、密码等 阅读全文
posted @ 2019-06-11 09:52 努力的孔子 阅读(6768) 评论(7) 推荐(0)