Welcome to EliteQing's Blog

摘要: 说明:这里分三个系列介绍Twitter数据的非API抓取方法。 在一个老外的博看上看到的,想详细了解的可以自己去看原文。 这种方法可以采集基于关键字在twitter上搜索的结果推文,已经实现自动翻页功能。对于有账号的用户还可以采集起关注的好友列表和关注自己的好友列表。 1、Twitter数据抓取(一阅读全文
posted @ 2017-04-13 23:19 EliteQing 阅读(296) 评论(0) 编辑
摘要: 一、一万小时的来源 作家格拉德威尔在《异类》一书中指出:“人们眼中的天才之所以卓越非凡,并非天资超人一等,而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。“”他将此称为“一万小时定律”。要成为某个领域的专家,需要一万小时,按比例计算就是:如果每天工作八个小时,一周工作五天,阅读全文
posted @ 2017-02-25 18:25 EliteQing 阅读(1421) 评论(12) 编辑
摘要: 自然语言处理 1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of 阅读全文
posted @ 2017-01-19 23:58 EliteQing 阅读(1838) 评论(1) 编辑
摘要: 学习一个东西首先要知道这个东西是什么,可以做什么,接着再了解这个东西有什么好处和优势,然后再学习他的工作原理。下面我们分别从这三点简单介绍一下bloom filter,以及和他的变种。 存储元素:用一个m位的数组和k个hash函数,对一个元素用k个hash函数映射出k个值(范围是(0~m-1),即数阅读全文
posted @ 2017-01-17 17:34 EliteQing 阅读(227) 评论(0) 编辑
摘要: 在实现网络爬虫的过程中,验证码的出现总是会阻碍爬虫的工作。本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法。通过本方法,可以在不切割图片、不做模板匹配的情况下实现精度超过90%的识别结果。 本文分为两个部分,第一个部分介绍如何利用深度神经网络实现验证码的训练和识别,第二个部分介绍在实现过程阅读全文
posted @ 2017-01-10 00:41 EliteQing 阅读(2473) 评论(5) 编辑
摘要: 一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数字:^\d{m,n}$ 零和非零开头的数字:^(0|[1-9][0-9]*)$ 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 带1-阅读全文
posted @ 2017-01-04 12:14 EliteQing 阅读(90) 评论(0) 编辑
摘要: 原标题:一位资深司长的经验之谈:要这样做事才能让人放心! 文| 张建 在我们眼里,现在机关里的青年干部,你们这些主任科员或处长的,都非常优秀,都是百里挑一、千里挑一的“人尖儿”,特别是在智商方面,我们自叹不如。想想我们在你们这个年龄的时候,哪有你们这么能干这么聪明呢。 工作了这几十年,20多岁不懂事阅读全文
posted @ 2017-01-03 12:38 EliteQing 阅读(112) 评论(0) 编辑
该文被密码保护。
posted @ 2016-12-23 03:16 EliteQing 阅读(1) 评论(0) 编辑
摘要: 关于去除Eclipse对JavaScript的验证 在我们使用大量JavaScript作为一些UI或其他组件来使用时,很多情况下,明明引用的这些JavaScript是可以正常使用的,但Eclipse却不断地显示着令人抗拒的红叉叉。你可能不知,除了显示大量不该显示的红叉叉外,Eclipse在每次编辑、阅读全文
posted @ 2016-12-22 19:17 EliteQing 阅读(6515) 评论(1) 编辑
摘要: Awesome-crawler-cn 互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新... 交流讨论 Python Scrapy - 一种高效的屏幕,网页数据采集框架。 django-dynamic-scraper - 基于Scrapy内核由djan阅读全文
posted @ 2016-12-02 12:51 EliteQing 阅读(3607) 评论(0) 编辑