云端翱翔

文档的相似度（4）--总结

摘要：经过前三篇博客的介绍，关于文档相似度的分析已经基本结束了，下面做下总结。此处给出一个完整的相似项发现方法：首先找出可能的候选对相似文档集合，然后基于该集合发现真正的相似文档。必须强调的是，这种方法可能会产生伪反例，即某些相似文档对由于没有进入候选对所以最终没有被识别出来。... 阅读全文

posted @ 2017-03-19 21:16 云端翱翔阅读(293) 评论(0) 推荐(0)

文档的相似度（3）--局部敏感哈希算法

摘要：此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了，但是我们应该要发现，及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度，但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于... 阅读全文

posted @ 2017-03-19 21:02 云端翱翔阅读(694) 评论(0) 推荐(0)

文档的相似度（2）--最小哈希签名

摘要：接着上一篇的博客继续下去，这篇博客主要讲下最小哈希签名的东西。对于上篇博客中提到的shingle，可以说是在压缩数据量的基础上又尽可能保留了源文档的特征，以便于后面对不同的文档进行相似度比较。但是我们会发现，shingle集合非常大，即使将每个shingle... 阅读全文

posted @ 2017-03-18 23:34 云端翱翔阅读(1339) 评论(0) 推荐(0)

文档的相似度（1）--Jaccard相似度与文档的shingling

摘要：在当今的计算机高速发展的时代，对于文章的查重等涉及到数据比对的需求越来越高了。为了识别字面上相似的文档，日常生活中我们所做的就是比对两个文档中相似的语句的比重，如果大部分内容都是相同的话，那么我们就会判定这两篇文档很大程度上是有抄袭嫌疑的。其实这个过程完全是可以类比到计算中来的，... 阅读全文

posted @ 2017-03-15 21:18 云端翱翔阅读(2238) 评论(0) 推荐(0)

python分析作业提交情况

摘要：这次做一个比较贴近我实际的东西：要求：将服务器中交作业的学生（根据文件的名字进行提取）和统计成绩的表格中的学生的信息进行比对，输出所有没有交作业的同学的信息（学号和姓名），并输出所交的作业中命名格式有问题的文件名的信息（如1627406012_E03....）。提示：提示：1、根... 阅读全文

posted @ 2017-01-17 15:28 云端翱翔阅读(424) 评论(0) 推荐(0)

java操作mysql时执行带有日期语句的误区

摘要：最近在写服务器端的一些接口，在用java对mysql进行含有日期信息的查询的时候，遇到了一些问题，分享一下。首先把数据库中的一个用于用户签到的表的代码部分贴出来：create table signUpInfo(phoneNum nvarchar(11) not null, #手机号码si... 阅读全文

posted @ 2016-12-07 23:50 云端翱翔阅读(252) 评论(0) 推荐(0)

python3实现网络爬虫（7）-- 使用ip代理抓取网页

摘要：在抓取一个网站的信息时，如果我们进行频繁的访问，就很有可能被网站检测到而被屏蔽，解决这个问题的方法就是使用ip代理。在我们接入因特网进行上网时，我们的电脑都会被分配一个全球唯一地ip地址供我们使用，而当我们频繁访问一个网站时，网站也正是因为发现同一个ip地址访问多次而进行屏蔽的，所以这时候如果我们... 阅读全文

posted @ 2016-12-05 17:05 云端翱翔阅读(256) 评论(0) 推荐(0)

python3中eval函数用法简介

摘要： python中eval函数的用法十分的灵活，这里主要介绍一下它的原理和一些使用的场合。下面是从python的官方文档中的解释： The arguments are a string and optional globals and locals. If provided, globals mus... 阅读全文

posted @ 2016-12-03 10:50 云端翱翔阅读(2224) 评论(1) 推荐(0)

python3实现网络爬虫（5）--模拟浏览器抓取网页

摘要：本来准备继续分析BeautifulSoup的，但是好多网页都是反爬虫的，想分析没法分析了，那么就跳一节吧，我们先看看如何模拟浏览器进行访问网页，然后再折回去继续说BeautifulSoup。由于前面我已经用python2写过这方面的内容了，那么这次偷个懒，我就在以前的博客上... 阅读全文

posted @ 2016-11-29 23:33 云端翱翔阅读(882) 评论(0) 推荐(0)

python中模拟浏览器抓取网页（-）

摘要：对于平时我们抓取网页的内容时，比较倾向于直接利用urllib进行抓取（这里我就基于python的2.7版本进行解说，对于python3之后的版本，是将python中的urllib和urllib2和并成了urllib），但有些网站设置了防采集的功能，会拒绝爬虫进行数据的采集，这时候便可以模... 阅读全文

posted @ 2016-11-25 19:22 云端翱翔阅读(911) 评论(0) 推荐(0)