摘要:
通过采集系统我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单,我们来做个测试,就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代
阅读全文
posted @ 2013-08-25 22:10
you Richer
阅读(269)
推荐(0)
摘要:
大家好,这一节主要介绍Javascript的函数。函数是Javascript的核心中的核心,这么强调一点都不过分,相信没有人反对,如果有人反对,你以后可以不用函数,呵呵,说的有点绝了啊。 下面看一下Javascript定义函数的基本语法格式: 格式一: function 函数名(m){ return m; } 格式二:匿名函数 function (m,n){ return m+n; } 以上两种格式的参数都是可选的,不需要声明返回值类型、参数类型,也可以没有返回值,但是function的关键字是必须保留的,而且一个字母不能写错。 ...
阅读全文
posted @ 2013-08-25 22:08
you Richer
阅读(148)
推荐(0)
摘要:
一、工程整体图 二、activity_main.xml 三、AndroidManifest.xml 四、MainActivity.javapackage com.jltxgcy.broadcastreceiverdemo;import android.app.Activity;import android.co...
阅读全文
posted @ 2013-08-25 22:05
you Richer
阅读(228)
推荐(0)
摘要:
一二三你弟弟刚刚学会写英语的一(one)、二(two)和三(three)。他在纸上写了好些一二三,可惜有些字母写错了。已知每个单词最多有一个字母写错了(单词长度肯定不会错),你能认出他写的啥吗? 输入 第一行为单词的个数(不超过10)。以下每行为一个单词,单词长度正确,且最多有一个字母写错。所有字母都是小写的。 输出 对于每组测试数据,输出一行,即该单词的阿拉伯数字。输入保证只有一种理解方式。 样例输入 3 owe too theee样例输出1 2 3分析:此题就是一一对比字符串的符合,因为只有三种情况,前两种都是三位,所以一起比较,最后一个单独比较,直接比较,计一个临时变量...
阅读全文
posted @ 2013-08-25 22:03
you Richer
阅读(375)
推荐(0)
摘要:
使用jquery mobile创建dialog时出现加载错误,“Error Loading Page”。原因是:jquery mobile页面默认采用ajax方式进行交互,而ajax方式下是不支持f://的,也就是本地文件,所以有两种解决办法:1.给超链接增加data-ajax="false"属性或者加上rel="external"就好了,以此来禁用ajax.进入主页面 2.将跳转页面发布到服务器 对于其他的几种跳转,看下文。现在我们来了解一下各种连接各种跳转的本质外部页面链接JQuery Mobile 自动化了创建ajax站点和程序的过程.默认情况下,
阅读全文
posted @ 2013-08-25 22:01
you Richer
阅读(674)
推荐(0)
摘要:
盒子游戏 有两个相同的盒子,其中一个装了n个球,另一个装了一个球。Alice和Bob发明了一个游戏,规则如下:Alice和Bob轮流操作,Alice先操作。每次操作时,游戏者先看看哪个盒子里的球的数目比较少,然后清空这个盒子(盒子里的球直接扔掉),然后把另一个盒子里的球拿一些到这个盒子中,使得两个盒子都至少有一个球。如果一个游戏者无法进行操作,他(她)就输了。下图是一个典型的游戏: 面对两个各装一个球的盒子,Bob无法继续操作,因此Alice获胜。你的任务是找出谁会获胜。假定两人都很聪明,总是采取最优策略。 输入 输入最多包含300组测试数据。每组数据仅一行,包含一个整数n(2#includ.
阅读全文
posted @ 2013-08-25 21:59
you Richer
阅读(292)
推荐(0)
摘要:
整体思路: 针对遗留系统的改造将遇见如下问题:1. 系统的文档不全,不新或根本缺失(需求,设计)。2. 代码是否是最新生产代码?3. 由于无人了解代码情况,所以代码的质量无法保障。4. 数据库的表结构说明缺失,业务的整理需要看代码猜测。针对以上问题,遗留系统升级改造建议采取“尽量少动原来的代码,只解决当前需求和问题为主要目的”的原则推进。所以为了遵循原则,需要重点解决定位和修改目标代码的问题。此处可以考虑以“测试驱动”模式推进。“测试驱动”顾名思义,先针对需要调整的功能,建立好测试的保障,后续如果修改后,再进行测试,先定位表结构,后定位到代码逻辑,进行解决。解决后能通过测试,则代表着修复和升级
阅读全文
posted @ 2013-08-25 21:56
you Richer
阅读(563)
推荐(0)
摘要:
针对广大笔记本用户: Windows系统登录后,或者系统锁定解锁后,都会自动启用触摸板,但是在使用键盘的时候又会很容易碰到触摸板,导致光标改变其原来的位置,给操作带来的很大的不方便。 一般人都会选择在插入外接鼠标的时候,关闭触摸板,或者在受到一次误操作影响的时候关闭触摸板。关闭触摸板的方式一般都是按组合键Fn+Fx,操作并不是十分方面。 如果后台启动一个不占用资源的程序,实现下面几个功能,岂不方便: 1、在插入鼠标的时候自动禁用触摸板。 2、在拔出鼠标的时候自动启用触摸板。 3、系统登录时、或者系统解除锁定时,有外接US...
阅读全文
posted @ 2013-08-25 21:54
you Richer
阅读(530)
推荐(0)
摘要:
message = $message; $this->level = $level; $this->type = $type; } public function setStrategy($strategyObj) { $this->_strategy = $strategyObj; } public function log() { $this->_strategy->log($this); } } interface Log { public function log($...
阅读全文
posted @ 2013-08-25 21:52
you Richer
阅读(133)
推荐(0)
摘要:
方案一:首先android环境搭建有如下几个东西是必须准备的:1、 Eclipse (下载地址:http://www.eclipse.org/downloads/,建议至少3.4及以上版本)2、 Android SDK(下载地址:http://developer.android.com/sdk/index.html)3、 ADT(选择在线安装,下面会讲安装方法) 一、配置ADT:打开 Eclipse IDE,进入菜单中的 "Help" -> "Install New Software"点击Add...按钮,弹出对话框要求输入Name和Locatio
阅读全文
posted @ 2013-08-25 21:50
you Richer
阅读(292)
推荐(0)
摘要:
Don't Get RookedIn chess, the rook is a piece that can move any number of squaresvertically or horizontally. In this problem we will consider smallchess boards (at most 44) that can also contain walls through whichrooks cannot move. The goal is to place as many rooks on a board aspossible so tha
阅读全文
posted @ 2013-08-25 21:47
you Richer
阅读(175)
推荐(0)
摘要:
前言近期有写一个简单GUI程序的点子,具体写什么就不说了,但一个要求就是有跨平台的功能。确切的讲,是我希望这个程序写好后能同时在Windows和Linux下运行,而且要方便随时修改。对于编程语言,处于练习的目的,我还是选择了Python,版本就用2.7的了,毕竟3版本个人觉得有些不习惯。 推荐文档不得不承认,在文档资源方面Tkinter的资源确实不怎么多,但下面这个的确也够我用了。http://www.nmt.edu/tcc/help/pubs/tkinter.pdf 文档是英文的,英文不行的就别抱怨了,趁早转行吧,反正以后我会教育自己的孩子一定要学好英文的。。。 为什么选用TkinterPy
阅读全文
posted @ 2013-08-25 21:45
you Richer
阅读(837)
推荐(0)
摘要:
上两周研发任务太紧了,所以担搁了一下,我们继续我们的面试之旅。下面是一个基于图书系统的15道SQL问答,供大家参考问题描述:本题用到下面三个关系表:CARD 借书卡。 CNO 卡号,NAME 姓名,CLASS 班级BOOKS 图书。 BNO 书号,BNAME 书名,AUTHOR 作者,PRICE 单价,QUANTITY 库存册数BORROW 借书记录。 CNO 借书卡号,BNO 书号,RDATE 还书日期备注:限定每人每种书只能借一本;库存册数随借书、还书而改变。要求实现如下15个处理: 1. 写出建立BORROW表的SQL语句,要求定义主码完整性约束和引用完整性约束。 2. 找...
阅读全文
posted @ 2013-08-25 21:43
you Richer
阅读(228)
推荐(0)
摘要:
近期在做一套集群的实现,实现的方案是在Linux下完成对Apache + Tomcat 负载均衡的功能。上述功能已经实现,有需要了解的朋友可以看我另外一篇博文。Linux下Apache与Tomcat的完全分布式集群配置(负载均衡) 但是实现了该集群后,发现登陆系统后,每次都会被拦截回登录页面,造成该现象的原因是Session共享的问题没有解决。原理即当我通过apache进入tomcat子节点1后,会持有一个唯一的标识放入到session中,但是第二次会通过负载均衡的实现进入到tomcat子节点2中,这时之前的标示符已经不存在,且Session已经销毁,因此会被误认为用户Session超时,..
阅读全文
posted @ 2013-08-25 21:41
you Richer
阅读(255)
推荐(0)
摘要:
hibernate.order_updates:Hibernate文档中提到,该配置用于在刷新一级缓存,提交UPDATE的时候,按照每类对象的主键顺序排序后再提交,可以在高并发情况下减少事务死锁的可能。这个配置默认为false,但是非常建议在可能存在高并发情况下开启,因为其实按照类型ID排序(在内存中),并不会消耗过多性能。那么这个配置到底什么含义呢?做个简单的测试。首先准备一个对象User,完成映射(略),完成下面的测试: @Before public void save(){ Session session=sf.openSession(); session.beginT...
阅读全文
posted @ 2013-08-25 21:39
you Richer
阅读(266)
推荐(0)
摘要:
http://blog.chinaunix.net/uid-23145525-id-3499930.html 1.选bdb的理由 业务场景是:1个writer进程,多个reader进程,writer实时写数据到db文件中,其他reader实时读取db 存储结构:key值采用的是以时间戳,可以说是有序的,故采用btree bdb的优点正好满足需求: (1).直接嵌入应用程序,没有client-server的开销; (2).关键还是稳定,对大数据的存储并发访问的稳定口碑很好 (3).被oracle收购了,相关的文档非常完善,靠谱 2.使用bdb中的注意事项: 由于bdb中没有databas...
阅读全文
posted @ 2013-08-25 21:36
you Richer
阅读(696)
推荐(0)
摘要:
前言与C一样,python也有自己的关键字,关键字有特殊的意义,不能作为普通的变量名类名等用途 关键字列表 以python2.7.5为例,有如下关键字: and del from not whileas elif global or withassert else if pass yieldbreak except import printclass exec in raisecontinue finall...
阅读全文
posted @ 2013-08-25 21:34
you Richer
阅读(282)
推荐(0)
摘要:
/*---------------------NSArray---------------------------*/ //创建数组 NSArray *array1 = [NSArray arrayWithObject:@"1"]; NSArray *array2 = [NSArray arrayWithObjects:@"1",@"2",@"3", nil]; NSArray *array3 = [NSArray arrayWithArray:array2]; NSLog(@"array1 = %@&q
阅读全文
posted @ 2013-08-25 21:32
you Richer
阅读(271)
推荐(0)
摘要:
本文简单介绍windows下svn服务器与客户端软件的简单应用。其中,svn服务器用于储存和管理代码,相当与文本服务器的作用(多版本控制等功能),同时分配用户代码的访问与使用权限。客户端软件 用于提交代码,下载代码等。 配套软件: visualSVN 为 windows 下 svn的 服务器配置软件。 可以分配 用户权限,设置连接方式和端口号 https/http。 tortoiseSVN 为svn的客户端软件。 用于执行 checkout (导出文本) update(更新文本) commit (提交文本)等操作。 使用时: 1.创建代码仓库Repositories。创建空...
阅读全文
posted @ 2013-08-25 21:29
you Richer
阅读(195)
推荐(0)
摘要:
现在看来,已经将近三月没有写博客了,上次的博客记录还是毕业设计前写的技术博客,也就是说有将近一个季度没有进行书面的心理反省了,这个周末正好不用加班,难得静下心来反省一下。 还是先从毕业答辩开始说起吧 之前想来,自己肯定是要做程序员的,所以就借着这次毕业设计的机会,好好学点技术,因此毕业设计花费了我整整一个月的时间,学习新技术、编码、调试等等,好多个不眠之夜之后,自认为是所有人中最认真、最完美的一个毕业设计了,但是最后的结果却让出乎我的意料,仅仅是个及格分数,要知道,隔壁宿舍的那个自己什么都没做,程序、论文都是拿我之前的课程设计冒充的,最后居然分数比我高,要知道这个课程设计是我花了一周的时间做.
阅读全文
posted @ 2013-08-25 21:27
you Richer
阅读(191)
推荐(0)