摘要: 第一次在博客里面写非技术的文章来发布一下感慨,毕业了!! 从一上大学,我就有着明确的目标——在技术上有所作为。虽然,现在离成功还很遥远,技术也只是游荡在底下层的水平,但是,我还是不断的朝这个目标前进。与很多人不同,我整个大学期间没参加过任何社团,没参加过任何与技术无关的活动。。。做出这些牺牲,是因为我基础差。。。我来自一个资讯落后,生产水平有限的乡村,直到大学,我才真正的接触电脑,可以说,直到这时候,我才知道怎么关机。。。比别人落后这么多,如果不经过后期的努力,这些差距只会越来越大,所以我放弃了很多玩乐的时间。我虚心向技术好的人请教,交流;一起参加各类技术比赛,涉足各个技术领域,记得第一... 阅读全文
posted @ 2012-06-30 14:00 三度空间 阅读(3217) 评论(67) 推荐(2) 编辑
摘要: 根据同源策略,ajax在非同源的情况下的访问是受限的,为解决跨域交互的问题,我们会想到利用jsonp 或者 Iframe 的 window.name 来传输数据。如果对两个域都有控制权,我们还会使用window.domain 使非同源的交互成为可能。 抑或是用代理页面这种中间层来传递数据等等。 跨域访问的方法很多,根据自己的需求来选择合适的方案。 最近,公司有个业务,抓取一个安全性很高的网站的数据,这个网站绑定了机器上的一些物理信息以及IP地址等,一个账号只能在一台机上面运行。一般而言,抓取数据,使用服务器代码(C#,java,ruby 等都可以),将页面下载下分析就可以了,也不会存在... 阅读全文
posted @ 2012-06-20 11:16 三度空间 阅读(5083) 评论(6) 推荐(0) 编辑
摘要: 工作以来,一直做数据挖掘。刚开始的时候,为政府网站抓取其他网站的正文内容做统计分析,到现在的公司,做海量数据相似度分析。刚开始时,仅仅基于Dom树做分析,然后找出那些最可能是正文的内容,但是这样做,仅能针对的网站数量很少,对于严重不符合规范的网站,抓取准确率很低。这次,借着做毕业设计之际,有充足的时间做深入的学习。先是看了《基于DBScan算法的网页正文提取》,开始对正文提取的手段有了改观。1.DBScan(fordensity-based spatial clustering of applications with noise),我觉得维基百科中对它的描述很准确,很详尽:DBSCAN 阅读全文
posted @ 2012-04-29 19:23 三度空间 阅读(1206) 评论(3) 推荐(0) 编辑
摘要: 编者按:iOS5.0.1完美越狱工具已经被放出来,@ppiOS整理了一份越狱教程,以下为具体内容:注意:本教程仅适用于以下设备:iPhone3GSiPhone4iPhone4-CDMAiPad1iPod touch 3GiPod touch 4G完美越狱仅支持iOS5.0.1,如果你还没有升级到iOS5.0.1,或者使用了iFaith自制固件降到了iOS5.0,请马上升级到iOS5.0.1!【升级iOS5.0.1教程】有锁版iPhone请参考我们的自制固件教程自制去基带固件升级(有锁iPhone4去基带固件快捷下载地址115下载解压密码ppios)已经不完美越狱iOS5.0.1的用户快捷完美的 阅读全文
posted @ 2011-12-28 09:26 三度空间 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 常规N皇后解决问题过程一.问题描述运用回溯法解题通常包含以下三个步骤: (1)针对所给问题,定义问题的解空间; (2)确定易于搜索的解空间结构; (3)以深度优先的方式搜索解空间,并且在搜索过程中用剪枝函数避免无效搜索;通过上述的基本思路,我们可以将问题描述为:X(j)表示一个解的空间,j表示行数,里面的值表示可以放置在的列数,抽象约束条件得到能放置一个皇后的约束条件(1)X(i)!=X(k);(2)abs(X(i)-X(k))!=abs(i-k)。应用回溯法,当可以放置皇后时就继续到下一行,不行的话就返回到第一行,重新检验要放的列数,如此反复,直到将所有解解出。也就是对于N×N的棋 阅读全文
posted @ 2011-12-09 20:30 三度空间 阅读(8731) 评论(0) 推荐(0) 编辑
摘要: 1、方法思想使用分治法的思想:首先把数组分成两部分,在把这两部分中的每一部分分成两部分,一直递归分解直到每一部分小于等于2个数为止,然后比较这两个数,判断最大最小值,然后回弹比较直到递归的最外层,就可以判断最大最小值;2、问题描述从一个无序的数列中查找最大值和最小值3、算法描述(1)采用分治的思想来描叙问题;(2)伪代码:FindMaxAndMin(a[],begin,end,pmax,pmin)If end-begin<=1 Then pmax=a[begin] pmin=a[end] else pmax=a[end] pmin=a[begin] else mid=(begin+end 阅读全文
posted @ 2011-10-24 23:35 三度空间 阅读(6932) 评论(0) 推荐(0) 编辑
摘要: +1. 首先需要JAVA环境Java SE JDK Downloadswww.oracle.com/technetwork/java/javase/downloads/index.html--------------------------------------------------------------------------------+2. Android SDK R14 DownloadsAndroid SDK:Windows绿色版dl.google.com/android/android-sdk_r14-windows.zipAndroid SDK:Windows安装版(2选1 阅读全文
posted @ 2011-10-24 23:00 三度空间 阅读(2770) 评论(2) 推荐(0) 编辑
摘要: 一直都在.Net下做开发,偶尔也写写C和C++的小程序。当然,Java也写过,不过比较少。一个学期没去上JSP的课,突然收到没交作业就挂科的消息,没办法,做作业吧。既然要做作业,那就要做点特别的,不要总是什么学生管理系统这些增删改查的老掉牙的。。。上次比赛需要在.Net平台下用Lucene.Net搭建过全文检索引擎,所以这次想尝试下用java开发试试,虽然很少弄过java,但语言就一工具,看看说明应该就能简单应用了。下了《Lucene in action》这本书,英文版的(找不到中文完整版的),初略的浏览了一遍,掌握个大概,就开始开发了。项目要实现的目标:实现局域网内文档共享;项目的功能说明: 阅读全文
posted @ 2011-08-07 22:13 三度空间 阅读(2980) 评论(2) 推荐(1) 编辑
摘要: What is Lucene——Apache LuceneApache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform.Apache Lucene is an open source project available 阅读全文
posted @ 2011-08-04 00:13 三度空间 阅读(1522) 评论(1) 推荐(1) 编辑
摘要: 环球面试完了,等通知中。。。怕怕。。。看书看不下去,想下电影珍藏,无奈校园网可看不可下,既然他不仁,那我也不义了。。。打开网页,想分析他网页的源码,竟然禁止了右键菜单。。。哈哈,没关系,我有强大的Firefox。。。文件的地址一览无遗。。。但是,却发现有两个服务器地址?到底是哪个呢?(感谢小明,直接告诉了我,哈哈),如图。文件的地址由两个URL各取一部分组成。我们可以用正则表达式来把URL取出并拼凑(很多网络爬虫用此方法抓取url),代码如下: //根据URL获取网页的源码,并根据网页编码自动转码privatestringgetHtmlScourse(stringurl){try{WebC.. 阅读全文
posted @ 2011-07-31 20:41 三度空间 阅读(683) 评论(2) 推荐(0) 编辑