摘要:引言在windows安装Android的开发环境不简单也说不上算复杂,本文写给第一次想在自己Windows上建立Android开发环境投入Android浪潮的朋友们,为了确保大家能顺利完成开发环境的搭建,文章写的尽量详细,希望对准备进入Android开发的朋友有帮助。本教程将分为五个步骤来完成And...
阅读全文
文章分类 - Program
c#,c,c++,regex
摘要:引言在windows安装Android的开发环境不简单也说不上算复杂,本文写给第一次想在自己Windows上建立Android开发环境投入Android浪潮的朋友们,为了确保大家能顺利完成开发环境的搭建,文章写的尽量详细,希望对准备进入Android开发的朋友有帮助。本教程将分为五个步骤来完成And...
阅读全文
摘要:一、lucene介绍Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人...
阅读全文
摘要:二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。一、颜色分布法每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。任何一种颜色都是由红绿...
阅读全文
摘要:有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果...
阅读全文
摘要:上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举...
阅读全文
摘要:TF-IDF(term frequency–inverse document frequency)是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。一个词在一篇文章中出现的次数并不能表明该词的重要性,例如“我们”,“的”这种常见词,我们需要TF-IDF统计方法。词的重要度随...
阅读全文
摘要:我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下;1) 、正向最大匹配2) 、逆向最大匹配3)
阅读全文
摘要:FORFILES [/P pathname] [/M searchmask] [/S] [/C command] [/D [+ | -] {yyyy-MM-dd | dd}]描述: 选择一个文件(或一组文件)并在那个文件上 执行一个命令。这有助于批处理作业。参数列表: /P pathname 表示开始搜索的路径。默认文件夹是当前工作的 目录 (.)。 /M searchmask 根据搜索掩码搜索文件。默认搜索掩码是 '*'。 /S 指导 fo...
阅读全文
摘要:一个小型的网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单。随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是涉及面非常广,从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求,已经不是原来简单的html静态网站所能比拟的。 大型网站,比如门户网站,在面对大量用户访问、高并发请求方面,基本的解决方案集中在这样几个环节:使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。.
阅读全文
摘要:正则表达式 (UltraEdit Syntax):% 匹配行首 - 表明要搜索的字符串一定在行首.$ 匹配行尾 - 表明要搜索的字符串一定在行尾? 匹配除换行符外的任一单个字符.* 匹配任意个数的字符出现任意次数(不包括换行符)+ 匹配前导字符或者表达式出现一次或者更多次(不包括换行符)++ 匹配前导字符或者表达式不出现或者出现一次以上(不包括换行符)^b 匹配页中断符^p 匹配DOS文件的换行符^r 匹配MAC文件的换行符(CR Only)^n 匹配UNIX文件的换行符 (LF Only)^t 匹配一个制表符[ ] 匹配方括号中的单个的字符删除空行: 替换 %[ ^t]++^p 为 空串删除
阅读全文
摘要:笔者自己是写采集器的,所以对网站防采集有一些心得体会。因为是在上班时间,各种方法只是简单的提及。很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。不同点:搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法
阅读全文
摘要:近期,应用服务器经常抛出 java.net.SocketException: Write failed: Broken pipe异常,在网上搜了一下相关信息,现汇总如下:资料:Broken pipe产生的原因通常是当管道读端没有在读,而管道的写端继续有线程在写,就会造成管道中断。(由于管道是单向通信的) SIGSEGV(Segment fault)意味着指针所对应的地址是无效地址,没有物理内存对应该地址。 以下是UNIX的信号解释: 11 / SIGSEGV: Unerlaubter Zugriff auf Hauptspeicher (Adressfehler). 12 / SIGUSER2
阅读全文
摘要:今天看到几篇有关Google App Engine的技术架构文章,一起分享给大家,没看到过的同学赶紧惊喜一下吧,看到过了的同学也假装惊喜一下嘛,呵呵。全部文章有点长,请耐心看下去,相信程序员都是有耐心的,除了我.......一、Google的核心技术在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。本篇将主要介绍Google的十个核心技术,而且可以分为四大类:分布式基础设施:GFS、Chubby 和 Protocol Buffer。分布式大规模数据处理:MapReduce 和 Sa
阅读全文
摘要:【导读】调查报告显示,中国用户会下载APP者,仅15%愿意付费。作为开发者如何才能让用户愿意付费呢?这里我想说的是:决定因素不是消费观念和消费能力,而是好的产品和市场环境更为重要。这就需要开发者们自律,能够为用户提供好的产品,我相信消费者们会很乐意为之付费。 一、让用户真正成为你的用户:AARRR模型 AARRR是Acquisition、Activation、Retention、Revenue、Refer,这个五个单词的所写,分别对应这一款移动应用生命周期中的5个重要环节。下面我们来简单讲解一下AARRR模型中每个项目的意义。 获取用户(Acquisition) 运营一款移动应用的第...
阅读全文
摘要:当数据库不能拉起来时候,我们可以通过odu找回丢失的数据,今天客户出要求,需要我帮忙找回不能起来库中的包,过程,函数,视图,触发器等之类东西。这些东西都是存在system空间中,存在一些系统的基表中,我们如果能够拿到这些基表的数据然后进行处理,原则上就可以得到客户需要的东西一、PROCEDURE/FUNCTION/PACKAGE/PACKAGE BODY/TRIGGER/TYPE/TYPE BODY之类恢复1. 查看这些数据存储在什么基表中select u.name, o.name,decode(o.type#, 7, 'PROCEDURE', 8, 'FUNCTION
阅读全文
摘要:ODU全称为Oracle Database Unloader,是类似于Oracle的DUL的软件,用于直接从Oracle数据库的数据文件中获取表数据。在各种原因造成的数据库不能打开时,用于抢救数据,最大限度地减少数据丢失。本文将以ODU 2.1.0 for Windows版,介绍如何使用ODU。本文只是一个快速上手指南,以后将详细介绍ODU的使用。在本网站下载到ODU的Windows版本,是一个ZIP压缩文件,解压缩到一个目录,比如解压到d:\,将会看到d:\odu目录下有如下的文件和目录:D:\odu>dir 驱动器 D 中的卷没有标签。 卷的序列号是 045E-00DE D:\odu
阅读全文
摘要:摘要:本文将向您讲述诸多数据处理面试题以及方法的总结。 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统...
阅读全文
摘要:这些经纬线是怎样定出来的呢?地球是在不停地绕地轴旋转(地轴是一根通过地球南北两极和地球中心的假想线),在地球中腰画一个与地轴垂直的大圆圈,使圈上的每一点都和南北两极的距离相等,这个圆圈就叫作“赤道”。在赤道的南北两边,画出许多和赤道平行的圆圈,就是“纬圈”;构成这些圆圈的线段,叫做纬线。我们把赤道定为纬度零度,向南向北各为90度,在赤道以南的叫南纬,在赤道以北的叫北纬。北极就是北纬90度,南极就是南纬90度。纬度的高低也标志着气候的冷热,如赤道和低纬度地地区无冬,两极和高纬度地区无夏,中纬度地区四季分明。 其次,从北极点到南极点,可以画出许多南北方向的与地球赤道垂直的大圆圈,这叫作“经圈”;构
阅读全文
摘要:如果你希望网站能在不同的浏览器下用户能够获得相似的体验效果,检测一下你的作品是一道必须的步骤。这里我整理了一些比较实用的工具,来帮助你检测各种可能出现的问题,譬如CSS错误、HTML错位、跨浏览器问题等等。在线验证工具1. HTML Validatorhttp://validator.w3.org/网页结构检测工具,支持HTML, XHTML, SMIL, MathML…….2. CSS Validatorhttp://jigsaw.w3.org/css-validator/CSS验证。3. Links Validatorhttp://validator.w3.org/checklink检测H
阅读全文
摘要:VARCHAR2(^([0-9]*^))VARCHAR2(^1 char)说起来 用UltraEdit也是七八年了 用正则表达式查找也是四五年了 就是替换一直没有深入研究 原先也琢磨过几次 均是无功而返 今天客户给了一个要求 觉得可以用正则表达式做到 经过半小时摸索 终于初窥门径 了却心头一桩憾事 欣喜之余 以此为记正文:客户文件如下:....}li "(A)|IN GENERAL.-If t(后半部分略 下同)}ls i}li "(i)|the percentage d}li "(ii)|any increase in}li &q
阅读全文
|