摘要: 今春,Google 计划终止又一项产品,它就是“站内搜索”(Site Search)功能。这项产品主要出售给 web 出版商,让它们可以在自家网站内运用业内领先的搜索技术。虽然该公司并未公开宣布此事,但根据周二发给客户与合作伙伴的邮件,Google 还是披露了它们的计划 —— 终止这款诞生于 200阅读全文
posted @ 2017-03-08 17:02 kwklover 阅读(19) 评论(0) 编辑
摘要: 最近我们搜易站内搜索系统的一个客户需要一个无限级分类和分类统计功能,要实现的效果如下: 但由于搜易站内搜索系统是基于Lucene.net 2.0开发的,并没有内置的分类统计搜索功能,于是乎只能自己实现了,考虑到客户的总数据量和搜索量不是特别大,于是用了简单有效的方式来实现: 因为涉及到分类的操作,但阅读全文
posted @ 2017-03-03 10:00 kwklover 阅读(349) 评论(0) 编辑
摘要: 前段时间,因为要给自己开发的搜易站内搜索引擎增加Oracle数据库的支持,所以学习了下Oracle的基础知识,发现使用方式跟MYSQL,MSSQL等数据库的思维有很大的不同,总结一下几点不同,希望给初学者一点经验,减少学习的时间: 一,Oracle数据没有数据库的概念 我们使用MSSQL等数据,习惯阅读全文
posted @ 2016-10-24 17:02 kwklover 阅读(171) 评论(1) 编辑
摘要: 今年5月份,我研发的站内搜索引擎产品(为了避免广告嫌疑,具体名称就不说了)推出了第一个稳定的商业版,当然发展的还是比较缓慢的,但是坚持做好一个产品,还是会有所收获的,我写作本文,一是希望跟大家分享自己的心理历程和心得经验,二是希望跟做过技术产品的博友交流交流,如何做好一个产品。一,坚持,无坚持不产品。 去年年底,我没事翻阅自己博客,发现好多年前,自己正在计划开发一个开源的OA系统,但由于各种原因,最后搁置了。随后,在一个偶然的时间,我整理自己的硬盘资料,又发现我多年前写的一个基于Lucene的搜索引擎框架,打开看了一下,架构逻辑非常清晰,心里想着,这么好的一个东西,放在硬盘也是垃圾,不如把他.阅读全文
posted @ 2013-08-24 11:20 kwklover 阅读(627) 评论(2) 编辑
摘要: 因为工作需要编写一个采集特定网站视频文件,转换格式,且自动上传发布的系统,采集,上传,发布问题不大,唯独视频格式转换困扰了比较长的时间,所以记录分享一下这个技术,给有需要的博友参考一般视频格式转换都是用ffmpeg和mencoder,但网上的资料说,ffmpeg性能高,mencoder功能强些。那就mencoder来吧。string mencoderargs = " -oac faac -faacopts mpeg=4:object=2:raw:br=128 -ovc x264 -x264encopts global_header:no8x8dct:nocabac:weightp=0阅读全文
posted @ 2013-05-09 17:22 kwklover 阅读(1621) 评论(0) 编辑
摘要: 在开发SearchEasy Site SearchEngine(搜易站内搜索引擎)的时候,经常会遇到一些搜索引擎的常见功能如何实现的问题,比如实现相关度百分比显示?如何实现在结果中搜索等等诸如此类常见的问题,本文总结我在开发SearchEasy Site SearchEngine(搜易站内搜索引擎)过程中遇到的问题,整理分享给需要的园友们:问:Lucene.net的搜索结果的百分比相关度值是如何实现的?答: Hits result = searcher.Search(q); float score = result.Score(n) ;//n为查询结果文挡序号,返回的是一个<=1f的fl阅读全文
posted @ 2012-11-10 17:22 kwklover 阅读(2154) 评论(3) 编辑
摘要: 这个问题解决有一段时间了。刚才在Lucene的群有朋友提问了这个问题。所以方便其他朋友遇到此问题时,好参考下。特贴出来在需要搜索多个索引目录,多个字段的时候,发现有错误,提示的大概意思是(具体忘记了),关键词已经存在字典中。研究Lucene的源代码发现,是Lucene.net 1.9 rc1的一个bug : 具体代码在Lucene.Net.Search命名空间下的Query类的Combine me...阅读全文
posted @ 2008-03-11 14:41 kwklover 阅读(1475) 评论(1) 编辑
摘要: 有时候 ,经常搜索一些关于搜索引擎的技术文章,时有文章提到,基于网页库,基于模板的spider的说法,这些概念对于没有在专业搜索引擎公司工作经历的我来说,实在不好理解,联系到好久以前看到腾讯招聘“搜索引擎编辑”的要求,有两条比较有趣:工作职责: 1,制作定向采集模版2 ......... n工作要求: 1,熟悉计算机操作,熟练掌握OFFICE软件,能够很快学会xml,html基本语法 2,其他均和...阅读全文
posted @ 2008-02-04 23:31 kwklover 阅读(2387) 评论(1) 编辑
摘要: drop table#tempcitysselect * into #tempcitys from hy_citys上面的语句第一次运行的时候就肯定出错了,但第二次就不会。因为select * into #tempcitys from hy_citys自动创建了临时表#tempcitys ,第一次临时表不存在,drop table自然就出错了。刚开始没反应过来,select * into是会自动创...阅读全文
posted @ 2007-11-23 10:48 kwklover 阅读(7746) 评论(2) 编辑
摘要: 最近在一个地方的门户网站,基于PDO规范整合了动易,网人分类信息,OBlog,Discuz!NT论坛,可是在整合动易和DNT的时候,在中文用户名字的处理上出现了编码问题。动易是GB2312的,而DNT是UTF-8的,虽然也可以把DNT转成GB2312的,不过显然不是一个好的方案。论坛上各式各样的文字都有,很容易出现乱码问题。幸好在河源同行告诉我他写的一个帖子:处理ASP提交的参数是经过GB2312...阅读全文
posted @ 2007-10-10 16:21 kwklover 阅读(2143) 评论(3) 编辑
摘要: 在Lucene.net实现自定义排序,需要实现两个Lucene.Net.Search的两个接口:public interface SortComparatorSource{ ScoreDocComparator NewComparator(IndexReader reader , System.String fieldname) ;}public interface ScoreDocCompara...阅读全文
posted @ 2007-07-28 17:21 kwklover 阅读(3647) 评论(1) 编辑
摘要: AderTemplate是一个小型的模板引擎。无论是拿来直接使用还是用来研究模板引擎实现方式,都是一个不错的选择。本文尝试对其源代码做一些分析。阅读全文
posted @ 2007-07-12 14:37 kwklover 阅读(7247) 评论(19) 编辑
摘要: T-SQL复习总结(1)--用T-SQL创建,修改,管理,删除数据库阅读全文
posted @ 2007-05-11 23:26 kwklover 阅读(5753) 评论(1) 编辑
摘要: 我开发的中文分词程序,开源发布,其实哪个中文分词的整体架构是比较糟糕的。架构是否优秀决定了很多构思无法实现,思考了比较久,最近准备开发第二版,抛弃以前的架构,重新实现。下面是一些设计和构思。计划是两周时间开发完成beta版(如果因为工作关系,也有可能放弃),主要是希望和大家交流下设计思想,我觉得构思很重要,想得实现不了,可以慢慢研究,想不到才是头大的问题,希望能和大家一起交流下:新版中文分词构想(...阅读全文
posted @ 2007-03-19 09:47 kwklover 阅读(8469) 评论(19) 编辑
摘要: 功能介绍:请参看花2周时间开发的中文分词终于有点小样了(有些功能没体现出来)本中文分词是基于匹配模式开发的中文分词程序,为本人练手作品。也可以直接使用。但不建议。因为整体架构有一些基础性问题。不过做为开发中文分词的参考,相信还是有一定价值的。最近吕震宇老师发布了ICTCLAS的C#版SharpICTCLAS。很优秀的中文分词程序。我的这个和它根本不是一个级别的。不过在自己的应用中,估计还是不能直接...阅读全文
posted @ 2007-03-19 06:14 kwklover 阅读(16307) 评论(29) 编辑
摘要: 目录,里面内容有些本人已可实现,有些还在探索中,无实际价值,无实际内容,仅仅为个人整理知识点参考之用。阅读全文
posted @ 2007-03-01 20:58 kwklover 阅读(1541) 评论(1) 编辑
摘要: 1,关于SQLiteSQLite is a small C library that implements a self-contained, embeddable, zero-configuration SQL database engine所以SQLite可以用来代替Access,以满足小型和并发量不是特别大的情况下的应用,比如用来做词库 :) 2,官方网站和.net data provide...阅读全文
posted @ 2007-02-16 22:08 kwklover 阅读(1925) 评论(2) 编辑
摘要: 快速排序的基本思想:分治法,即,分解,求解,组合 .分解:在无序区R[low..high]中任选一个记录作为基准(通常选第一个记录,并记为Pivot,其下标为pivotpos),以此为基准划分成两个较小的子区间R[low,pivotpos - 1]和R[pivotpos + 1 , high],并使左边子区间的所有记录均小于等于基准记录,右边子区间的所有记录均大于等于基准记录,基准记录无需参加后续...阅读全文
posted @ 2007-02-15 14:11 kwklover 阅读(1844) 评论(1) 编辑
摘要: DotLucene生成索引的速度的是个大问题。不过我通常是想法比技术多。所以除了常规的性能调整外。更重要的是通过尝试不同的做法来测试其索引的速度: 1,一般做法: 通过调整maxMergeDocs,mergeFactor,minMergeDocs参数来达到性能优化。另外也可以通过先索引到内存,然后倒入文件索引的方式。具体就不说。网上资料很多。 2,小数据多批次索引: 我在做一个生成索引的测试的时候...阅读全文
posted @ 2007-01-26 12:15 kwklover 阅读(1991) 评论(2) 编辑
摘要: 1,在数据库表填加一个IsFobidden字段。表示是否禁止;2,在数据库填加两个字段:开始时间和结束时间;通过设置一个远低下现在的时间表示禁止你通常都采用那种表达方式?用户系统的三个方面:有效时间范围。是否禁用。可以做什么。第一种显然漏掉了有效时间范围;所以第二种是较优的方案,因为它可以同时表达两种含义:帐号的有效时间范围和是否禁用的概念;而至于用户能干什么,那是权限系统的问题。 这样加上权限系...阅读全文
posted @ 2007-01-26 12:05 kwklover 阅读(930) 评论(0) 编辑
摘要: 本文总结了Web Spider提取编码的四种方法
1,通过分析Header提取编码
2,通过分析BOM(Byte Order Mark)提取编码
3,通过分析页面的meta提取编码
4,通过字节流分析检测编码阅读全文
posted @ 2007-01-24 08:04 kwklover 阅读(4465) 评论(11) 编辑
摘要: 这两天看到几篇关于WebSpider的文章。其中关于抓取网页出现的编码格式问题大家都比较感兴趣,以前在参与帮看网的开发时也遇到过。不过那时候忙于ITDB的BBS开发,没有时间去研究。今天看到解决网爬工具爬取页面信息出现乱码的问题 ,刚好最近离职赋闲在家。所以又挑起了我研究学习的兴趣。现在把我的“研究成果”和大家探讨下: 下面我按照我解决问题的思路来行文 1,要根本解决编码问题,先要从编码的理论入手...阅读全文
posted @ 2007-01-22 17:22 kwklover 阅读(3492) 评论(18) 编辑
摘要: 运行->Services.msc 启动Terminal Services服务Terminal Services服务介绍: 允许多位用户连接并控制一台机器,并且在远程计算机上显示桌面和应用程序。这是远程桌面(包括管理员的远程桌面)、快速用户转换、远程协助和终端服务器的基础结构。所以,没用的时候把他关掉。少开一个服务,系统就多一层安全性。阅读全文
posted @ 2007-01-17 03:17 kwklover 阅读(3099) 评论(1) 编辑
摘要: IIS 500内部错误之解决办法,这个是我自己遇到问题,参考google资料解决问题后,做个简单的log.以备查!阅读全文
posted @ 2007-01-08 22:07 kwklover 阅读(5926) 评论(0) 编辑
摘要: 换皮肤的方式有很多种,最简单的通常就是切换页面CSS,而CSS通常写在外部CSS文件里。那么切换css其实就是更换html里的link href路径。我在网上搜索了下。一般有两种方式:1,在页面放一个holder控件。然后用编程方式把当前用户的风格css link写入页面。2,通过反射机制,逐个控件设置css样式。上面两种方式都挺麻烦的,第一种需要在每个页面上放一个holder控件。类似的做法还有...阅读全文
posted @ 2007-01-03 21:23 kwklover 阅读(5720) 评论(3) 编辑
摘要: 有时候需要处理点小图片的话,可以不用安装笨重的photoshop了.当然功能没有photoshop那么强大了.http://www.fauxto.com阅读全文
posted @ 2006-12-23 10:36 kwklover 阅读(1056) 评论(0) 编辑
摘要: 前言第一篇 电子商务的发展与概念第二篇 电子商务变革的冲击第三篇 电子商务的环境要求第四篇 电子商务的技术要求第五篇 电子商务与各行业第六篇 电子商务的主要模式第七篇 全球电子商务发展策略第八篇 电子商务高级论谈第九篇 电子商务解决方案为电子商务支招阅读全文
posted @ 2006-12-09 01:55 kwklover 阅读(1127) 评论(0) 编辑
摘要: http://hertbook.vxv.cn/soft/sql_client.rar链接已无效阅读全文
posted @ 2006-11-10 15:32 kwklover 阅读(1497) 评论(1) 编辑
摘要: 1,关于选型如果打算快速实现BBS,BLOG,相册,下载等系统的通用社区型网站,CS2还是很好的选择来的.不过如果希望它作为一网站的一个产品独立发展,则CS2不是最好选择,如果让我选择,我觉得ANF(bbs.hidotnet.com) + 博客园的blog会更好一些,因为CS2整合的东西太多,内部复杂度很大每个APP的改造幅度过大.都很可能对其他的APP产生影响.为了不影响,要考虑的东西比较多.对...阅读全文
posted @ 2006-11-10 15:31 kwklover 阅读(1381) 评论(0) 编辑
摘要: 这个写的比较抱歉,因为已经开始阅读Index部分了,Documents这个部分很早之前写了,但觉得没什么价值没发表,荒芜了一段时间,现在又开始了.这篇仅仅为了系列的完整.也发表了吧,大家随便仍鸡蛋吧 :).这个命名空间的类相对较少,也相对较简单,一共才四个类,主要的类是Document,Field,在DotLucene中,可以这样认为,Document就是一种类似于数据库中的数据列的数据结构,Fi...阅读全文
posted @ 2006-10-24 01:22 kwklover 阅读(3565) 评论(1) 编辑
摘要: 原理部分,可以参考DotLucene源码浅读笔记(1) : Lucene.Net.Analysis ,本篇是依据上篇文章的分析,编写出的简单中文分词器(ChineseAnalyzer).从DotLucene源码浅读笔记(1) : Lucene.Net.Analysis可以知道,与分词有关的主要是两个基类:词法分析器(Analyzer) :词法过滤和分析的类,实际上是对分词器, 过滤器的综合包装类。...阅读全文
posted @ 2006-10-24 01:09 kwklover 阅读(7067) 评论(5) 编辑
摘要: 先说说几句废话。在.Net领域,比较优秀的论坛有Community Server,yetanotherforums,CVBBS等等。 在php领域,优秀的论坛有phpwind,phpbb,Discuz,vBulletin等等在asp/.net领域的几个论坛我都尝试用过,不过都不是很优秀.比如Community Server架构很优秀,但很复杂,而且也不太符合国情。yetanotherforums发...阅读全文
posted @ 2006-09-13 01:45 kwklover 阅读(7290) 评论(5) 编辑
摘要: 第12天:校验及常见错误 (2004-6-25) 第11天:不用表格的菜单 (2004-6-25) 第10天:自适应高度 (2004-6-25) 第9天:第一个CSS布局实例 (2004-6-25) 第8天:CSS布局入门 (2004-6-25) 第7天:CSS入门 (2004-6-25) 第6天:XHTML代码规范 (2004-6-24) 第5天:head区的其他设置 (2004-6-24) 第...阅读全文
posted @ 2006-08-13 18:11 kwklover 阅读(1189) 评论(0) 编辑
摘要: 收集整理一些关于DotText的研究学习资料.阅读全文
posted @ 2006-07-31 22:54 kwklover 阅读(1728) 评论(0) 编辑
摘要: 今天在思归呓语的blog里看到ASP.NET 2.0 Internet安全之参考实现,看介绍很有吸引力.去down下来,大概看了一下文挡.很多大多不同程度使用过,但还没有从整体上去设计和考虑过.这个范例提供了一种输理和方向.收藏!
阅读全文
posted @ 2006-07-22 11:06 kwklover 阅读(1307) 评论(0) 编辑
摘要: 什么是商业价值?
解决别人愿意花钱解决的问题,就是商业价值。

什么是市场规模?
你解决的别人愿意花钱解决的问题存在的越普遍,市场规模越大。

什么是品牌?
当你遇到问题需要解决时,脑子中会出现的名字就是品牌。

什么是圈子?
圈子是事业的基础,人只可能赚熟人的钱。

另外:
李钟伟的标准是你的手机里存的号码,80%是什么人,你就是什么人
我演绎了一下,我觉得,主动给你打电话的,80%是什么人,你就是什么人阅读全文
posted @ 2006-07-18 12:43 kwklover 阅读(1315) 评论(0) 编辑
摘要: 从技术上来讲并不复杂,就一个简单的JS而已.但是这个小小的功能,确实能给用户以更大的自由度.阅读全文
posted @ 2006-07-09 15:47 kwklover 阅读(1380) 评论(2) 编辑
摘要: 本文是我对DotLucene源码浅读系列笔记的第一篇.主要内容为DotLucene主要命名空间概览,以及对Lucene.Net.Analysis命名空间的简单分析.阅读全文
posted @ 2006-06-25 21:41 kwklover 阅读(10204) 评论(12) 编辑
摘要: 只要提示,不写详细.阅读全文
posted @ 2006-06-19 00:13 kwklover 阅读(1612) 评论(1) 编辑
摘要: 现在的网站都很有一个很流行这样一个功能,加载数据的时候。整个页面不刷新,但曾现不可用和半透明的状态。Community Server也有一个类似的功能,比如你发新帖的添加附件处,点击它。打开一个新窗口(其实只是一个iframe),整个背景曾现不可用和半透明的状态。这几天修改CS2的界面,把论坛板块放在一个框架页的左边。右边显示帖子列表,遇到一个问题,发表新帖子(在框架页的右边)的时候,添加附件老添...阅读全文
posted @ 2006-06-09 13:24 kwklover 阅读(1442) 评论(3) 编辑