摘要:
关于python一些常用的语法 - 游空 - 博客园 保留浮点数的小数点。 如保留小数点后两位。 num = 9.2174 new_num = round( num , 2 ) 则new_num = 9.22 (四舍五入)晕。。。。看来常用的东西也不少啊,看来不能堆在一起说了。。。 阅读全文
posted @ 2012-09-23 08:01
lexus
阅读(16421)
评论(0)
推荐(1)
|
摘要:
关于python一些常用的语法 - 游空 - 博客园 保留浮点数的小数点。 如保留小数点后两位。 num = 9.2174 new_num = round( num , 2 ) 则new_num = 9.22 (四舍五入)晕。。。。看来常用的东西也不少啊,看来不能堆在一起说了。。。 阅读全文
posted @ 2012-09-23 08:01
lexus
阅读(16421)
评论(0)
推荐(1)
摘要:
详细的tfidf构建过程实例(转) - ancruna的专栏 - 博客频道 - CSDN.NET 详细的tfidf构建过程实例(转) 分类: 算法 2011-04-21 17:31 162人阅读 评论(0) 收藏 举报文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Ja... 阅读全文
posted @ 2012-09-23 07:49
lexus
阅读(803)
评论(0)
推荐(0)
摘要:
TF_IDF模型和文本相似度的计算 - icelovely的专栏 - 博客频道 - CSDN.NETTF_IDF模型和文本相似度的计算 分类: 文本检索 2012-04-08 15:47 91人阅读 评论(0) 收藏 举报TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以... 阅读全文
posted @ 2012-09-23 01:41
lexus
阅读(657)
评论(0)
推荐(0)
摘要:
Cloudera's Hadoop Demo VM for CDH4 - Cloudera SupportRunning the VMOnce you launch the VM, you are automatically logged in as the cloudera user. The account details are:username: clouderapassword: cl... 阅读全文
posted @ 2012-09-22 17:25
lexus
阅读(288)
评论(0)
推荐(0)
摘要:
Leoncom » 利用Simrank算法进行Query Rewriting利用Simrank算法进行Query Rewritingleoncom 搜索技术 2011-05-19搜索引擎的检索结果页下方一般会提示多个相似的搜索关键词,这些词可以被看作查询关键词query的rewriting。在计算广告中,当某一个query没有对应的bid phase出价广告,或者该query对应的bid phas... 阅读全文
posted @ 2012-09-22 14:39
lexus
阅读(1314)
评论(0)
推荐(0)
摘要:
resemblance with the jaccard coefficient<< back to other nerdy projectspart 1: resemblance with the jaccard coefficientpart 2: fastmap projection using jaccard distancespart 3: the simhash algorithmpa... 阅读全文
posted @ 2012-09-22 14:33
lexus
阅读(376)
评论(0)
推荐(0)
摘要:
2012 Beijing Google Dev FastDay(11/03/2012) - 移动新观察亲爱的北京谷歌技术用户组GDG成员们及Google技术爱好者们,今年的Google FastDay又要和大家见面了,如果你关注移动开发、跨平台开发、Web 前端开发以及Google技术创业领域,那么本次活动对你会很有帮助,我们北京GDG也希望借此机会和各位开发者、开发商们一起展望最新的Google... 阅读全文
posted @ 2012-09-22 14:26
lexus
阅读(344)
评论(0)
推荐(0)
摘要:
海量文档查同或聚类问题 -- Locality Sensitive Hash 算法 - fxjtoday的专栏 - 博客频道 - CSDN.NET海量文档查同或聚类问题 -- Locality Sensitive Hash 算法 分类: Web Data Mining Algorithm 2011-02-22 15:56 737人阅读 评论(0) 收藏 举报 Normal 0 ... 阅读全文
posted @ 2012-09-22 14:21
lexus
阅读(386)
评论(0)
推荐(0)
摘要:
Min-Hash和推荐系统 | IT瘾Min-Hash和推荐系统标签: 未分类 | 发表时间:2012-06-22 12:56 | 作者:xlvector分享到:出处:http://xlvector.net/blog前几年看Google News Recommendation的那篇Paper,对里面提到的MinHash的算法基本没有注意,因为之前的习惯都是只注意论文的模型那块,至于怎么优化模型... 阅读全文
posted @ 2012-09-22 14:11
lexus
阅读(585)
评论(0)
推荐(0)
摘要:
张栋_机器学习的照片 - 微相册微相册小图中图大图特大图上传照片 相册首页 阅读全文
posted @ 2012-09-22 14:10
lexus
阅读(279)
评论(0)
推荐(0)
摘要:
基于Simhash的应用模板识别Perl_信息安全自留地_百度空间|文章出处:http://hi.baidu.com/_wang8基于Simhash的应用模板识别Perl demo对于同一应用模板生成不同的url,url可能的pathdir、filename、arguments的一项或者几项可能不同。同时web页面的展示一眼看过去也差别较大。在url聚类的需求场合,需要能自动识别web/url的相... 阅读全文
posted @ 2012-09-22 13:43
lexus
阅读(276)
评论(0)
推荐(0)
摘要:
cascading-simhash a library to cluster by minhashes in Hadoop« Why is XOR the default way to combine hasheshector.rb: the pleasant JRuby Cassandra client (wraps Hector) »cascading-simhash a library to... 阅读全文
posted @ 2012-09-22 13:34
lexus
阅读(351)
评论(0)
推荐(0)
摘要:
Leoncom » simhashsimhash与Google的网页去重leoncom 搜索技术 4 comments前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后... 阅读全文
posted @ 2012-09-22 13:03
lexus
阅读(355)
评论(0)
推荐(0)
摘要:
Download RubyAs of this writing, as long as you have git installed, you can install RVM with:$ curl -L get.rvm.io | bash -s stable 阅读全文
posted @ 2012-09-22 12:56
lexus
阅读(204)
评论(0)
推荐(0)
摘要:
ubuntu - Installed Ruby 1.9.3 with RVM but command line doesn't show ruby -v - Stack Overflowou have broken version of RVM - Ubuntu does something to RVM that produces lots of errors, the only safe wa... 阅读全文
posted @ 2012-09-22 12:50
lexus
阅读(166)
评论(0)
推荐(0)
摘要:
计算机科学中最重要的32个算法zzhttp://www.infoq.com/cn/news/2012/08/32-most-important-algorithms 奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是... 阅读全文
posted @ 2012-09-22 12:03
lexus
阅读(338)
评论(0)
推荐(0)
摘要:
《周末休闲吧》:教你如何玩车震——车震全程攻略!_周末休闲吧_百度空间《周末休闲吧》:教你如何玩车震——车震全程攻略! 阅读全文
posted @ 2012-09-22 11:56
lexus
阅读(1573)
评论(0)
推荐(0)
摘要:
SQOOP的安装配置_Linux伊甸园开源社区-24小时滚动更新开源资讯,全年无休!SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoo... 阅读全文
posted @ 2012-09-22 11:51
lexus
阅读(454)
评论(0)
推荐(0)
摘要:
Hive官方手册翻译(Getting Started) - 实践检验真理 - 51CTO技术博客Hive官方手册翻译(Getting Started)2012-07-23 16:18:12标签:手册 hadoop hive版权声明:原创作品,如需转载,请与作者联系。否则将追究法律责任。翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的。如有疑问,请... 阅读全文
posted @ 2012-09-22 10:46
lexus
阅读(400)
评论(0)
推荐(0)
摘要:
百度技术沙龙宗旨“畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目的是让中高端技术人员有一个相对自由的思想交流和交友沟通的平台。主要分讲师分享和OpenSpace两个关键环节,每期只关注一个焦点话题。讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华和展开,提供一... 阅读全文
posted @ 2012-09-22 10:34
lexus
阅读(341)
评论(0)
推荐(0)
|