摘要: 在任意给定时刻,一个节点总是连接到多个其他节点。默认情况下,一个节点连接到8个其他节点(链出),并允许多达125个链入节点连接进来。 阅读全文
posted @ 2018-05-28 09:02 lotushy 阅读(1251) 评论(0) 推荐(0) 编辑
摘要: 原文参见:http://www.lotushy.com/?p=113 [TOC] 什么是P2P P2P全称是Peer to peer。P2P计算或P2P网络是一种分布式应用架构。它将任务或负载分发给Peers。在应用中,Peers是平等的、对等的参与者。 从资源角度来讲,Peers将它们拥有的资源如 阅读全文
posted @ 2018-05-24 22:51 lotushy 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 机器学习是交叉学科,跨计算机科学和统计学领域。与之类似的研究领域,人或动物的神经科学领域。 数据挖掘、人工智能和机器学习三个学科是交叉的,有重叠的。 阅读全文
posted @ 2018-02-07 12:34 lotushy 阅读(448) 评论(0) 推荐(0) 编辑
摘要: Solr 4及之前的版本默认采用VSM(向量空间模型)进行相似度的计算(或打分)。之后的版本,则采用Okapi BM25(一种二元独立模型的扩展),属于概率模型。 阅读全文
posted @ 2018-02-02 17:22 lotushy 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 编译 注意 solr tokenizer版本 https://github.com/sing1ee/analyzer solr ( solr 5 ) https://github.com/s 阅读全文
posted @ 2018-02-02 12:40 lotushy 阅读(2190) 评论(3) 推荐(0) 编辑
摘要: @原文地址请关注私人博客: http://www.lotushy.com/?p=100 先谈方法 切书 打印机托盘入纸自动扫描成pdf 导出图片 ocr识别文字 校对 再谈下成本 打印社扫描的成本是一面5毛 我扫的书比较多,不舍得花钱,让小助手用公司打印机扫描的 人力成本一天大概2小时(不经常卡纸的 阅读全文
posted @ 2018-01-24 15:20 lotushy 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 计算方法: n的阶乘记为f(n), s为输入序列, sub(i)为s的i到n的子序列。A(i)为第i位对应的字母在子序列sub(i)中的字典顺序 N(s) = sum_{1,n} T(i) (A(i) 1) + 1 T(i)为i 1的阶乘。 阅读全文
posted @ 2015-10-09 14:00 lotushy 阅读(835) 评论(0) 推荐(0) 编辑
摘要: ```lua --[[ 组合概率 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Problem Description: 某生产零件的工厂为方便管理场内生产的零件种类,现将他们生产的零件从低等到高等零件排序,序号分别为1,2..n,已知该厂的任意几个低等的零件可以组合成更高等的零件,... 阅读全文
posted @ 2015-10-09 13:55 lotushy 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: TOC 数据集 上下文 上下文指用户当前访问所处的环境,如时间,地点,网络类型,机器型号等信息。 隐式反馈数据集 通常是指服务器日志,可能含有上下文,如浏览历史。 显式反馈数据集 通常是指用户调查,反馈模块等的数据,如电影的评分,是否喜欢。 协同过滤 根据用户已有的行为或意见预测当... 阅读全文
posted @ 2015-10-09 13:52 lotushy 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 服务端关注的是高并发,高可靠,易运维,一致性。通俗来讲就是少花钱,多办事,少犯错,易养活。从工业生产角度来看,流水线是比较符合要求的。流水线将复杂的生产流程拆成简单的子流程,将这些子流程串行化,虽没有改变单个产品的生产时间,但提高了并发度。在流水线饱和态下,子流程实际是并行化的,所以并发度提高,进而,大大提升生产效率。同时,由于工人的劳动简化并重复化,工人的效率也得到大副提升。另外,对于维护而言,... 阅读全文
posted @ 2014-10-17 23:24 lotushy 阅读(273) 评论(0) 推荐(0) 编辑