上一页 1 2 3 4 5 6 ··· 23 下一页

2016年2月4日

网站常见的反爬虫和应对方法

摘要: 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网 阅读全文

posted @ 2016-02-04 17:45 周 金根 阅读(1867) 评论(2) 推荐(1) 编辑

网站反爬虫

摘要: 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一些智能的搜索引擎爬虫的爬 阅读全文

posted @ 2016-02-04 17:32 周 金根 阅读(1531) 评论(0) 推荐(1) 编辑

webmagic的设计机制及原理-如何开发一个Java爬虫

摘要: 之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫。最近终于集中精力,花了三天时间,终于写完了这篇文章。之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方面倒是有一些心得,希望对读者有帮助。 webmagic的目标 一般来说,一个爬虫包括几个部分: 页面 阅读全文

posted @ 2016-02-04 14:30 周 金根 阅读(5323) 评论(0) 推荐(0) 编辑

腾讯社区搜索架构演进

摘要: 社区搜索伴随着社交网络的兴起而逐渐风声水起,社交搜索相比传统搜索更能够有效满足个人对个性化搜索的需求。如何在海量社区数据中满足个人信息的实时检索?如何保证个人关系链数据召回?如何解决多维度的安全策略?…… 本次演讲以Qzone社区搜索为例,为您讲解腾讯Qzone社区搜索的演变过程如何解决上述关键问题 阅读全文

posted @ 2016-02-04 12:40 周 金根 阅读(1031) 评论(0) 推荐(0) 编辑

搜索引擎评估与互联网用户行为建设

摘要: 对挑战,百度采取了两条腿走路的策略。一方面,我们设计开发了一套HC系统,将复杂的评估任务拆解,分发给大量非专业人员评价。另一方面,基于宝贵的用户日志,我们设计了一套实验框架,在不影响百度在线服务的条件下开展超大规模的对比实验,获取网民的真实反馈,评判新算法的优劣。评估算法最终是评估用户体验。在实践中 阅读全文

posted @ 2016-02-04 12:39 周 金根 阅读(1021) 评论(0) 推荐(0) 编辑

深层网络搜索核心技术研讨

摘要: 自google在90年代末推出搜索引擎引来,搜索引擎的技术有了长足的进步,尤其在搜索结果的及时性、精准性等方面有了很大突破。但是这十多年来,搜索引擎一直在搜索表层网络,面对于数据量百倍于表层网络的深层网络(暗网),搜索引擎一直没有好的解决方案,无论是国外的深层网络表层化处理方式,还是国内以人工运营为 阅读全文

posted @ 2016-02-04 12:35 周 金根 阅读(1182) 评论(0) 推荐(0) 编辑

Solr与Cassandra二级缓存实践

摘要: 额达到数十亿美元。在Newegg,每天有数以千万计的用户浏览商品,并产生下单交易等后续操作。我们构建的数据系统,必须应对日益增大的数据量,具备健壮性、可靠性。目前,我们采用Cassandra来构建Newegg的下一代在线系统。 Cassandra是无单点失败的分布式存储系统,具有很好的并发写入性能和 阅读全文

posted @ 2016-02-04 12:33 周 金根 阅读(1277) 评论(0) 推荐(0) 编辑

标注适应:以中文分词和依存分析为例

摘要: 能受限于人工标注语料的质量和规模。人工语料构造代价高昂,然而对于许多语言处理任务,却同时存在多个不同标注标准的语料库。多种标注标准的语料代表着不同语言学观点的比较和碰撞,同时也意味着语言学知识的浪费。本报告阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。在中文分词和依 阅读全文

posted @ 2016-02-04 12:32 周 金根 阅读(671) 评论(0) 推荐(0) 编辑

基于Hadoop生态技术构建阿里搜索离线系统

摘要: 一、计算平台架构 平台架构 集群规模 集群特点 二、支撑的搜索业务 搜索业务 处理流程 三、YARN计算平台 iStream计算模型 Schedule改进 AppHistoryServer改进 HStats资源用量统计 四、未来发展 原文地址:http://www.infoq.com/cn/pres 阅读全文

posted @ 2016-02-04 12:31 周 金根 阅读(999) 评论(0) 推荐(0) 编辑

搜索引擎的时效性需求满足

摘要: “全、准、快、新”是搜索引擎的四大评价指标,其中的“新”指代的就是时效性。随着互联网的发展,网民对信息获取的时效性要求越来越高。同时越来越多的网民更多的参与到创造互联网内容中去,互联网上的新信息也在迅速的膨胀。这都给搜索引擎时效性需求的满足带来了前所未有的冲击。 原文地址:http://www.in 阅读全文

posted @ 2016-02-04 12:30 周 金根 阅读(1698) 评论(0) 推荐(1) 编辑

旅游行业垂直搜索的架构探索

摘要: 携程拥有业界最全的旅游产品线,随着业务的高速发展,新产品不断的引入(客栈、邮轮、火车票、顶级游..),产品形态不断的创新(目的地参团、MICE、自由行套餐…. ), 如何帮用户快速找到产品给搜索引擎带来了新的挑战。我们在lucene API的基础上,做了大量的二次开发,使用大规模的数据挖掘做用户意图 阅读全文

posted @ 2016-02-04 12:30 周 金根 阅读(1759) 评论(0) 推荐(0) 编辑

搜狗搜索广告检索系统-弹性架构演进之路

摘要: 搜索广告是搜狗的主要收入来源,每秒钟都承担了海量的广告变现请求,但随着搜狗的业务持续快速发展,我们常常面对,1)业务逻辑越来越复杂,2)流量持续增大,3)广告数据指数增长,带来的线上不稳定、服务架构急需调整等问题,因此我们需要寻找到这样一种解决方案,稳定快速的支持业务发展?本演讲将和大家分享搜狗广告 阅读全文

posted @ 2016-02-04 12:26 周 金根 阅读(1521) 评论(0) 推荐(0) 编辑

去哪儿搜索引擎QSearch设计与实现

摘要: 本次演讲主要介绍的是QSearch的具体设计和应用场景,并分别解答以下几个问题:QSearch与开源垂直软件Lucene的区别;具体业务的实现技巧。以及QSearch的具体设计:如何通过Partial Update来实现文档动态信息的快速更新;如何使用列存储来加快引擎的Group速度;如何通过多阶段 阅读全文

posted @ 2016-02-04 12:22 周 金根 阅读(1245) 评论(0) 推荐(0) 编辑

大型搜索引擎的系统测试方法及案例分享

摘要: 系统中存在隐患的爆发可能性是会随着产品数量和数据规模成指数级提升,而某些隐患又会对服务造成很恶劣的影响,但由于很多隐患凭借常规测试手段很难被发现,因此如何更有效的发现和系统性地排查这些隐患成为测试中的难点。本次演讲将围绕百度搜索引擎测试时遇到的系统层面问题、系统解决手段和效果,与大家分享我们在工作中 阅读全文

posted @ 2016-02-04 12:22 周 金根 阅读(1224) 评论(0) 推荐(0) 编辑

购物搜索引擎架构的变与不变

摘要: 购物搜索具有更丰富的数据信息、更多样的排序规则和更专业的搜索需求。快速多变的聚合、排序、多样性需求,使引擎架构变更频繁,更趋定制化。专业的搜索领域,使购物搜索需要部署更多集群,加大了引擎的管理和运维难度。如何在快速需求变更中保持引擎架构的独立和稳定,如何有效运维大量引擎集群,一淘网在搜索架构上又经历 阅读全文

posted @ 2016-02-04 12:20 周 金根 阅读(863) 评论(0) 推荐(0) 编辑

这就是搜索引擎:核心技术详解

摘要: 下载地址:http://pan.baidu.com/s/1bwTniQ 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展,搜索引擎已经成为互联网的重 阅读全文

posted @ 2016-02-04 12:17 周 金根 阅读(781) 评论(2) 推荐(0) 编辑

京东基于大数据技术的个性化电商搜索引擎

摘要: 介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索。京东个性化场景包括基于行为、偏好、地域、时间、好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好、实时偏好以及偏好在不同的平台(web、移动、微信/手Q)起到的作用。在实现个性化搜索当中会分享京东搜索 阅读全文

posted @ 2016-02-04 12:08 周 金根 阅读(2079) 评论(0) 推荐(0) 编辑

O2O的实时搜索引擎

摘要: O2O行业通常都会基于地理位置派发用户订单给距离最近的服务提供者,因此必须解决位置高效索引和快速检索的问题。位置索引的最大挑战是位置可能持续变化,因此索引的更新量会非常庞大,传统搜索引擎难以应对。 我们为了解决高效派单问题,实现了基于位置索引的高效分布式实时搜索引擎。 我们颠覆了传统搜索引擎的做法, 阅读全文

posted @ 2016-02-04 12:07 周 金根 阅读(1248) 评论(0) 推荐(0) 编辑

天猫11.11:搜索引擎实时秒级更新

摘要: 搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量、库存、人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要。在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要。在今年的“双十一”活动中,InfoQ有幸采访到了阿 阅读全文

posted @ 2016-02-04 12:02 周 金根 阅读(1409) 评论(0) 推荐(0) 编辑

推荐系统和搜索引擎的关系

摘要: 从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系?区别和相似的地方有哪些?本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之 阅读全文

posted @ 2016-02-04 10:54 周 金根 阅读(467) 评论(0) 推荐(0) 编辑

1号店的分布式搜索引擎的架构实践

摘要: “11.11”是一年一度的电商盛宴,为了准备这个一年内最大规模的促销,1号店各条战线都在紧张有序地忙碌着。1号店搜索团队经过几年的大促历练,不断推动架构演进,积累了越来越多的经验。 11.11的主要特点是流量大和突发性高,这就带来了两个核心的需求: 可扩展 如何抗住这样的流量,针对这个需求,1号店搜 阅读全文

posted @ 2016-02-04 08:35 周 金根 阅读(2321) 评论(0) 推荐(0) 编辑

详谈京东的商品搜索系统架构设计

摘要: 京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。虽然只有短短几年的时间,我们的搜索引擎已经经过了多次618店庆和双11的考验,目前已经能够与人们日常使用的如谷歌、百度等全文搜索引擎相比,我们的产品与其有相通之处,比如涵盖亿级别商品的海量数据、支持 阅读全文

posted @ 2016-02-04 08:28 周 金根 阅读(1734) 评论(0) 推荐(0) 编辑

2016年2月2日

Office PPT保持提示无法保存Gill Sans 等非TrueType字体

摘要: 升级office到最新版了 我有一天在做PPT,保存文件后提示保存:无法保存Gill Sans 等非TrueType字体 我知道PPT可以替换字体。于是使用替换字体功能,但是提示非TrueType不能替换。怎么办?? 找了很多办法无效,一直好多天都是每次保存提示这个对话框。 不过终于还是解决了。下面 阅读全文

posted @ 2016-02-02 12:25 周 金根 阅读(41013) 评论(0) 推荐(0) 编辑

2016年1月9日

材价看板(2)- 运行两周的kanban,改进的起点

摘要: 改进从何谈起?必须找到起点,那起点从哪来?看板不需要像Scrum那样改变以往工作角色,简单通过任务上墙,配合敏捷的设计就能通过显示化日常工作来让问题自己蹦出来。在任何一个新采用看板的研发团队,执行一两周后一定会暴露出很多在开发过程中的问题,这些问题就是团队成长的空间,可以把这些问题作为团队持续改进的... 阅读全文

posted @ 2016-01-09 17:50 周 金根 阅读(622) 评论(0) 推荐(0) 编辑

2016年1月4日

材价看板(1)- 如何建立你的第一个kanban,看看这些暴露的问题你们有没有?

摘要: 今年负责一个老产品新团队,和几年前的指标组一样,现在的团队没有采用什么研发方法,于是我开始了团队的看板之旅。12月22日给材价整个部门的产品研发相关人员做了一次kanban工作坊培训,以及敏捷导入前的动员第二天晚上,23日,我基于目前团队现状设计了一张看板卡片,样子如下图所示:不熟悉的人看了这卡片估... 阅读全文

posted @ 2016-01-04 13:03 周 金根 阅读(1179) 评论(2) 推荐(1) 编辑

2015年12月18日

Solr:文本分析

摘要: 文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词、大写转小写、词干化、同义词转化等。简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引结构中被将来搜索用。当然,文本分析不仅在建立索引时有用,在查询时对对所输入的查询串也一样可以进行文本... 阅读全文

posted @ 2015-12-18 15:52 周 金根 阅读(8992) 评论(1) 推荐(4) 编辑

2015年12月17日

Solr:Schema设计

摘要: 本文已挪至 http://www.zhoujingen.cn/blog/8546.htmlSolr将数据以结构化的方式存入系统中,存储的过程中可以对数据建立索引,这个结构的定义就是通过schema.xml来配置的。 = 1.4 1.5: omitNorms defaults to tr... 阅读全文

posted @ 2015-12-17 14:20 周 金根 阅读(5030) 评论(0) 推荐(2) 编辑

2015年12月15日

solr:快速开始

摘要: 本文已挪至 http://www.zhoujingen.cn/blog/8535.html明年工作主要和搜索有关,在自己学习过程中分享让更多人受益是我一贯的做法,所以我会把对Solr的学习在这里与大家分享一下,如果你也对搜索也感兴趣,也是新手,那么就和我从头开始吧。今天我们要讲的是快速开始Solr,... 阅读全文

posted @ 2015-12-15 11:50 周 金根 阅读(1320) 评论(0) 推荐(1) 编辑

2015年11月30日

Javascript模块化编程

摘要: 随着网站逐渐变成"互联网应用程序",嵌入网页的Javascript代码越来越庞大,越来越复杂。网页越来越像桌面程序,需要一个团队分工协作、进度管理、单元测试等等......开发者不得不使用软件工程的方法,管理网页的业务逻辑。Javascript模块化编程,已经成为一个迫切的需求。理想情况下,开发者只... 阅读全文

posted @ 2015-11-30 16:18 周 金根 阅读(1341) 评论(0) 推荐(0) 编辑

2015年11月9日

在Mac下配置php开发环境:Apache+php+MySql

摘要: /private/etc/apache2/httpd.conf一、启动Apachesudo apachectl startsudo apachectl -v 可以查看到Apache的版本信息此时在浏览器中输入http://localhost,会出现It works!的页面sudo apachectl... 阅读全文

posted @ 2015-11-09 17:21 周 金根 阅读(3313) 评论(0) 推荐(0) 编辑

2015年10月24日

angularjs学习总结 详细教程(转载)

摘要: 1 前言前端技术的发展是如此之快,各种优秀技术、优秀框架的出现简直让人目不暇接,紧跟时代潮流,学习掌握新知识自然是不敢怠慢。AngularJS是google在维护,其在国外已经十分火热,可是国内的使用情况却有不小的差距,参考文献/网络文章也很匮乏。这里便将我学习AngularJS写成文档,一方面作为... 阅读全文

posted @ 2015-10-24 23:44 周 金根 阅读(3616) 评论(0) 推荐(0) 编辑

170多个Ionic Framework学习资源(转载)

摘要: 在Ionic官网找到的学习资源:http://blog.ionic.io/learning-ionic-in-your-living-room/网上的文章比较多,但是很多时候我们很难找到自己需要的。下面这些资源覆盖面很广,看一下有没有你需要的:PS:嫌麻烦的可以直接在这里找:http://thomp... 阅读全文

posted @ 2015-10-24 20:44 周 金根 阅读(2195) 评论(0) 推荐(0) 编辑

2015年10月23日

快乐、平衡、高效,敏捷个人2015版卡片

摘要: 如果你希望我亲自送给你,我将会把这套卡片作为在今年的中国软件技术大会、中国软件工程大会、敏捷之旅北京站或其他站的主题演讲的问答礼物。如需购买,请点击淘宝店,如果你是敏捷个人会员,可以加我微信 zhoujingen1,只需支付运费即可免费获得此套新卡片。 阅读全文

posted @ 2015-10-23 20:55 周 金根 阅读(952) 评论(0) 推荐(0) 编辑

2015年10月14日

敏捷个人-认识自我,管理自我 v0.8.pdf 下载

摘要: 2009年我在blog上写了个人管理系列的一些blog,其中一些文章深受大家的喜欢。想到写这个系列是源于在实施敏捷Scrum方法时,对方法实施是否对人的水平需要高要求的一些思考。自组织团队是建立在敏捷个人之上的,没有个人就没有团队,实施Scrum对人要求不高,但想实施得好,那么对人的要求肯定不低。对... 阅读全文

posted @ 2015-10-14 16:15 周 金根 阅读(1718) 评论(0) 推荐(0) 编辑

2015年10月13日

敏捷开发本质 与 敏捷个人本质

摘要: 阅读全文

posted @ 2015-10-13 08:32 周 金根 阅读(1902) 评论(0) 推荐(0) 编辑

2015年9月17日

Cordova 讲义 1 – 周金根

摘要: 讲义下载地址见: http://www.zhoujingen.cn/blog/7905.html 最后下载链接移动应用形成了iOS、Android和windows phone三大阵营:Android应用基于Java语言进行开发iOS基于Object-C语言开发微软的Windows Phone基于C#... 阅读全文

posted @ 2015-09-17 16:11 周 金根 阅读(3712) 评论(7) 推荐(2) 编辑

2015年8月28日

Cordova webapp实战开发:(7)如何通过简单的方法做到,不重新发布APP来修复bug、增加功能、或者躲开苹果的一些严格审核?

摘要: 到《Cordova webapp实战开发:(6)如何写一个iOS下获取APP版本号的插件?》为止,我们已经大体学会了如何使用Cordova了,那些都是使用Cordova的开发者必备的技能。今天我们要说一下开发者应该具备的一些额外经验,这些经验简单有效,如果希望要更系统更好的方法,那就持续关注本系列文... 阅读全文

posted @ 2015-08-28 16:24 周 金根 阅读(4877) 评论(2) 推荐(11) 编辑

2015年8月17日

敏捷个人2015年8月线下活动:认识自我系列第二期活动报道

摘要: 8月第一周临时决定在当周8月8日进行了敏捷个人线下活动。活动结束后,老朋友廉雨给我们做了8月份线下活动内容的报道,感谢大家一如既往的支持和肯定,以下为具体内容。活动开始前按照惯例每人抽一张卡片,在自我介绍完之后,谈谈对自己手里卡片的理解。所有人都介绍完后,开始正式进入今天的主题分享。认识自我练习(2... 阅读全文

posted @ 2015-08-17 07:09 周 金根 阅读(2910) 评论(0) 推荐(2) 编辑

2015年8月5日

Cordova webapp实战开发:(6)如何写一个iOS下获取APP版本号的插件?

摘要: 上一篇我们学习了如何写一个Andorid下自动更新的插件,我想还有一部分看本系列blog的开发人员希望学习在iOS下如何做插件的吧,那么今天你就可以来看看这篇文字了。本次练习你能学到的学习如何获取iOS当前版本号学习iOS下插件类的编写学习iOS下插件的配置学习iOS下插件的调用主要内容APP中【检... 阅读全文

posted @ 2015-08-05 14:10 周 金根 阅读(12058) 评论(6) 推荐(25) 编辑

2015年7月8日

Cordova webapp实战开发:(5)如何写一个Andorid下自动更新的插件?

摘要: 在 《Cordova webapp实战开发:(4)Android环境搭建》中我们搭建好了开发环境,也给大家布置了调用插件的预习作业,做得如何了呢?今天我们来学一下如何自己从头建立一个Andorid下的cordova插件。本次练习你能学到的学习如何实现Android下自动更新功能学习Android下插... 阅读全文

posted @ 2015-07-08 10:54 周 金根 阅读(23882) 评论(9) 推荐(25) 编辑

上一页 1 2 3 4 5 6 ··· 23 下一页

导航