2016年2月4日

网站常见的反爬虫和应对方法

摘要: 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网 阅读全文

posted @ 2016-02-04 17:45 周 金根 阅读(1867) 评论(2) 推荐(1) 编辑

网站反爬虫

摘要: 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一些智能的搜索引擎爬虫的爬 阅读全文

posted @ 2016-02-04 17:32 周 金根 阅读(1531) 评论(0) 推荐(1) 编辑

webmagic的设计机制及原理-如何开发一个Java爬虫

摘要: 之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫。最近终于集中精力,花了三天时间,终于写完了这篇文章。之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方面倒是有一些心得,希望对读者有帮助。 webmagic的目标 一般来说,一个爬虫包括几个部分: 页面 阅读全文

posted @ 2016-02-04 14:30 周 金根 阅读(5323) 评论(0) 推荐(0) 编辑

腾讯社区搜索架构演进

摘要: 社区搜索伴随着社交网络的兴起而逐渐风声水起,社交搜索相比传统搜索更能够有效满足个人对个性化搜索的需求。如何在海量社区数据中满足个人信息的实时检索?如何保证个人关系链数据召回?如何解决多维度的安全策略?…… 本次演讲以Qzone社区搜索为例,为您讲解腾讯Qzone社区搜索的演变过程如何解决上述关键问题 阅读全文

posted @ 2016-02-04 12:40 周 金根 阅读(1031) 评论(0) 推荐(0) 编辑

搜索引擎评估与互联网用户行为建设

摘要: 对挑战,百度采取了两条腿走路的策略。一方面,我们设计开发了一套HC系统,将复杂的评估任务拆解,分发给大量非专业人员评价。另一方面,基于宝贵的用户日志,我们设计了一套实验框架,在不影响百度在线服务的条件下开展超大规模的对比实验,获取网民的真实反馈,评判新算法的优劣。评估算法最终是评估用户体验。在实践中 阅读全文

posted @ 2016-02-04 12:39 周 金根 阅读(1021) 评论(0) 推荐(0) 编辑

深层网络搜索核心技术研讨

摘要: 自google在90年代末推出搜索引擎引来,搜索引擎的技术有了长足的进步,尤其在搜索结果的及时性、精准性等方面有了很大突破。但是这十多年来,搜索引擎一直在搜索表层网络,面对于数据量百倍于表层网络的深层网络(暗网),搜索引擎一直没有好的解决方案,无论是国外的深层网络表层化处理方式,还是国内以人工运营为 阅读全文

posted @ 2016-02-04 12:35 周 金根 阅读(1182) 评论(0) 推荐(0) 编辑

Solr与Cassandra二级缓存实践

摘要: 额达到数十亿美元。在Newegg,每天有数以千万计的用户浏览商品,并产生下单交易等后续操作。我们构建的数据系统,必须应对日益增大的数据量,具备健壮性、可靠性。目前,我们采用Cassandra来构建Newegg的下一代在线系统。 Cassandra是无单点失败的分布式存储系统,具有很好的并发写入性能和 阅读全文

posted @ 2016-02-04 12:33 周 金根 阅读(1277) 评论(0) 推荐(0) 编辑

标注适应:以中文分词和依存分析为例

摘要: 能受限于人工标注语料的质量和规模。人工语料构造代价高昂,然而对于许多语言处理任务,却同时存在多个不同标注标准的语料库。多种标注标准的语料代表着不同语言学观点的比较和碰撞,同时也意味着语言学知识的浪费。本报告阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。在中文分词和依 阅读全文

posted @ 2016-02-04 12:32 周 金根 阅读(671) 评论(0) 推荐(0) 编辑

基于Hadoop生态技术构建阿里搜索离线系统

摘要: 一、计算平台架构 平台架构 集群规模 集群特点 二、支撑的搜索业务 搜索业务 处理流程 三、YARN计算平台 iStream计算模型 Schedule改进 AppHistoryServer改进 HStats资源用量统计 四、未来发展 原文地址:http://www.infoq.com/cn/pres 阅读全文

posted @ 2016-02-04 12:31 周 金根 阅读(999) 评论(0) 推荐(0) 编辑

搜索引擎的时效性需求满足

摘要: “全、准、快、新”是搜索引擎的四大评价指标,其中的“新”指代的就是时效性。随着互联网的发展,网民对信息获取的时效性要求越来越高。同时越来越多的网民更多的参与到创造互联网内容中去,互联网上的新信息也在迅速的膨胀。这都给搜索引擎时效性需求的满足带来了前所未有的冲击。 原文地址:http://www.in 阅读全文

posted @ 2016-02-04 12:30 周 金根 阅读(1698) 评论(0) 推荐(1) 编辑

旅游行业垂直搜索的架构探索

摘要: 携程拥有业界最全的旅游产品线,随着业务的高速发展,新产品不断的引入(客栈、邮轮、火车票、顶级游..),产品形态不断的创新(目的地参团、MICE、自由行套餐…. ), 如何帮用户快速找到产品给搜索引擎带来了新的挑战。我们在lucene API的基础上,做了大量的二次开发,使用大规模的数据挖掘做用户意图 阅读全文

posted @ 2016-02-04 12:30 周 金根 阅读(1759) 评论(0) 推荐(0) 编辑

搜狗搜索广告检索系统-弹性架构演进之路

摘要: 搜索广告是搜狗的主要收入来源,每秒钟都承担了海量的广告变现请求,但随着搜狗的业务持续快速发展,我们常常面对,1)业务逻辑越来越复杂,2)流量持续增大,3)广告数据指数增长,带来的线上不稳定、服务架构急需调整等问题,因此我们需要寻找到这样一种解决方案,稳定快速的支持业务发展?本演讲将和大家分享搜狗广告 阅读全文

posted @ 2016-02-04 12:26 周 金根 阅读(1521) 评论(0) 推荐(0) 编辑

去哪儿搜索引擎QSearch设计与实现

摘要: 本次演讲主要介绍的是QSearch的具体设计和应用场景,并分别解答以下几个问题:QSearch与开源垂直软件Lucene的区别;具体业务的实现技巧。以及QSearch的具体设计:如何通过Partial Update来实现文档动态信息的快速更新;如何使用列存储来加快引擎的Group速度;如何通过多阶段 阅读全文

posted @ 2016-02-04 12:22 周 金根 阅读(1245) 评论(0) 推荐(0) 编辑

大型搜索引擎的系统测试方法及案例分享

摘要: 系统中存在隐患的爆发可能性是会随着产品数量和数据规模成指数级提升,而某些隐患又会对服务造成很恶劣的影响,但由于很多隐患凭借常规测试手段很难被发现,因此如何更有效的发现和系统性地排查这些隐患成为测试中的难点。本次演讲将围绕百度搜索引擎测试时遇到的系统层面问题、系统解决手段和效果,与大家分享我们在工作中 阅读全文

posted @ 2016-02-04 12:22 周 金根 阅读(1224) 评论(0) 推荐(0) 编辑

购物搜索引擎架构的变与不变

摘要: 购物搜索具有更丰富的数据信息、更多样的排序规则和更专业的搜索需求。快速多变的聚合、排序、多样性需求,使引擎架构变更频繁,更趋定制化。专业的搜索领域,使购物搜索需要部署更多集群,加大了引擎的管理和运维难度。如何在快速需求变更中保持引擎架构的独立和稳定,如何有效运维大量引擎集群,一淘网在搜索架构上又经历 阅读全文

posted @ 2016-02-04 12:20 周 金根 阅读(863) 评论(0) 推荐(0) 编辑

这就是搜索引擎:核心技术详解

摘要: 下载地址:http://pan.baidu.com/s/1bwTniQ 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展,搜索引擎已经成为互联网的重 阅读全文

posted @ 2016-02-04 12:17 周 金根 阅读(781) 评论(2) 推荐(0) 编辑

京东基于大数据技术的个性化电商搜索引擎

摘要: 介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索。京东个性化场景包括基于行为、偏好、地域、时间、好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好、实时偏好以及偏好在不同的平台(web、移动、微信/手Q)起到的作用。在实现个性化搜索当中会分享京东搜索 阅读全文

posted @ 2016-02-04 12:08 周 金根 阅读(2079) 评论(0) 推荐(0) 编辑

O2O的实时搜索引擎

摘要: O2O行业通常都会基于地理位置派发用户订单给距离最近的服务提供者,因此必须解决位置高效索引和快速检索的问题。位置索引的最大挑战是位置可能持续变化,因此索引的更新量会非常庞大,传统搜索引擎难以应对。 我们为了解决高效派单问题,实现了基于位置索引的高效分布式实时搜索引擎。 我们颠覆了传统搜索引擎的做法, 阅读全文

posted @ 2016-02-04 12:07 周 金根 阅读(1248) 评论(0) 推荐(0) 编辑

天猫11.11:搜索引擎实时秒级更新

摘要: 搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量、库存、人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要。在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要。在今年的“双十一”活动中,InfoQ有幸采访到了阿 阅读全文

posted @ 2016-02-04 12:02 周 金根 阅读(1409) 评论(0) 推荐(0) 编辑

推荐系统和搜索引擎的关系

摘要: 从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系?区别和相似的地方有哪些?本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之 阅读全文

posted @ 2016-02-04 10:54 周 金根 阅读(467) 评论(0) 推荐(0) 编辑

导航