05 2013 档案
摘要:搜狗搜索是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名www.sogou.com。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。 搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、视频、新闻、地图领域提供垂直搜索服务;桌面应用旨在提升用户的使用体验:拼音输入法帮助用户更快速地输入,搜狗双核浏览器大幅提高用户的上网速度,是目前互联网上最快速最流畅的新型浏览器,拥有国内首款“真双核”引擎,独家采用“云恶意网址库”和“实时查杀”双重网页安全技术,有效防止病毒木马通过浏览器入...
阅读全文
摘要:中搜是国内领先的第三代搜索引擎服务及技术应用提供商。依托第三代搜索引擎和个性化微件技术,实现了人类知识与搜索技术的融合,通过两大WEB站点、移动APP、云服务平台等载体为网民及企业提供全新的第三代搜索引擎体验。三大运营平台中搜以第三代搜索引擎技术为核心,依托其自主开发的云服务平台,为个人及企业客户提供通用搜索服务、行业搜索服务,他们分别是:(http://www.zhongsou.com)和行业中国(http://www.zhongsou.net)两大网站,中搜搜悦这一移动站点。中搜网(www.zhongsou.com),是中搜以第三代搜索引擎技术为核心自主开发的搜索服务平台,也是国内首家采用
阅读全文
摘要:HTTP请求的GET方法可以用来抓取网页。 HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则,计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1。HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接,这意味着当一个客户端向服务器端发出请求,然后Web服务器返回响应(response),连接就被关闭了,在服务器端不保留连接的有关信息,HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web.
阅读全文
摘要:1.抓取内容搜索引擎基本框架有了,但是收录些什么内容才有意义呢,新闻和博客是我最初的两个想法,抓取新闻可以做一个类似百度新闻(http://news.baidu.com/)的平台,最后发现难度略大,加以感觉意义不大,遂无功而返。基于我平时搜索技术问题时对CSDN博客的内容比较信任甚至偏爱,最终选择抓取博客园、CSDN、月光博客等技术博客文章。2.如何抓全网页抓全是考核爬虫系统最重要的指标之一,如果网页都没收录,谈何查询,下面以博客园、CSDN、月光博客为例一一讲解。2.1博客园http://www.cnblogs.com(1)确定抓取博客园/编程语/cpp文章。种子urlhttp://www.
阅读全文
摘要:360公司简介奇虎360科技有限公司(美国纽约证券交易所NYSE:QIHU,以下简称360)是中国领先的互联网和手机安全产品及服务供应商。据第三方统计,按照用户数量计算,360是中国前三大互联网公司之一。中国领先的互联网安全品牌360致力于通过提供高品质的免费安全服务,为中国互联网用户解决上网时遇到的各种安全问题。面对互联网时代木马、病毒、流氓软件、钓鱼欺诈网页等多元化的安全威胁,360以互联网的思路解决网络安全问题。360是免费安全的首倡者,认为互联网安全像搜索、电子邮箱、即时通讯一样,是互联网的基础服务,应该免费。为此,360安全卫士、360杀毒等系列安全产品免费提供给中国数亿互联网用户。
阅读全文
摘要:公司介绍百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于2000年1月1日在中关村创建了百度公司。从最初的不足10人发展至今,员工人数超过17000人。如今的百度,已成为中国最受欢迎、影响力最大的中文网站。百度拥有数千名研发工程师,这是中国乃至全球最为优秀的技术团队,这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有
阅读全文
摘要:1.连接查询 通过连接运算符可以实现多个表查询,连接是关系数据库模型的主要特点,也是它区别于其它类型数据库管理系统的一个标志。 在关系数据库管理系统中,表建立时各数据之间的关系不必确定,常把一个实体的所有信息存放在 一个表中,当检索数据时,通过连接操作查询出存放在多个表中的不同实体的信息。连接操作给用户带来很大的灵活性,他们可以在任何时候增加新的数据类型,为不同实体创建新的表,尔后通过连接进行查询。 连接可以在SELECT 语句的FROM子句或WHERE子句中建立,在FROM子句中指出连接时有助于将连接操作与WHERE子句中的搜索条件区分开来。所以,在Transact-SQL中推荐使用这...
阅读全文
摘要:在程序调试中打印错误至关重要,可以让程序员在第一时间找到错误的根本,及时修改bug,提高编程效率。1.c++ APImysql_errno(MYSQL* mysql)返回最近被调用的MySQL函数的出错编号。 mysql_error(MYSQL* mysql)返回最近被调用的MySQL函数的出错消息。2.php APImysql_error()
阅读全文
摘要:mysql日期和字符相互转换方法date_format(date,'%Y-%m-%d') -------------->oracle中的to_char();str_to_date(date,'%Y-%m-%d') -------------->oracle中的to_date();--主要用于对抓取网页排序,解决id小的重要,time新的重要,而time新的id小之间的矛盾,先按日期降序(抓取时间->日期),同一天内id升序。%Y:代表4位的年份%y:代表2为的年份%m:代表月, 格式为(01……12) %c:代表月, 格式为(1……12)%d:
阅读全文
摘要:需要包含以下基本功能:(1)网站下载流速控制(间隔抓取、频换代理抓取) 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。(2)网页抓全 (解析正确,抓取合理) 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。(3)网页抓新(统计更新周期实时抓取) 网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。(4)网页重复抓取的避免(bloom过滤器、set查重) 为了及时捕捉网页的更新,对同一个网...
阅读全文
摘要:有些WEB服务器对于同一IP在一段时间内的访问次数是有限制的,即禁止爬虫频数抓取以影响访问体验。方法1:网络HTTP代理列表建立一个有效的HTTP代理列表,每次以其中的一个IP来访问一个站点,这样能很好的避免被服务器认定为爬虫程序。1.定义HTTP代理结构。建立一个长度为M的HTTP代理结构数组。结构struct SHttpProxy{char * m_cIP;int m_nPort,int m_nFailedNUM;};m_cIP为代理主机或IP,m_nPort为代理端口号,m_nFailedNUM访问失败次数,定义一个阈值H,如果m_nFailedNUM>H则认定该代理被禁用。2.定
阅读全文
摘要:关键词:友情、奋斗、梦想。最喜欢的台词:梦想是什么,梦想就是一种让你感到坚持就是幸福的东西。最感动的剧情:新梦想教材被ETS美国普林斯出版社控告,成冬青要远赴美国调解时,他按下手机2号快捷键又马上挂掉,那一刻他最需要的人王阳和孟晓骏出现了。最佩服的场面:在ETS美国普林斯出版社调解会上,成冬青背出了所有关于知识产权的条文。友情:《中国合伙人》再一次将同学之间最真挚的感情演绎的淋漓尽致,同学永远是友情最永恒的话题;奋斗:只有奋斗能谱写青春最美的旋律,我想每个人心中都有奋斗的种子,只是有些人过早泯灭罢了,生命不息,奋斗不止。梦想:孟晓骏一直问成冬青的梦想是什么,我想成冬青去美国后有了答案,是啊,我
阅读全文
摘要:1.明确页面翻转功能。总页数:(命中页数/10)向上取整;布局:[前一页]1,2,…,N,[下一页];默认显示(当前页curpage+10)页。前一页:当当前页>1时要显示前一页;下一页:当当前页curpage<最后一页时显示下一页;每页显示内容:正常显示10条记录,最后一页可能不足10页,用SQL limit (curpage-1)*10,10控制。2.具体实现2.1标签选取form表单:用GET方法input 提交按钮:用于提交当前点击页input 文本域:两个隐藏,一个用于GET当前页,一个用于GET当前检索词。2.2控制翻转上一页:curpage-=1下一页:curpage
阅读全文
摘要:HTML 表单用于搜集不同类型的用户输入,是页面与WEB服务器交互过程中最重要的信息来源。1.简介1.1创建表单<form></form>标记属性method:设置表单的提交方式,GET或POSTaction:指向处理表单的URL(相对位置或绝对位置)1.2表单元素输入域标记<input>常用参数type:输入域类型,有text,password,file,image,submit等name,value等选择域标记<select><option>文字域标记<textarea>2.提交和获取表单数据GET和POST2.1传递
阅读全文
摘要:1.用表格组织排列网页表格标签:<table></table>行标签:<tr></tr>表格标题标签:<th></th>列标签:<td></td><table border="1"> <tr> <th>Month</th> <th>Savings</th> </tr> <tr> <td>January</td> <td>$100</td>
阅读全文
摘要:1.无序列表无序列表是一个项目的列表,此列项目使用粗体圆点(典型的小黑圆圈)进行标记。无序列表始于 <ul> 标签,每个列表项始于 <li>。<ul><li>Coffee</li><li>Milk</li></ul>浏览器显示如下:CoffeeMilk列表项内部可以使用段落、换行符、图片、链接以及其他列表等等。2.有序列表同样,有序列表也是一列项目,列表项目使用数字进行标记。有序列表始于 <ol> 标签,每个列表项始于 <li> 标签。<ol><li>
阅读全文
摘要:1.站外链接1.1链接到其他网页标签<a href="[链接地址]" target="[打开目标方式]">[显示名称]</a> 如:<a href="https://www.google.com.hk/">谷歌中国</a>1.2链接到其他网页的指定部分(锚点)<a href="[链接地址]#[锚点id]" target="[打开目标方式]">[显示名称]</a> 如:<a href="https://www.
阅读全文
摘要:对于不同的浏览器,方法是有差别的:1.对于IE或TT浏览器,把需要显示的16x16像素的ICO图标命名为favicon.ico放置在网站指定目录下(目录自定,如img);2.这大概是所有浏览器通用的在标签页加入指定图标的方法: favicon.ico图标放到网站根目录下,在网页的<head></head>中加入 <link rel="shortcut icon" href="img/[目录]favicon.ico" type="image/x-icon" />3.对于火狐浏览器:图标格式没有IE那么
阅读全文
摘要:公元2013年5月25日,金日开博,主要写点读书心得、学习总结,外加一些生活随感,顺便学习如何开发博客网站。
阅读全文
浙公网安备 33010602011771号