上一页 1 ··· 4 5 6 7 8 9 下一页
摘要: 在程序调试中打印错误至关重要,可以让程序员在第一时间找到错误的根本,及时修改bug,提高编程效率。1.c++ APImysql_errno(MYSQL* mysql)返回最近被调用的MySQL函数的出错编号。 mysql_error(MYSQL* mysql)返回最近被调用的MySQL函数的出错消息。2.php APImysql_error() 阅读全文
posted @ 2013-05-29 09:15 路过你的苦 阅读(520) 评论(0) 推荐(0)
摘要: mysql日期和字符相互转换方法date_format(date,'%Y-%m-%d') -------------->oracle中的to_char();str_to_date(date,'%Y-%m-%d') -------------->oracle中的to_date();--主要用于对抓取网页排序,解决id小的重要,time新的重要,而time新的id小之间的矛盾,先按日期降序(抓取时间->日期),同一天内id升序。%Y:代表4位的年份%y:代表2为的年份%m:代表月, 格式为(01……12) %c:代表月, 格式为(1……12)%d: 阅读全文
posted @ 2013-05-28 09:14 路过你的苦 阅读(4112) 评论(0) 推荐(0)
摘要: 需要包含以下基本功能:(1)网站下载流速控制(间隔抓取、频换代理抓取) 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。(2)网页抓全 (解析正确,抓取合理) 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。(3)网页抓新(统计更新周期实时抓取) 网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。(4)网页重复抓取的避免(bloom过滤器、set查重) 为了及时捕捉网页的更新,对同一个网... 阅读全文
posted @ 2013-05-27 23:03 路过你的苦 阅读(1863) 评论(0) 推荐(0)
摘要: 有些WEB服务器对于同一IP在一段时间内的访问次数是有限制的,即禁止爬虫频数抓取以影响访问体验。方法1:网络HTTP代理列表建立一个有效的HTTP代理列表,每次以其中的一个IP来访问一个站点,这样能很好的避免被服务器认定为爬虫程序。1.定义HTTP代理结构。建立一个长度为M的HTTP代理结构数组。结构struct SHttpProxy{char * m_cIP;int m_nPort,int m_nFailedNUM;};m_cIP为代理主机或IP,m_nPort为代理端口号,m_nFailedNUM访问失败次数,定义一个阈值H,如果m_nFailedNUM>H则认定该代理被禁用。2.定 阅读全文
posted @ 2013-05-27 22:24 路过你的苦 阅读(1627) 评论(0) 推荐(0)
摘要: 关键词:友情、奋斗、梦想。最喜欢的台词:梦想是什么,梦想就是一种让你感到坚持就是幸福的东西。最感动的剧情:新梦想教材被ETS美国普林斯出版社控告,成冬青要远赴美国调解时,他按下手机2号快捷键又马上挂掉,那一刻他最需要的人王阳和孟晓骏出现了。最佩服的场面:在ETS美国普林斯出版社调解会上,成冬青背出了所有关于知识产权的条文。友情:《中国合伙人》再一次将同学之间最真挚的感情演绎的淋漓尽致,同学永远是友情最永恒的话题;奋斗:只有奋斗能谱写青春最美的旋律,我想每个人心中都有奋斗的种子,只是有些人过早泯灭罢了,生命不息,奋斗不止。梦想:孟晓骏一直问成冬青的梦想是什么,我想成冬青去美国后有了答案,是啊,我 阅读全文
posted @ 2013-05-27 22:22 路过你的苦 阅读(326) 评论(0) 推荐(0)
摘要: 1.明确页面翻转功能。总页数:(命中页数/10)向上取整;布局:[前一页]1,2,…,N,[下一页];默认显示(当前页curpage+10)页。前一页:当当前页>1时要显示前一页;下一页:当当前页curpage<最后一页时显示下一页;每页显示内容:正常显示10条记录,最后一页可能不足10页,用SQL limit (curpage-1)*10,10控制。2.具体实现2.1标签选取form表单:用GET方法input 提交按钮:用于提交当前点击页input 文本域:两个隐藏,一个用于GET当前页,一个用于GET当前检索词。2.2控制翻转上一页:curpage-=1下一页:curpage 阅读全文
posted @ 2013-05-27 17:39 路过你的苦 阅读(210) 评论(0) 推荐(0)
摘要: HTML 表单用于搜集不同类型的用户输入,是页面与WEB服务器交互过程中最重要的信息来源。1.简介1.1创建表单<form></form>标记属性method:设置表单的提交方式,GET或POSTaction:指向处理表单的URL(相对位置或绝对位置)1.2表单元素输入域标记<input>常用参数type:输入域类型,有text,password,file,image,submit等name,value等选择域标记<select><option>文字域标记<textarea>2.提交和获取表单数据GET和POST2.1传递 阅读全文
posted @ 2013-05-27 10:53 路过你的苦 阅读(201) 评论(0) 推荐(0)
摘要: 1.用表格组织排列网页表格标签:<table></table>行标签:<tr></tr>表格标题标签:<th></th>列标签:<td></td><table border="1"> <tr> <th>Month</th> <th>Savings</th> </tr> <tr> <td>January</td> <td>$100</td> 阅读全文
posted @ 2013-05-26 22:14 路过你的苦 阅读(170) 评论(0) 推荐(0)
摘要: 1.无序列表无序列表是一个项目的列表,此列项目使用粗体圆点(典型的小黑圆圈)进行标记。无序列表始于 <ul> 标签,每个列表项始于 <li>。<ul><li>Coffee</li><li>Milk</li></ul>浏览器显示如下:CoffeeMilk列表项内部可以使用段落、换行符、图片、链接以及其他列表等等。2.有序列表同样,有序列表也是一列项目,列表项目使用数字进行标记。有序列表始于 <ol> 标签,每个列表项始于 <li> 标签。<ol><li> 阅读全文
posted @ 2013-05-25 22:16 路过你的苦 阅读(382) 评论(0) 推荐(0)
摘要: 1.站外链接1.1链接到其他网页标签<a href="[链接地址]" target="[打开目标方式]">[显示名称]</a> 如:<a href="https://www.google.com.hk/">谷歌中国</a>1.2链接到其他网页的指定部分(锚点)<a href="[链接地址]#[锚点id]" target="[打开目标方式]">[显示名称]</a> 如:<a href="https://www. 阅读全文
posted @ 2013-05-25 21:36 路过你的苦 阅读(221) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 下一页