随笔分类 - 杂文
百家事
摘要:循环采集的原理和网址采集部分相似,我们以论坛主题和回复为例,讲一下循环采集的使用.以http://bbs.locoy.com/spider-34395-1-1.html为例: 我们要获得每一楼的作者,写规则 href="space.php?uid=(*)" style="margin-left: 20px; font-weight: 800">开头, <结尾,默认可以获得一 个结果 rq204 ,...
阅读全文
摘要:使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。 程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。 这里的排除支持(*), 这里支持参数型替换,注意这个是标准版有的功能。 需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。 看上边的图,这里的替换和排除是有顺序的。可以...
阅读全文
摘要:分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。采集要点: 1.采集规则要对每个分页都适用。 2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。 具体操作流程:先测试获得所有分页,再对每个分页里的内容进行获取。 下边我们以http://www.pconline.com.cn/diy/graphics/hq/gz/0802/...
阅读全文
摘要:何为多页?本来我们是从网址采集那块采集到网址,再对这个网址(也叫默认页)进行采集。但是有时有许多信息他并不在一个页面上,而是和这个默认页有一定的关系,要不他网址在默认页里,要不他网址和默认页网址有联系。我们就这个问题来说一下具体的解决办法。 这里也有两种途径获得第三个网址,我们先讲从默认页网址替换得到新网址。我们以http://data.movie.xunlei.com/movie/39843...
阅读全文
摘要:2009版本起,火车采集器加强了post采集网址的功能,这是一个非常好的消息,我们可以提交自定义的数据并获得想要的结果。比如我们使用搜索,查询一个关键字,返回一些结果。我们再采集返回的这些内容网址,再去采它。 我们以程序自带的51job的网址采集说明一下这个功能的使用.我们在获取相关职位时,是设定好搜索,然后再提交,就可以获得我们需要的内容了.现在,我们在提交时用抓包工具抓取一下程序提交的数据,...
阅读全文
摘要:这里我们获得标题,可以选开始""结束"",然后过滤一下 “- 站长网”这字符,也可以开始“"结束”- 站长网“来直接获得 标题。想获得关键字的话可以 开始 下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。 来源:郑州人才网 时间:2008-07-31 14:03 字体:[大 中 小] 收藏 我要投稿 做网站我认为最重要的就是两个字&qu...
阅读全文
摘要:使用外部编程接口(PHP),可以对你的数据做任意你想要的处理。不过需要注意的是,目前只能对单一标签里的内容作处理。处理原理是程序先用你写的规则获取内容,然后将数据发送给php相关的程序处理。这个需要有一定php基础的朋友使用。在程序里使用时,请先测试。 这里你可以编写程序,具体的编写方法我们有例子在里边,你可以参考一下。注意对于不处理的标签,也要输出内容,就是echo $LabelConten...
阅读全文
摘要:数据库入库的效率是相当的高,可以是WEB在发布的10倍或更多。如何使用呢?只要会SQL语句就可以了。 比如dede 5.1的文章入库语句 如上图的。这里是向两个表中添加了字段,archives 和addonarticle.注意里边有个数据表前辍,这个是用来获取第一个插入记录的id,获取的是archives 里的自增字段的值。这个数据表前辍是可以使用多个的,应注意的是那个表里应有个自增字段。其...
阅读全文
摘要:1.新建站点 :在站点任务列表树那里任意地方右键,就可以打开如下几个菜单,都有新建站点选项。 2.新建任务:选中站点,右键就可以看到上图2中的"从该站点新建任务"了。 3.导入任务:如图2,在站点上右键即可以看到。 4.导入模块:您需要将下载到的cwr或是jhc模块文件直接放入程序文件夹Module下即可以使用。或是直接打开菜单下的常用操作选相应的导入选项导入模块. 5. 复制粘贴任务: 如...
阅读全文
摘要:先说一下,什么是数据采集呢?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上.我们的这个过程,就可以称作一个采集,将别人网站上对自己有用的信息转到自己网站上. 采集器也是这样,不过整个过程是由软件完成的.我们可以这样理解,我们复制文章的标题和内容,是我们可以知道什么地方是内容,什么地方是标题,但是软件是不知道的,所以我...
阅读全文
摘要:火车采集器里有好多文件,它们具体的功能是怎么样呢?请看下边常用的程序. 如上图,分别是WEB发布模块编辑器,获取源代码HTTP模拟提交工具,火车采集器主程序,web在线发布配置管理程序,迅雷快车加密解密程序,自动升级程序。每个程序我们作一下简单介绍: WEB发布模块编辑器:这个工具是用来制作web发布模块的,web发布模块是我们将数据以模仿人手工发布时需要的一个接口文件。制作的web发布模块后...
阅读全文
摘要:这篇文章是在采集文章并发布到DedeCMS系统的基础上进行扩展,一些部分会讲得略一些,如果您有的操作看不懂,请查看一下原文. 我们打开火车默认的任务 下载软件并发布到木翼,然后一步步不说, 首先是标签的建立,下载类的因为标签很多,且需要和模块里一一对应,手工加容易出错,我们使用软件的标签智能提取功能,程序会自动新建标签. 网址获得部分很简单,主要是规则里有一些难度的,比如文件大小的...
阅读全文
摘要:我们以腾讯广州新闻为例,来讲一下文章的采集和发布,也包括图片的下载及上传。网址http://news.qq.com/gd/gdnews/guangzhou/guangzhounews.htm,我们一步步来讲。 1.新建站点 2.在该站点上新建任务 3.网址规则,查看一下源代码,发现这些网址代码在一个区域里,我们可以这样写规则 测试一下,正确,下边该采内容了。 4.内容规则制作。我们随...
阅读全文
摘要:转:http://bbs.dedecms.com/read.php?tid=71497&keyword=%B2%C9%BC%AF%B9%E6%D4%F2 前些天为一个陌生的朋友写的,现在与大家分享! 是针对飞库网小说的,具体地址:http://bbs.dedecms.com/goto.php?url=http%3A%2F%2Fwww.feiku.com%2FBook%2FLN%2F134....
阅读全文
摘要:1.《唐伯虎点秋香》求职关键词:确立目标,职业规划;2.《007》求职关键词:装备;3.《肖申克的救赎》求职关键词:信念;4.《毕业生》求职关键词:迷茫,彷徨;5.《阿甘正传》求职关键词:执着;6. 《兄弟连》求职关键词:兄弟……
阅读全文
摘要: 从操作角度考虑,其实用鼠标右键菜单可以新开标签页,中键点击链接可以新开标签页,按住链接拖拽到页签也可以在本窗口打开,都能避免定义target=_blank链接的新开窗口问题。但毕竟不顺手,而且不是通用方案,但是我更有理由相信target=_blank不是绝对错误。
阅读全文
摘要:很多人考研失败不是因为实力不够,不是因为不努力,而是因为没有信心,不能够相信自己成功。不是因为做不到而没有信心,而是因为没有信心所以才做不到。其实考研并不难,难的是如何相信自己有成功的绝对实力。
阅读全文
摘要: 1、大小写——特殊含义的关键词大写字母,如果没有特殊含义,则可以采取首字母大写形式;2、省略WWW,或者利用二级域名进行推广;3、利用目录中的关键词——针对海外推广,显示网址中出现关键词,尤其是针对那些品牌保护的关键词,效果非常明显。
阅读全文
摘要:个人认为,SEO不应局限于某个点或面,而是应该多维的思考和应用;也可以说,不要局限于“手法”,而是着眼于“渠道”。在SEO优化的过程中,融合其他营销方式,相信很多SEO一直在用。
阅读全文
摘要:写Blog目的当然是为了展示自己,那“自己”包括什么呢? 首先是个人的档案,先连上Google Profiles。然后把我在做的(Twitter),我在读的(Google Reader)(Del.icio.us),我在看的(Douban),我的行程(Google Calendar),我的旅途记录(Flickr)(Picasa)都聚合到我的blog。
阅读全文

浙公网安备 33010602011771号