都客仿站系列教程六:网站扒皮

所谓网站扒皮,就是下载网页的前台文件和素材,用来制作成模板使用.简单的讲,使用cms可以快速搭建网站,因为目前很多cms都支持模板和功能分离.比如说你需要做一个网站,那么cms的功能已经满足了,你只需要再按照模板制作规则制作成模板套用cms就可以了.

传统的网站扒皮

1.自己手动保存需要的网页,或者用火狐或者右键另存为,总之把html源文件弄下来.把图片和js弄下来.

这个过程可以说是蛋疼.为什么这样说呢.
问题1:经过浏览器解析后另存为的网页并不是真正原有的网页.
下载下来html页面是经过浏览器解析了的.只要稍微懂一点div+css的就知道.css里面本来合并的写法,比如:margin:0 20px;
下载后解析成了
margin-left:20px;
margin-right:20px;
margin-top:0px;
margin-bottom:0px;
稍微懂一点的就知道,客户不满意,因为冗余太多.
问题2.css中的背景没法存取.
css中的素材不好处理.因为通过另存为是很难搞定的.很多聪明人都知道用firebug类似软件.
问题3:编码导致问题.
有这种情况,有时候另存到本机的网页和原有网页看起来一样的.但是显示出来效果不对,要么这里错位了就是那里错位了.我们检查也检查不出哪里有毛病.这种情况最可能就是编码导致的问题.还有时候下载下来的用编辑器打开发现是乱码.这是由于网页的编码和网页文件本身的编码不一致出现的问题.
 
2.html文件和素材都有了.该插入标签制作成模板包了.
标签很难记是个问题.如果没有很好的操作习惯的话.一边调试一边插入标签比较费劲. 
那么,我期望有那么一个软件.相信也是大家希望的.
1.可以智能分析仿的目标网址,把原有的html文件和全部css,css里面的背景,网页图片和js,swf等全部一并下载下来.
2.可以智能分析链接地址.把路径转换成可以直接使用的.
3.可以100%保证和原有代码一模一样,模板css都没有错位.
4.可以批量把以前的编码统一转换,比如gb2312转换成utf-8的文件格式.保证网页编码和网页文件编码一致.
或者,

最好可以有那么一个功能.可以批量下载页面,不用一个一个下载.然后我再统一添加标签制作模板. 

 


使用都客仿站高手进行网站扒皮 

 为了解决上面的种种问题,市面上的仿站产品应运而生了,什么模板小偷啦,整站下载器啦,还有国外的离线浏览器,我并不是觉得他们不好,实际上他们的下载功能还是很强大的,很多新手往往很向往,想用工具把别个的网站全部下载下来,我可以说不可能,除非你把别人的服务器破解了,直接下载源程序,如果是.net做的网站,那源程序还是编译了的,拿到了也没啥用.还是死心吧.

为什么整站下载也不好,你想啊,整个站乱七八糟的都下载了.而模板要求的就那几个页面,你得花更多的时间去清理那些不需要的东西.

本人用过市面所有的软件.仍然不满意,所以编写了都客仿站高手这款软件.(官方http://www.mou18.com) ,可以很负责人的说,这个是目前最好的仿站软件.不只是下载和分析能力很强.还让你摆脱修改链接和目录的困扰.自动整理归档素材,清晰一目了然.你可以快速的制作模板了,把下载素材的活都省了.

简单的算一下.就算仿站的熟手,要完成繁琐的页面抓取,也要花一两天时间.而且,还不能保证css代码和页面兼容.比如css文件哪里有问题了.页面变形了,这种情况是所有人的困扰.很可能搞了半天一点头绪都没有.如果用软件那就一分钟的事情.

 

好了,不说了,看看软件怎么操作.

 我们以企业站:http://www.maticsoft.com/为例子.

我们到底需要下载哪些页面作为模板页?

 1.一般来说,对于企业站.模板页面包含几种类型:首页,文章列表页,文章详细内容页,单页(比如关于我们).

那我们就按照一种类型下载一个页面即可.


 

 那我们一个一个输入并点击下载以下页面.

 首页:http://www.maticsoft.com/default.htm

 列表页: http://www.maticsoft.com/newslist.htm

 文章内容页: http://www.maticsoft.com/News.aspx?id=36(任意下载一个内容页)

 单页:(任选一个下载)

 http://www.maticsoft.com/Products.aspx

 http://www.maticsoft.com/download.aspx 

 http://www.maticsoft.com/about.aspx 

 相似.结构都一样.可以选一个下载.

 以上页面.都只需要输入网址和点击下载按钮即可.软件会自动归档素材和修改html文件里面的素材引用位置.

 

 好了,打开来看看.直接在浏览器打开刚才下载的html文件就可以看到网站的前台html页面和原来的一模一样.

 

 这节课就学习到这里. 

 下一章我们将具体讲解CMS的模板套用. 

 

 

posted @ 2012-05-25 13:47 dukey's 阅读(...) 评论(...) 编辑 收藏