用户登录  |  傲看软件园 用户注册
文章中心广告代码ASP源码PHP源码JSP源码.NET源码源码相关傲看留言板繁體中文
当前位置:傲看软件园文章中心软件产业解决方案

网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页提取的原理

减小字体 增大字体 作者:Fuller  来源:本站原创  发布时间:2009-08-20 17:11:43

目标网站上内容很多时会用多个页显示,例如,博客、新闻、论坛、电子商城的首页,开发网页抓取程序时,必须要实现翻页抓取,但是翻页操作看起来很简单,实现过程需要解决一些困难,下面结合MetaSeeker工具包实现的翻页提取功能,简单解释一下翻页的原理,分成两种情况:

1,页面上每一页用另外一个URL地址表示。翻这样的网页是最好实现的,将这个URL提取下来,以后某个时间加载这个地址的页面就行了。而MetaSeeker还可以在一个信息提取事务中将所有的页在一个会话中翻完,在这个会话中这些URL称为线内线索, 这些URL没有被记录下来,翻完就丢掉了,实际上这类URL记录下来的意义不大,目标网站显示多页时往往使用一个服务器动态页面,页码作为参数,例如 page=2,这些页面的内容是变化的,例如,一个博客网站,新博文添加以后,原来的分页就变了,原来一篇博文位于页码2,后来就可能位于页码3上了。

2,页面上每一页关联一段Javascript代码,被点击时执行,这是普通爬虫的天敌,一般的爬虫难于提取javascript管理的内容,尤其是用AJAX框架制作的网站最难抓取,MetaSeeker工具包通过模拟用户的点击操作,直接向代表翻页的HTML页面元素发送click消息,翻页后理解抽取内容,也就是说在一个抓取会话中翻完所有页,否则,如果将这段js/javascript代码保存下来,以后再想翻页是做不成的。

Tags:解决方案

作者:Fuller

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论

精品栏目导航

关于本站 | 网站帮助 | 广告合作 | 下载声明 | 友情连接 | 网站地图
冀ICP备08004437号 | 客服Q:354766721 | 交流群83228313
傲看软件园 - 绿色软件,破解软件下载站! 源码网 源码之家 绿软之家
Copyright © 2003-2010 OkHan.Net. All Rights Reserved .
页面执行时间:12,171.88000 毫秒
Powered by:OkHan CMS Version 4.0.0 SP2