www.3112.net > nutCh爬取新浪问题

nutCh爬取新浪问题

1、nutch只能抓取到的是简单页面的内容,即不包括该页面加载后又执行的js请求、ajax请求、内嵌iframe等页面。 2、像抓上次nutch抓不到的页面,往往需要抓包分析的程序定制开发,仅依靠nutch是搞不定的了。 再思考下吧。

相关搜索:

网站地图

All rights reserved Powered by www.3112.net

copyright ©right 2010-2021。
www.3112.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com