Java开源爬虫框架WebCollector爬取JS加载的数据

by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日

WebCollector爬取JS加载的数据很简单，首先需要加入selenium的所有jar包，maven项目向pom.xml中添加下面代码即可：

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-java</artifactId>
    <version>2.44.0</version>
</dependency>

下面这个例子可以获取加载完成后的页面：

import cn.edu.hfut.dmic.webcollector.crawldb.DBManager;
import cn.edu.hfut.dmic.webcollector.crawler.Crawler;
import cn.edu.hfut.dmic.webcollector.fetcher.Executor;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager;
import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.htmlunit.HtmlUnitDriver;


/**
 * 本教程演示如何利用WebCollector爬取javascript生成的数据
 *
 * @author hu
 */
public class DemoSelenium {

    static {
        //禁用Selenium的日志
        Logger logger = Logger.getLogger("com.gargoylesoftware.htmlunit");
        logger.setLevel(Level.OFF);
    }


    public static void main(String[] args) throws Exception {
        Executor executor=new Executor() {
            @Override
            public void execute(CrawlDatum datum, CrawlDatums next) throws Exception {
                HtmlUnitDriver driver = new HtmlUnitDriver();
                driver.setJavascriptEnabled(true);
                driver.get(datum.getUrl());
                WebElement element=driver.findElementByCssSelector("span#outlink1");
                System.out.println("反链数:"+element.getText());
            }
        };

        //创建一个基于伯克利DB的DBManager
        DBManager manager=new BerkeleyDBManager("crawl");
        //创建一个Crawler需要有DBManager和Executor
        Crawler crawler= new Crawler(manager,executor);
        crawler.addSeed("http://seo.chinaz.com/?host=www.tuicool.com");
        crawler.start(1);
    }

}

使用Selenium等模拟浏览器进行异步数据的爬取，效率较低，对于大多数情况，如果不是很麻烦，尽量想办法分析网页的Ajax请求，找出Ajax请求数据的规律。对于较简单的Ajax，即单纯的http get请求，找到请求URL的拼接规律，生成URL，将URL作为爬虫的种子，即可爬取Ajax请求结果。对于较为复杂的Ajax请求，例如需要使用http post方法的请求，可以自己构架爬虫的Requester。很多瀑布流的网站都可以通过简单地Ajax请求分析方法轻松抓取到数据。

通过捐款支持WebCollector

维护WebCollector及教程需要花费较大的时间和精力，如果你喜欢WebCollector的话，欢迎通过捐款的方式，支持开发者的工作，非常感谢！

你可以使用支付宝钱包扫描下方的二维码进行捐款，或者通过向支付宝帐号 [email protected]转帐进行捐款。

Java开源爬虫框架WebCollector爬取JS加载的数据

通过捐款支持WebCollector

You may also like...

发表回复取消回复

分类

近期文章

归档

加QQ群下载完整Eclipse项目

精品资源

友情链接

Java开源爬虫框架WebCollector爬取JS加载的数据

通过捐款支持WebCollector

You may also like...

Java开源爬虫框架WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

WebCollector 教程——MetaData

Java开源爬虫框架WebCollector设置代理

发表回复 取消回复

分类

近期文章

归档

标签

加QQ群下载完整Eclipse项目

精品资源

友情链接

发表回复取消回复