Java开源爬虫框架WebCollector设置代理

by briefcopy · Published 2016年4月25日 · Updated 2017年8月10日

WebCollector自带一个Proxys类，通过Proxys.nextRandom()方法可以随机获取加入的代理。
通过Proxys.add(“ip”,”端口号”);添加代理。
如果本机也参与http请求，可用Proxys.addEmpty()方法将本机加入。

覆盖Crawler的getResponse()方法，即可自定义使用随机代理的http请求：

@Override
public HttpResponse getResponse(CrawlDatum crawlDatum) throws Exception {
   HttpRequest request = new HttpRequest(crawlDatum);
   request.setProxy(proxys.nextRandom());
   return request.responsePage();
}

代码中的proxys并不是一个自带的对象，用户需要在继承Crawler时，定义一个成员变量：

Proxys proxys=new Proxys();

并且需要在构造函数或其他地方，向Proxys中添加代理服务器地址。

网上有很多免费代理网站，但这些代理非常不稳定。导致代理不稳定有两个原因，一方面，很多免费代理是通过黑客手段扫描出来的代理服务器，并不是专门的代理服务器，如果服务器的主人关闭服务器或代理服务，或者开启防火墙，代理自然就报废了；另一方面，提供免费代理列表的网站并不多，但使用免费代理列表的人却很多，很多都是写一个定时扫描程序，爬取免费代理网站，定时获取最新免费代理列表，一个代理服务器多人使用，速度得不到保障。

还有一些网站提供稳定的随机代理，但基本是收费的。

代理又可分为透明代理、普通匿名代理和高匿代理，这里引用网上一段解释：

透明代理的意思是客户端根本不需要知道有代理服务器的存在，但是它传送的仍然是真实的IP。你要想隐藏的话，不要用这个。

普通匿名代理能隐藏客户机的真实IP，但会改变我们的请求信息，服务器端有可能会认为我们使用了代理。不过使用此种代理时，虽然被访问的网站不能知道你的ip地址，但仍然可以知道你在使用代理，当然某些能够侦测ip的网页仍然可以查到你的ip。

高匿名代理不改变客户机的请求，这样在服务器看来就像有个真正的客户浏览器在访问它，这时客户的真实IP是隐藏的，服务器端不会认为我们使用了代理。

总的来说，还是高匿代理最为靠谱，不容易被网站的反爬虫机制察觉。

通过捐款支持WebCollector

维护WebCollector及教程需要花费较大的时间和精力，如果你喜欢WebCollector的话，欢迎通过捐款的方式，支持开发者的工作，非常感谢！

你可以使用支付宝钱包扫描下方的二维码进行捐款，或者通过向支付宝帐号 [email protected]转帐进行捐款。

Java开源爬虫框架WebCollector设置代理

通过捐款支持WebCollector

You may also like...

发表回复取消回复

分类

近期文章

归档

加QQ群下载完整Eclipse项目

精品资源

友情链接

Java开源爬虫框架WebCollector设置代理

通过捐款支持WebCollector

You may also like...

Java开源爬虫框架WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

WebCollector 教程——MatchUrl 和 MatchType

Java开源爬虫框架WebCollector内核开发——定制Http请求

发表回复 取消回复

分类

近期文章

归档

标签

加QQ群下载完整Eclipse项目

精品资源

友情链接

发表回复取消回复