网络爬虫最终要的资源就是IP地址,尤其是在各大网站纷纷把自家数据当初看家宝贝的“大数据时代”。即使IP地址多了,爬虫改成分布式,管理那么多服务器上的爬虫也是够头疼的。一种方法就是配置代理服务器,爬虫只在几台机器是跑就可以啦。
配置多IP地址
Linux(以Ubuntu为例)配置单机多IP地址还是很简单的,编辑/etc/netword/interfaces文件即可:
auto eno1:90iface eno1:0 inet static
address 192.168.8.90
netmask 255.255.255.0
gateway 192.168.8.1auto eno1:91iface eno1:91 inet static
address 192.168.8.91
netmask 192.168.8.255
gateway 192.168.8.1
以上配置中,eno1是网卡的名字,eno1:90是配置在该网卡的一个虚拟网卡的名字,并给该虚拟网卡配置了IP:192.168.8.90。按照这个规则,可以给eno1这个网卡绑定很多IP,如果这些IP都是公网IP,就可以把它当配置成爬虫的多代理服务。
配置squid3多IP出口
机器有了多IP,如果不对squid做相应的配置,出口IP还只能是一个,其他IP都不能用得上。 编辑/etc/squid/squid.conf配置文件,做相应配置
acl ip_90 myip 192.168.8.90tcp_outgoing_address 192.168.8.90 ip_90
acl ip_91 myip 192.168.8.91tcp_outgoing_address 192.168.8.91 ip_91