python爬虫 - 代理ip正确使用方法

主要内容：代理ip使用原理，怎么在自己的爬虫里设置代理ip，怎么知道代理ip是否生效，没生效的话哪里出了问题，个人使用的代理ip(付费）。

代理ip原理

输入网址后发生了什么呢？

代理ip做了什么呢？

为什么要用代理呢？

爬虫代码中使用代理ip

代理ip的获取

检验代理ip是否生效

未生效问题排查

1.请求协议不匹配

2.代理失效

代理ip原理

输入网址后发生了什么呢？

1.浏览器获取域名

2.通过DNS协议获取域名对应服务器的ip地址

3.浏览器和对应的服务器通过三次握手建立TCP连接

4.浏览器通过HTTP协议向服务器发送数据请求

5.服务器将查询结果返回给浏览器

6.四次挥手释放TCP连接

7.浏览器渲染结果

其中涉及到了：

应用层：HTTP和DNS

传输层：TCP UDP

网络层：IP ICMP ARP

代理ip做了什么呢？

简单来说，就是：

原本你的访问

使用代理后你的访问

为什么要用代理呢？

因为我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封IP。而代理ip就避免了这个问题：

爬虫代码中使用代理ip

就像是请求时伪装头一样，伪装ip，注意是 { }

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }

requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

代理ip的获取

像我们刚刚的proxies存储的代理，是可以直接作为参数传进requests里面使用的。那现在我们就来做这个proxies

首先打开一个代理IP提供商，我这里选择的是IPIDEA（放通道总被当成广告，链接放下面了，我记得新用户注册还有赠送的试用），我们一般使用api获取，也就是接口直接获取我们需要的ip，由供应商返回提供给我们的ip信息：

可以根据自己需要的情况调整：

我这里从URL点击进去使用api来做示范，会生成一个url链接，我们requests直接请求这个链接，就可以获得代理IP详细信息。


# 这里参数控制了数量 格式 和ip协议等等 这也算是它的一个优势吧，多的话可以提取几百，而且可以指定城市从固定地点提取ip，更符合爬虫模拟人类的行为特征。
url = "http://api.proxy.ipidea.io/getProxyIp?num=1&return_type=txt&lb=1&sb=0&flow=1&regions=&protocol=http"

# 输出ip
res = requests.get(url)
print(res.text)
# 这个ip就可以放在我们实际要请求的网页requests中了

检验代理ip是否生效

我们访问一个网站，这个网站会返回我们的ip地址：

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

# 供应商代理IP
URL = "https://www.ipidea.net/?utm-source=csdnhao&utm-keyword=%3Fcsdnhao"

划重点，我使用代理IP进行访问，如果返回来不是我的IP，说明代理ip可用，可以伪装，也可以帮我们带回想要的信息。

我们看一下我使用了四个不同的代理ip，全部生效了，

未生效问题排查

如果你返回的还是本机地址，99%试一下两种情况之一：

1.请求协议不匹配

简单来说就是，如果你请求的是http，就要用http的协议，如果是https，就要用https的协议。

如果我请求是http ，但只有https，就会使用本机ip。

划重点，我们获取的代理是两种都支持的，但是要自己向我那样配置，就像是买了鸟，你不给它飞的空间，那当然是飞不起来的，这属于我们自己的问题。

2.代理失效

这就不是我们的问题了。所谓便宜没好货，好货不便宜。如果确实大规模爬虫是必须的话，还是买代理ip比较好，网上广告满天飞的某些代理实际性价比有些低了，自己常用的已经在上面分享了，其他的不了解就不做过多推荐了。

当然如果你是业余爱好，那也可以从网上找一些免费的代理玩玩，但是效果确实不怎么好。。。。。

url code 浏览器服务器 api ide utm proxy dns 个人使用 flow word 用户注册