随着人工智能与大数据技术的快速发展,大数据作为智能时代的产物,他能帮助各行各业分析解决问题。网络爬虫应运而生,帮助更多企业更高效的采集数据,那么在数据采集中如何使用账密形式的爬虫ip?
当您选择了“用户名+密码”授权模式,希望这篇帮助文档能对您有所帮助。
一、推荐使用环境:当您的终端IP不固定(如铁通、鹏博士等),或者需要多机器同时使用爬虫ip时。
二、用户名+密码:用户名是实例ID,密码可在产品管理面板里看到,密码可以重置修改。
三、授权错误提示:爬虫ip的用户名密码认证协议一般采用标准的 HTTP Basic Authentication。如果用户认证错误,系统会返回 407 Proxy Authentication Required。
四、如果代码的 HTTP 请求方法不支持以用户名+密码的形式设置身份认证信息, 则需要手动为每个 HTTP 请求增加Proxy-Authorization协议头, 其值为 Basic <base64>。其中 <base64> 为 “用户名” 和 “密码” 通过 : 拼接后, 再经由 BASE64 编码得到的字符串。 注意:Java和Python在使用“用户名+密码”授权时,需要注意保持协议的一致。
五、参考案例如下:
a、在浏览器中使用爬虫ip(以IE浏览器为例)
打开 IE 浏览器,依次点击打开 “菜单 -> 工具 -> Internet 选项 -> 连接 -> 局域网设置”, 勾选“为 LAN 使用爬虫ip服务器”。
输入地址IP和端口,然后打开任意网站,会出现“Windows 安全”窗口(如下图示),输入用户名和密码,勾选“记住我的凭据”确定即可。
b、在 Python中使用爬虫ip
import requests
#你要访问的网址
url = 'http://jshk.com.cn/'
proxies = {
'http': 'http://账号:密码@ip:port',
'https': 'http://账号:密码@ip:port'
#“用户名+密码”授权,账号为实例ID,密码为8位数字的密码,不用MD5加密,在后台的实例管理下可以看到
}
response = requests.get(url, proxies=proxies)
c、在PHP中使用爬虫ip
<?php
function curlFile($url,$proxy_ip,$proxy_port,$loginpassw)
{
//$loginpassw = '账号:密码';
//$proxy_ip = 'ip';
//$proxy_port = 'port';
//$url = 'http://www.ip138.com';
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_PROXYPORT,$proxy_port);
curl_setopt($ch,CURLOPT_PROXYTYPE,'http');
curl_setopt($ch,CURLOPT_PROXY,$proxy_ip);
curl_setopt($ch,CURLOPT_PROXYUSERPWD,$loginpassw);
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
?>
d、在C#中使用爬虫ip
using System;
using System.Net;
namespace ProxyTest
{
class Program
{
static void Main(string[] args)
{
WebClient wc = new WebClient();
wc.Proxy = new WebProxy("ip", port);
wc.Proxy.Credentials = new NetworkCredential("帐号", "密码");
string text = wc.DownloadString("http://www.ip138.com");
Console.WriteLine(text);
}
}
}
e、在 VC Win32 Wininet 库中使用爬虫ip
#include <windows.h>
#include <wininet.h>
#include <stdio.h>
#pragma comment(lib, "wininet.lib")
int main(int argc, char *argv[], char *env[])
{
char url[] = "http://www.ip138.com/";
char proxyinfo[] = "ip:port";
char usernm[] = "帐号";
char passwd[] = "密码";
char text[8192] = {};
DWORD dwReadSize = 0;
BOOL bOK = FALSE;
HINTERNET hInternet = InternetOpen(NULL, INTERNET_OPEN_TYPE_PROXY, proxyinfo, NULL,
0);
HINTERNET hUrl = InternetOpenUrl(hInternet, url, NULL, 0, 0, NULL);
bOK = InternetSetOption(hUrl, INTERNET_OPTION_PROXY_USERNAME, usernm,
strlen(usernm));
bOK = InternetSetOption(hUrl, INTERNET_OPTION_PROXY_PASSWORD, passwd,
strlen(passwd));
bOK = (BOOL)InternetReadFile(hUrl, text, sizeof(text), &dwReadSize);
printf(text);
return 0;
}