Python-URL 处理


在互联网世界中,不同的资源是通过URL(统一资源定位符)来标识的。与 Python 标准库捆绑在一起的 urllib 包提供了几个处理 URL 的实用程序。它具有以下模块 -

  • urllib.parse模块用于将 URL 解析为各个部分。

  • urllib.request模块包含打开和读取 URL 的函数

  • urllib.error模块包含 urllib.request 引发的异常的定义

  • urllib.robotparser模块解析 robots.txt 文件

urllib.parse 模块

该模块充当从 URL 字符串获取各个部分的标准接口。该模块包含以下功能 -

urlparse(url字符串)

将 URL 解析为六个组成部分,返回一个包含 6 项的名为元组。每个元组项都是一个对应于以下属性的字符串 -

属性 指数 价值
方案 0 URL 方案说明符
网络锁 1 网络位置部分
小路 2 分层路径
参数 3 最后一个路径元素的参数
询问 4 查询组件
分段 5 片段标识符
用户名 用户名
密码 密码
主机名 主机名(小写)
港口 整数形式的端口号(如果存在)

例子

from urllib.parse import urlparse
url = "https://example.com/employees/name/?salary>=25000"
parsed_url = urlparse(url)
print (type(parsed_url))
print ("Scheme:",parsed_url.scheme)
print ("netloc:", parsed_url.netloc)
print ("path:", parsed_url.path)
print ("params:", parsed_url.params)
print ("Query string:", parsed_url.query)
print ("Frgment:", parsed_url.fragment)

它将产生以下输出-

<class 'urllib.parse.ParseResult'>
Scheme: https
netloc: example.com
path: /employees/name/
params:
Query string: salary>=25000
Frgment:

解析_qs(qs))

该函数解析作为字符串参数给出的查询字符串。数据作为字典返回。字典键是唯一的查询变量名称,值是每个名称的值列表。

要进一步将查询字符串中的查询参数提取到字典中,请使用 ParseResult 对象的查询属性的 parse_qs() 函数,如下所示 -

例子

from urllib.parse import urlparse, parse_qs
url = "https://example.com/employees?name=Anand&salary=25000"
parsed_url = urlparse(url)
dct = parse_qs(parsed_url.query)
print ("Query parameters:", dct)

它将产生以下输出-

Query parameters: {'name': ['Anand'], 'salary': ['25000']}

urlsplit(url字符串)

这与 urlparse() 类似,但不会将参数从 URL 中分离出来。如果需要允许将参数应用于 URL 路径部分的每个段的更新的 URL 语法,通常应使用此函数来代替 urlparse()。

urlunparse(部分)

该函数与 urlparse() 函数相反。它根据 urlparse() 返回的元组构造 URL。parts 参数可以是任何六项可迭代。这会返回一个等效的 URL。

例子

from urllib.parse import urlunparse

lst = ['https', 'example.com', '/employees/name/', '', 'salary>=25000', '']
new_url = urlunparse(lst)
print ("URL:", new_url)

它将产生以下输出-

URL: https://example.com/employees/name/?salary>=25000

urlunsplit(部分)

将 urlsplit() 返回的元组元素组合成完整的 URL 作为字符串。parts 参数可以是任何可迭代的五项。

urllib.request 模块

该模块定义了有助于打开 URL 的函数和类

urlopen() 函数

该函数打开给定的 URL,该 URL 可以是字符串,也可以是 Request 对象。可选的 timeout 参数指定阻塞操作的超时时间(以秒为单位)。这实际上仅适用于 HTTP、HTTPS 和 FTP 连接。

此函数始终返回一个可以用作上下文管理器的对象,并具有 url、headers 和 status 属性。

对于 HTTP 和 HTTPS URL,此函数返回一个稍作修改的 http.client.HTTPResponse 对象。

例子

以下代码使用 urlopen() 函数从图像文件中读取二进制数据,并将其写入本地文件。您可以使用任何图像查看器在计算机上打开图像文件。

from urllib.request import urlopen
obj = urlopen("https://www.tutorialspoint.com/static/images/simply-easy-learning.jpg")
data = obj.read()
img = open("img.jpg", "wb")
img.write(data)
img.close()

它将产生以下输出-

urllib_请求

请求对象

urllib.request 模块包含 Request 类。此类是 URL 请求的抽象。构造函数需要一个强制字符串参数和一个有效的 URL。

句法

urllib.request.Request(url, data, headers, origin_req_host, method=None)

参数

  • url - 有效 URL 的字符串

  • data - 指定要发送到服务器的附加数据的对象。该参数只能用于 HTTP 请求。数据可以是字节、类文件对象和类字节对象的可迭代对象。

  • headers - 应该是标题及其关联值的字典。

  • origin_req_host - 应该是原始交易的请求主机

  • method - 应该是一个表示 HTTP 请求方法的字符串。GET、POST、PUT、DELETE 和其他 HTTP 动词之一。默认为 GET。

例子

from urllib.request import Request
obj = Request("https://www.tutorialspoint.com/")

此 Request 对象现在可以用作 urlopen() 方法的参数。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)

urlopen() 函数返回一个 HttpResponse 对象。调用其 read() 方法可获取给定 URL 处的资源。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)
data = resp.read()
print (data)

发送数据

如果您为 Request 构造函数定义 data 参数,则 POST 请求将发送到服务器。数据应该是以字节表示的任何对象。

例子

from urllib.request import Request, urlopen
from urllib.parse import urlencode

values = {'name': 'Madhu',
   'location': 'India',
   'language': 'Hindi' }
data = urlencode(values).encode('utf-8')
obj = Request("https://example.com", data)

发送标头

Request 构造函数还接受标头参数以将标头信息推送到请求中。它应该在字典对象中。

headers = {'User-Agent': user_agent}
obj = Request("https://example.com", data, headers)

urllib.error 模块

urllib.error 模块中定义了以下异常 -

网址错误

引发 URLError 的原因是没有网络连接(没有到指定服务器的路由),或者指定的服务器不存在。在这种情况下,引发的异常将具有“原因”属性。

例子

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.nosuchserver.com")
try:
   urlopen(obj)
except err.URLError as e:
   print(e)

它将产生以下输出-

HTTP Error 403: Forbidden

HTTP错误

每次服务器发送 HTTP 响应时,它都会与一个数字“状态代码”相关联。它的代码指示服务器无法满足请求的原因。默认处理程序将为您处理其中一些响应。对于无法处理的情况,urlopen() 函数会引发 HTTPError。HTTPError 的典型示例是“404”(未找到页面)、“403”(请求被禁止)和“401”(需要身份验证)。

例子

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.python.org/fish.html")
try:
   urlopen(obj)
except err.HTTPError as e:
   print(e.code)

它将产生以下输出-

404