- Python 基础知识
- Python - 主页
- Python - 概述
- Python - 历史
- Python - 特性
- Python 与 C++
- Python——Hello World 程序
- Python - 应用领域
- Python解释器
- Python-环境设置
- Python-虚拟环境
- Python - 基本语法
- Python - 变量
- Python - 数据类型
- Python - 类型转换
- Python - Unicode 系统
- Python - 文字
- Python - 运算符
- Python - 运算符优先级
- Python - 算术运算符
- Python - 赋值运算符
- Python - 增强运算符
- Python - 比较运算符
- Python - 逻辑运算符
- Python - 位运算符
- Python - 会员运算符
- Python - 身份运算符
- Python - 注释
- Python - 用户输入
- Python - 数字
- Python - 布尔值
- Python 控制语句
- Python - 控制流
- Python - 决策
- Python - 如果有的话
- Python - 大小写匹配语句
- Python - for 循环
- Python - for-else 循环
- Python - While 循环
- Python-break语句
- Python-继续语句
- Python - pass 语句
- Python 函数和模块
- Python - 函数
- Python - 默认参数
- Python - 关键字参数
- Python - 仅关键字参数
- Python - 位置参数
- Python - 仅位置参数
- Python - 任意参数
- Python - 变量作用域
- Python - 函数注释
- Python - 模块
- Python - 内置函数
- Python 字符串
- Python-字符串
- Python - 字符串切片
- Python-修改字符串
- Python-字符串连接
- Python——字符串格式化
- Python - 转义字符
- Python - 字符串方法
- Python - 弦乐练习
- Python 列表
- Python - 列表
- Python - 访问列表项
- Python - 更改列表项
- Python - 添加列表项
- Python - 删除列表项
- Python - 循环列表
- Python - 列表理解
- Python - 列表排序
- Python - 复制列表
- Python - 连接列表
- Python - 列表方法
- Python - 列出练习
- Python 元组
- Python - 元组
- Python - 访问元组项
- Python - 更新元组
- Python - 解压元组
- Python - 循环元组
- Python - 连接元组
- Python - 元组方法
- Python - 元组练习
- Python 集
- Python - 集合
- Python - 访问设置项
- Python - 添加设置项
- Python - 删除设置项
- Python - 循环集
- Python - 连接集
- Python - 复制集
- Python - 集合运算符
- Python - 设置方法
- Python - 设置练习
- Python 字典
- Python - 字典
- Python - 访问字典项目
- Python - 更改字典项目
- Python - 添加字典项
- Python - 删除字典项
- Python - 字典查看对象
- Python - 循环字典
- Python - 复制字典
- Python - 嵌套字典
- Python - 字典方法
- Python - 字典练习
- Python 数组
- Python-数组
- Python - 访问数组项
- Python - 添加数组项
- Python - 删除数组项
- Python - 循环数组
- Python - 复制数组
- Python - 反转数组
- Python - 数组排序
- Python - 连接数组
- Python - 数组方法
- Python - 数组练习
- Python 文件处理
- Python - 文件处理
- Python-写入文件
- Python-读取文件
- Python - 重命名和删除文件
- Python - 目录
- Python - 文件方法
- Python - 操作系统文件/目录方法
- 面向对象编程
- Python - OOP 概念
- Python - 对象和类
- Python - 类属性
- Python - 类方法
- Python - 静态方法
- Python - 构造函数
- Python - 访问修饰符
- Python——继承
- Python——多态性
- Python - 方法重写
- Python - 方法重载
- Python - 动态绑定
- Python - 动态类型
- Python - 抽象
- Python-封装
- Python - 接口
- Python - 包
- Python - 内部类
- Python - 匿名类和对象
- Python-单例类
- Python - 包装类
- Python-枚举
- Python-反射
- Python 错误与异常
- Python - 语法错误
- Python - 异常
- Python - try- except 块
- Python - try-finally 块
- Python - 引发异常
- Python - 异常链
- Python - 嵌套 try 块
- Python - 用户定义的异常
- Python-日志记录
- Python-断言
- Python - 内置异常
- Python 多线程
- Python-多线程
- Python-线程生命周期
- Python - 创建线程
- Python - 启动线程
- Python - 连接线程
- Python - 命名线程
- Python-线程调度
- Python-线程池
- Python - 主线程
- Python-线程优先级
- Python - 守护线程
- Python - 同步线程
- Python同步
- Python-线程间通信
- Python-线程死锁
- Python - 中断线程
- Python 网络
- Python-网络
- Python-套接字编程
- Python-URL 处理
- Python - 泛型
- Python 杂项
- Python - 日期和时间
- Python - 数学
- Python - 迭代器
- Python - 生成器
- Python - 闭包
- Python - 装饰器
- Python - 递归
- Python - 正则表达式
- Python-PIP
- Python-数据库访问
- Python - 弱引用
- Python-序列化
- Python - 模板
- Python - 输出格式
- Python-性能测量
- Python-数据压缩
- Python - CGI 编程
- Python - XML 处理
- Python - 图形用户界面编程
- Python - 命令行参数
- Python - 文档字符串
- Python-JSON
- Python-发送电子邮件
- Python - 进一步扩展
- Python - 工具/实用程序
- Python - 图形用户界面
- Python 问题与解答
- Python - 编程示例
- Python - 快速指南
- Python - 有用的资源
- Python - 讨论
Python-URL 处理
在互联网世界中,不同的资源是通过URL(统一资源定位符)来标识的。与 Python 标准库捆绑在一起的 urllib 包提供了几个处理 URL 的实用程序。它具有以下模块 -
urllib.parse模块用于将 URL 解析为各个部分。
urllib.request模块包含打开和读取 URL 的函数
urllib.error模块包含 urllib.request 引发的异常的定义
urllib.robotparser模块解析 robots.txt 文件
urllib.parse 模块
该模块充当从 URL 字符串获取各个部分的标准接口。该模块包含以下功能 -
urlparse(url字符串)
将 URL 解析为六个组成部分,返回一个包含 6 项的名为元组。每个元组项都是一个对应于以下属性的字符串 -
属性 | 指数 | 价值 |
---|---|---|
方案 | 0 | URL 方案说明符 |
网络锁 | 1 | 网络位置部分 |
小路 | 2 | 分层路径 |
参数 | 3 | 最后一个路径元素的参数 |
询问 | 4 | 查询组件 |
分段 | 5 | 片段标识符 |
用户名 | 用户名 | |
密码 | 密码 | |
主机名 | 主机名(小写) | |
港口 | 整数形式的端口号(如果存在) |
例子
from urllib.parse import urlparse url = "https://example.com/employees/name/?salary>=25000" parsed_url = urlparse(url) print (type(parsed_url)) print ("Scheme:",parsed_url.scheme) print ("netloc:", parsed_url.netloc) print ("path:", parsed_url.path) print ("params:", parsed_url.params) print ("Query string:", parsed_url.query) print ("Frgment:", parsed_url.fragment)
它将产生以下输出-
<class 'urllib.parse.ParseResult'> Scheme: https netloc: example.com path: /employees/name/ params: Query string: salary>=25000 Frgment:
解析_qs(qs))
该函数解析作为字符串参数给出的查询字符串。数据作为字典返回。字典键是唯一的查询变量名称,值是每个名称的值列表。
要进一步将查询字符串中的查询参数提取到字典中,请使用 ParseResult 对象的查询属性的 parse_qs() 函数,如下所示 -
例子
from urllib.parse import urlparse, parse_qs url = "https://example.com/employees?name=Anand&salary=25000" parsed_url = urlparse(url) dct = parse_qs(parsed_url.query) print ("Query parameters:", dct)
它将产生以下输出-
Query parameters: {'name': ['Anand'], 'salary': ['25000']}
urlsplit(url字符串)
这与 urlparse() 类似,但不会将参数从 URL 中分离出来。如果需要允许将参数应用于 URL 路径部分的每个段的更新的 URL 语法,通常应使用此函数来代替 urlparse()。
urlunparse(部分)
该函数与 urlparse() 函数相反。它根据 urlparse() 返回的元组构造 URL。parts 参数可以是任何六项可迭代。这会返回一个等效的 URL。
例子
from urllib.parse import urlunparse lst = ['https', 'example.com', '/employees/name/', '', 'salary>=25000', ''] new_url = urlunparse(lst) print ("URL:", new_url)
它将产生以下输出-
URL: https://example.com/employees/name/?salary>=25000
urlunsplit(部分)
将 urlsplit() 返回的元组元素组合成完整的 URL 作为字符串。parts 参数可以是任何可迭代的五项。
urllib.request 模块
该模块定义了有助于打开 URL 的函数和类
urlopen() 函数
该函数打开给定的 URL,该 URL 可以是字符串,也可以是 Request 对象。可选的 timeout 参数指定阻塞操作的超时时间(以秒为单位)。这实际上仅适用于 HTTP、HTTPS 和 FTP 连接。
此函数始终返回一个可以用作上下文管理器的对象,并具有 url、headers 和 status 属性。
对于 HTTP 和 HTTPS URL,此函数返回一个稍作修改的 http.client.HTTPResponse 对象。
例子
以下代码使用 urlopen() 函数从图像文件中读取二进制数据,并将其写入本地文件。您可以使用任何图像查看器在计算机上打开图像文件。
from urllib.request import urlopen obj = urlopen("https://www.tutorialspoint.com/static/images/simply-easy-learning.jpg") data = obj.read() img = open("img.jpg", "wb") img.write(data) img.close()
它将产生以下输出-
请求对象
urllib.request 模块包含 Request 类。此类是 URL 请求的抽象。构造函数需要一个强制字符串参数和一个有效的 URL。
句法
urllib.request.Request(url, data, headers, origin_req_host, method=None)
参数
url - 有效 URL 的字符串
data - 指定要发送到服务器的附加数据的对象。该参数只能用于 HTTP 请求。数据可以是字节、类文件对象和类字节对象的可迭代对象。
headers - 应该是标题及其关联值的字典。
origin_req_host - 应该是原始交易的请求主机
method - 应该是一个表示 HTTP 请求方法的字符串。GET、POST、PUT、DELETE 和其他 HTTP 动词之一。默认为 GET。
例子
from urllib.request import Request obj = Request("https://www.tutorialspoint.com/")
此 Request 对象现在可以用作 urlopen() 方法的参数。
from urllib.request import Request, urlopen obj = Request("https://www.tutorialspoint.com/") resp = urlopen(obj)
urlopen() 函数返回一个 HttpResponse 对象。调用其 read() 方法可获取给定 URL 处的资源。
from urllib.request import Request, urlopen obj = Request("https://www.tutorialspoint.com/") resp = urlopen(obj) data = resp.read() print (data)
发送数据
如果您为 Request 构造函数定义 data 参数,则 POST 请求将发送到服务器。数据应该是以字节表示的任何对象。
例子
from urllib.request import Request, urlopen from urllib.parse import urlencode values = {'name': 'Madhu', 'location': 'India', 'language': 'Hindi' } data = urlencode(values).encode('utf-8') obj = Request("https://example.com", data)
发送标头
Request 构造函数还接受标头参数以将标头信息推送到请求中。它应该在字典对象中。
headers = {'User-Agent': user_agent} obj = Request("https://example.com", data, headers)
urllib.error 模块
urllib.error 模块中定义了以下异常 -
网址错误
引发 URLError 的原因是没有网络连接(没有到指定服务器的路由),或者指定的服务器不存在。在这种情况下,引发的异常将具有“原因”属性。
例子
from urllib.request import Request, urlopen import urllib.error as err obj = Request("http://www.nosuchserver.com") try: urlopen(obj) except err.URLError as e: print(e)
它将产生以下输出-
HTTP Error 403: Forbidden
HTTP错误
每次服务器发送 HTTP 响应时,它都会与一个数字“状态代码”相关联。它的代码指示服务器无法满足请求的原因。默认处理程序将为您处理其中一些响应。对于无法处理的情况,urlopen() 函数会引发 HTTPError。HTTPError 的典型示例是“404”(未找到页面)、“403”(请求被禁止)和“401”(需要身份验证)。
例子
from urllib.request import Request, urlopen import urllib.error as err obj = Request("http://www.python.org/fish.html") try: urlopen(obj) except err.HTTPError as e: print(e.code)
它将产生以下输出-
404