Python 中的并发 - 线程
一般来说,我们知道线是一种非常细的绞合线,通常由棉或丝织物制成,用于缝制衣服等。计算机编程领域也使用同一术语“线程”。现在,我们如何将用于缝纫衣服的线和用于计算机编程的线联系起来?这里两个线程执行的角色是相似的。在衣服中,线将布料固定在一起,而在另一面,在计算机编程中,线保持计算机程序并允许程序执行顺序动作或同时执行多个动作。
线程是操作系统中最小的执行单元。它本身不是一个程序,而是在一个程序内运行。换句话说,线程之间并不是相互独立的,而是与其他线程共享代码段、数据段等。这些线程也称为轻量级进程。
线程状态
为了深入理解线程的功能,我们需要了解线程的生命周期或不同的线程状态。通常,线程可以存在五种不同的状态。不同的状态如下所示 -
新线程
新线程在新状态下开始其生命周期。然而,现阶段它还没有启动,也没有分配任何资源。我们可以说它只是一个对象的实例。
可运行
当新出生的线程启动时,该线程变得可运行,即等待运行。在这种状态下,它拥有所有资源,但任务调度程序尚未调度它运行。
跑步
在此状态下,线程取得进展并执行任务调度程序选择运行的任务。现在,线程可以进入死亡状态或不可运行/等待状态。
非运行/等待
在此状态下,线程被暂停,因为它要么等待某些 I/O 请求的响应,要么等待其他线程执行完成。
死的
可运行线程在完成其任务或以其他方式终止时进入终止状态。
下图显示了线程的完整生命周期 -
螺纹类型
在本节中,我们将看到不同类型的线程。类型描述如下 -
用户级线程
这些是用户管理的线程。
在这种情况下,线程管理内核并不知道线程的存在。线程库包含用于创建和销毁线程、在线程之间传递消息和数据、调度线程执行以及保存和恢复线程上下文的代码。应用程序以单线程启动。
用户级线程的示例是 -
- Java线程
- POSIX 线程
用户级线程的优点
以下是用户级线程的不同优点 -
- 线程切换不需要内核模式权限。
- 用户级线程可以在任何操作系统上运行。
- 调度可以是用户级线程中特定于应用程序的。
- 用户级线程的创建和管理速度很快。
用户级线程的缺点
以下是用户级线程的不同缺点 -
- 在典型的操作系统中,大多数系统调用都是阻塞的。
- 多线程应用程序无法利用多处理。
内核级线程
操作系统管理的线程作用于内核,内核是操作系统的核心。
在这种情况下,内核进行线程管理。应用程序区域没有线程管理代码。内核线程由操作系统直接支持。任何应用程序都可以编程为多线程。单个进程支持应用程序中的所有线程。
内核维护整个进程以及进程内各个线程的上下文信息。内核的调度是在线程的基础上完成的。内核在内核空间中执行线程的创建、调度和管理。内核线程的创建和管理速度通常比用户线程慢。内核级线程的示例是 Windows、Solaris。
内核级线程的优点
以下是内核级线程的不同优点 -
内核可以在多个进程上同时调度来自同一进程的多个线程。
如果进程中的一个线程被阻塞,内核可以调度同一进程的另一个线程。
内核例程本身可以是多线程的。
内核级线程的缺点
内核线程的创建和管理速度通常比用户线程慢。
将控制从同一进程中的一个线程转移到另一个线程需要切换到内核的模式。
线程控制块-TCB
线程控制块(TCB)可以定义为操作系统内核中主要包含线程信息的数据结构。TCB 中存储的线程特定信息将突出显示有关每个进程的一些重要信息。
考虑与 TCB 中包含的线程相关的以下几点 -
线程标识- 它是分配给每个新线程的唯一线程 ID (tid)。
线程状态- 它包含与线程状态(运行、可运行、非运行、死亡)相关的信息。
程序计数器(PC) - 它指向线程的当前程序指令。
寄存器集- 它包含分配给它们用于计算的线程寄存器值。
堆栈指针- 它指向进程中线程的堆栈。它包含线程范围内的局部变量。
指向 PCB 的指针- 它包含指向创建该线程的进程的指针。
进程与线程的关系
在多线程中,进程和线程是两个非常密切相关的术语,它们具有相同的目标,即使计算机能够一次执行多于一件事。一个进程可以包含一个或多个线程,但相反,线程不能包含进程。然而,它们仍然是执行的两个基本单位。执行一系列指令的程序启动进程和线程。
下表显示了进程和线程之间的比较 -
过程 | 线 |
---|---|
进程是重量级的或资源密集型的。 | 线程是轻量级的,它比进程占用更少的资源。 |
进程切换需要与操作系统交互。 | 线程切换不需要与操作系统交互。 |
在多个处理环境中,每个进程执行相同的代码,但拥有自己的内存和文件资源。 | 所有线程可以共享同一组打开的文件、子进程。 |
如果一个进程被阻塞,那么在第一个进程被解除阻塞之前,其他进程都不能执行。 | 当一个线程被阻塞并等待时,同一任务中的第二个线程可以运行。 |
不使用线程的多个进程会使用更多资源。 | 多线程进程使用更少的资源。 |
在多个进程中,每个进程独立于其他进程运行。 | 一个线程可以读取、写入或更改另一线程的数据。 |
如果父进程发生任何变化,则不会影响子进程。 | 如果主线程发生任何变化,则可能会影响该进程的其他线程的Behave。 |
为了与兄弟进程通信,进程必须使用进程间通信。 | 线程可以直接与该进程的其他线程通信。 |
多线程的概念
正如我们之前讨论的,多线程是 CPU 通过同时执行多个线程来管理操作系统使用的能力。多线程的主要思想是通过将一个进程划分为多个线程来实现并行性。更简单地说,多线程就是利用线程的概念来实现多任务的方式。
可以借助以下示例来理解多线程的概念。
例子
假设我们正在运行一个进程。该过程可能是打开 MS Word 来写东西。在这个过程中,一个线程将被分配打开MS字,而另一个线程将被要求写入。现在,假设如果我们想要编辑某些内容,则需要另一个线程来执行编辑任务等等。
下图帮助我们理解内存中如何存在多个线程 -
从上图中我们可以看到,一个进程中可以存在多个线程,其中每个线程都包含自己的寄存器组和局部变量。除此之外,进程中的所有线程共享全局变量。
多线程的优点
现在让我们看看多线程的一些优点。优点如下:
通信速度- 多线程提高了计算速度,因为每个核心或处理器同时处理单独的线程。
程序保持响应- 它允许程序保持响应,因为一个线程等待输入,另一个线程同时运行 GUI。
访问全局变量- 在多线程中,特定进程的所有线程都可以访问全局变量,如果全局变量有任何更改,那么其他线程也可以看到它。
资源利用- 每个程序中运行多个线程可以更好地利用CPU,并且CPU的空闲时间变得更少。
数据共享- 每个线程不需要额外的空间,因为程序中的线程可以共享相同的数据。
多线程的缺点
现在让我们看看多线程的一些缺点。缺点如下:
不适合单处理器系统- 与多处理器系统上的性能相比,多线程很难在单处理器系统上实现计算速度方面的性能。
安全问题- 正如我们所知,程序中的所有线程共享相同的数据,因此始终存在安全问题,因为任何未知的线程都可以更改数据。
复杂性增加- 多线程会增加程序的复杂性,调试变得困难。
导致死锁状态- 多线程可能导致程序面临达到死锁状态的潜在风险。
需要同步- 需要同步以避免互斥。这会导致更多的内存和 CPU 利用率。