进程,线程与协程这三者之间的关系是个很经典的问题。
操作系统中也会单独拿出一章来详细阐述这几个概念,但大部分教材只是浅尝辄止,给人一种知其然而不知其所以然的感觉
这里重新回顾一下。下图简单明了的展示了三者之间的关系。
1 进程(process)
1.1 定义
进程是操作系统进行资源分配和调度的基本单位
躺在硬盘上的程序也就是程序的可执行文件,是程序的静态表示。当这个程序被操作系统加载到内存中并开始执行时,它才成为一个进程。
所以说进程是程序的一次执行过程,它包括程序的代码、当前的活动以及用到的数据。
1.2 进程状态
根据唯物辩证法,世界是物质的,物质是运动的,而运动是有规律的。因此进程作为程序动态执行的过程,根据不同情况,它有不同的状态,也有规律可循。
一般将进程分为如下五种状态:
- new :该进程正在产生中
- ready :该进程正在等待 CPU 分配资源,只要一拿到资源就可以马上执行
- running :该进程取得 CPU 资源并且执行中
- waiting :该进程在等待某个事件的发生,可能是等待 I/O 设备输入输出完成或者是接收到一个信号,也可以想成是被 block (阻塞) 住
- exit :该进程完成工作,将资源释放掉
1.3 进程的优缺点
优点:相对比较稳定安全,因为进程是操作系统进行资源分配和调度的基本单位,所以每一个进程都拥有独立的系统资源,进程间不容易相互影响,而且因为不会共享data的问题,所以无须对进程作互斥存取之机制。
缺点:进程的建立及切换(context switching)的开销都比较大,因为涉及到OS资源的切换,彼此进程间要通信也比较复杂及耗时。
2 线程(thread)
2.1 定义
线程又叫做是 light weight process,也就是轻量化的 Process。
进程会去执行任务,其实就是进程里面的线程去做的,所以没有进程就没有线程。 而当一个进程里面有多线程,就代表在一个程序中通过开启多个线程的方式来完成不同的任务,因此线程是CPU调度的最小单位。 此外,在一个进程里面的多个线程会共享进程的系统资源。
一个关于进程和线程的形象类比如下
- 计算机的核心是 CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。
- 假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间都必须停工。背后的含义就是,单个 CPU 一次只能运行一个任务。
- 进程就好比工厂的车间,它代表 CPU 所能处理的单个任务。任一时刻,CPU 总是运行一个进程,其他进程处于非运行状态。
- 一个车间里,可以有很多工人。他们协同完成一个任务。
- 线程就好比车间里的工人。一个进程可以包括多个线程。
- 车间的空间是工人们共享的,比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的,每个线程都可以使用这些共享内存。
- 可是,每间房间的大小不同,有些房间最多只能容纳一个人,比如厕所。里面有人的时候,其他人就不能进去了。这代表一个线程使用某些共享内存时,其他线程必须等它结束,才能使用这一块内存。
- 一个防止他人进入的简单方法,就是门口加一把锁。先到的人锁上门,后到的人看到上锁,就在门口排队,等锁打开再进去。这就叫“互斥锁”(Mutual Exclusion,Mutex),防止多个线程同时读写某一块内存区域。
- 还有些房间,可以同时容纳 𝑛个人,比如厨房。也就是说,如果人数大于𝑛 ,多出来的人只能在外面等着。这好比某些内存区域,只能供给固定数目的线程使用。
- 这时的解决方法,就是在门口挂 𝑛 把钥匙。进去的人就取一把钥匙,出来时再把钥匙挂回原处。后到的人发现钥匙架空了,就知道必须在门口排队等着了。这种做法叫做“信号量”(Semaphore),用来保证多个线程不会互相冲突。不难看出,Mutex 是 Semaphore 的一种特殊情况( 𝑛=1 时)。也就是说,完全可以用后者替代前者。但是,因为 Mutex 较为简单,且效率高,所以在必须保证资源独占的情况下,还是采用这种设计。
- 操作系统的设计,因此可以归结为三点:(1). 以多进程形式,允许多个任务同时运行;(2). 以多线程形式,允许单个任务分成不同的部分运行;(3). 提供协调机制,一方面防止进程之间和线程之间产生冲突,另一方面允许进程之间和线程之间共享资源。