Python面试题系列之03 进程、线程、协程

Python面试题系列之03: 谈谈你对进程,线程,协程的理解?

Question

谈谈你对进程线程协程的理解?

知识点详解

一个小故事

我们先从一个故事讲起。从前有座山,山上有座庙,庙里……

有兄弟俩,估且称他们旺财和小强吧,旺财和小强是两个很庞大的程序,每个都是十几万行的代码量级。 他们两个的人生价值就是到CPU上去运行,把运行结果告诉人类。

CPU是稀缺资源,只有一个,他们俩必须排着队,轮流使用。旺财从头到尾执行结束后,让出CPU, 让小强从头开始去执行。

人类把这种处理方式叫做批处理

长久以来,两人相安无事。 后来CPU的速度越来越快, 远远超过了内存,硬盘的速度。人类想到,这批处理系统的效率有点低啊,你看当小强需要从硬盘上读取数据的时候,CPU也一直在等待,这是多大的浪费啊!这时候完全可以让旺财来运行一下嘛!

当然得保存好小强的执行现场:具体执行到那一行程序指令了,函数调用到什么层次了,每个函数调用都有什么样的参数,CPU寄存器中的值….. 等等一系列东西。

如果不把小强的执行现场给保存下来,等到小强的数据从银盘读完了,就没法回到中断处来继续执行了。

这个执行现场再加上小强的代码,就是一个执行中的程序,被称为“进程” 。

旺财和小强在运行的时候,也被改造成了进程。

人类还规定:进程不能长时间占据CPU, 只能在CPU上执行一小会儿,然后马上切换到别的进程去执行。

旺财和小强不以为意:不就是执行一会儿,歇一会儿,然后继续执行嘛!

但是他们不知道的是,由于CPU运行速度超快,旺财和小强虽然在不断地切换运行,在人类那缓慢的世界里看来,旺财和小强好像是同时在执行一样。 这就是并发


(在人类看来,小强和旺财似乎是在同时执行)

多年以后,他们俩才真正地实现了并行: 在一个豪华电脑中,每人都被分配了一个CPU , 真正地同时执行, 这是后话了。

这时候旺财已经有了界面,还能访问网络,每当它联网的时候(这也是个非常非常耗时的操作),就得把CPU让给小强。

即使旺财再次被调度执行,由于网络数据还没有返回,他必须等待,什么事情都做不了,在人类看来,界面根本无法操作,旺财不响应了! 气得人类经常把旺财 kill 掉。

旺财心里苦,他很纳闷小强怎么就没有问题,小强不是要读写硬盘吗? 那也是很慢的操作啊。

小强说:“你傻啊,内部只有一个执行的流程,一遇到耗时的操作就得等待,你看看我,内部搞了两个执行流程(线程),一个用来读写硬盘(T1),另外一个处理界面(T2)。我和操作系统商量好了,如果T1在读写硬盘, 就可以调度我的T2来执行,这样界面至少还可以操作。 ”

旺财觉得很有意思,也采用了类似办法。于是,一个进程中至少有一个执行的流程(主线程),也可以开启新的执行流程(线程)。线程变成了最小的调度单位。

这一天,旺财被一个叫做生产者和消费者的问题折腾地死去活来,两个线程,一个线程向队列中放数据,另外一个从队列中取数据,处理起两个线程的协作就显得很麻烦,不但需要加锁,还得做好线程的通知和等待。

正在感慨多线程编程之难的时候, 旺财震惊地发现,小强用了一个极为简单的办法把生产者,消费者问题给解决了。代码如下:

# 生产者
def producer(c):   
    # 其他代码  
    while True:          
        value = ...生成数据...
        c.send(value)

# 消费者
def consumer():    
    # 其他代码      
    while True:
        value = yield 
        print(value)

c = consumer()
producer(c)

“这….这怎么执行啊,那个yield是怎么回事?” 旺财表示不解。

“简单啊,你看那个生产者,是不是向消费者发送了数据? ” 小强说。

“对啊,然后呢,生产者发送了数据以后,会马上进行下一轮循环吗?”

“这就是关键所在了,”小强说,“ 它们是这么执行的:”

  1. 生产者发送数据,暂停运行,不进行下一轮循环
  2. 消费者其实一直在value = yield 那里等待,直到数据到来,现在数据来了,取出处理(value就是生产者发送过来的数据)。
  3. 消费者在循环中再次yield, 暂停执行。
  4. 生产者继续下一轮的循环,生成新的消息,发送给消费者。

旺财觉得很吃惊,小强竟然可以让一个正在执行的程序暂停,他不由得问道:“你这个暂停是真的停止了了,还是说只是像Java的yield那样,让出CPU进入了就绪状态? 等待下次调度运行?”

“是真的暂停了,程序就停在那里,等待运行控制权从对方那里转移过来。”

“这不是操作系统干的事情吗? ” 旺财更加吃惊了。

“正是这样,” 小强得意地说:“我打算把类似生产者,消费者这样的代码称为‘协程’, 这个协程有个重要的特点,就是完全被我所调度和掌控, 不用操作系统介入。”

“这个协程和线程似乎很像啊。每次协程停止执行的时候,也得保存现场,要不然没法恢复执行。” 旺财说。

“是啊,只是他们比线程更加轻量级,操作系统内核不用参与,相当于用户态线程了,协程的开销极小,可以轻松地创建大量的协程来做事情。 对了,也许你注意到了,我这两个协程是’合作式‘的,它们两个同一时刻只能有一个在运行。 实际上,我在底层可以用一个线程去执行这两个协程。 ”

旺财表示同意:“不错,既然两个程序可以’合作’,那就不用加锁了,也不用在代码里写什么wait和notify了,在程序层面,可以用同步的方式实现异步的功能了! 代码很清晰,我也搞个协程来玩玩吧!”

[本故事引自微信公共号 - 码农翻身]

故事讲完了,接下来看看具体的概念吧!

进程
进程是对资源进行分配和调度的最小单位,是操作系统结构的基础,是线程的容器(就像是一幢房子,一个空壳子,并不能运动)。

线程的概念主要有两点:

进程是一个实体,每个进程都有自己的地址空间,一般包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。
文本区域存储处理器执行的代码;
数据区域存储变量和进程在执行期间所使用的动态分配的内存;
堆栈区域存储在活动过程中所调用的指令和本地变量。
进程是一个“执行中的程序”。程序是一个没有生命的实体,只有在操作系统调用时,他才会成为一个活动的实体:进程。

线程
线程被称为轻量级进程,是操作系统能够运算调度的最小单位,线程被包含在进程中,是进程中实际处理单位。

一个标准的线程由线程ID当前指令指针(PC)寄存器集合和堆栈组成。另外,线程是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点儿在运行中必不可少的资源,但它可与同属一个 进程的其它线程共享进程所拥有的全部资源。

一个线程可以创建和撤消另一个线程,同一进程中的多个线程之间可以并发执行。由于线程之间的相互制约,致使线程在运行中呈现出间断性。

线程也有就绪、阻塞和运行三种基本状态。

就绪状态是指线程具备运行的所有条件,逻辑上可以运行,在等待处理机;
运行状态是指线程占有处理机正在运行;
阻塞状态是指线程在等待一个事件(如某个信号量),逻辑上不可执行。
每一个程序都至少有一个线程,若程序只有一个线程,那就是程序本身。

进程与线程的区别
进程是资源分配的最小单位,线程是系统调度(程序执行)的最小单位。
进程有自己独占的地址空间,每启动一个进程,系统就需要为它分配地址空间;
而一个进程下所有线程共享该进程的所有资源,使用相同的地址空间,因此CPU在线程之间切换远远比在进城之间切换花费小,而且创建一个线程的开销也远远比开辟一个进程小得多。
线程之间通信更加方便,同一进程下所有线程共享全局变量、静态变量等数据。而进程之间通信需要借助第三方。
线程只能归属于一个进程并且它只能访问该进程所拥有的资源。当操作系统创建一个进程后,该进程会自动申请一个名为主线程或首要线程的线程。
处理IO密集型任务或函数用线程;处理计算密集型任务或函数用进程。

协程
协程又叫微线程,一个程序可以包含多个协程,就好比一个进程包含多个线程。协程的调度完全由用户控制。

协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈,直接操作栈则基本没有内核切换的开销,可以不加锁的访问全局变量,所以上下文的切换非常快。

协程和线程的阻塞是有本质区别的。协程的暂停完全由程序控制,线程的阻塞状态是由操作系统内核来进行切换。因此,协程的开销远远小于线程的开销。

线程和协程的区别
一个线程可以多个协程,一个进程也可以单独拥有多个协程,这样python中则能使用多核CPU。
线程进程都是同步机制,而协程则是异步。
协程能保留上一次调用时的状态,每次过程重入时,就相当于进入上一次调用的状态。

Answer

进程
一个运行的程序(代码)就是一个进程,没有运行的代码叫程序,进程是系统资源分配的最小单位,进程拥有自己独立的内存空间,所以进程间数据不共享,开销大。

线程
调度执行的最小单位,也叫执行路径,不能独立存在,依赖进程存在。一个进程至少有一个线程,叫主线程,而多个线程共享内存(数据共享,共享全局变量),从而极大地提高了程序的运行效率。

协程
是一种用户态的轻量级线程,协程的调度完全由用户控制。协程拥有自己的寄存器上下文和栈。 协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈,直接操作栈则基本没有内核切换的开销,可以不加锁的访问全局变量,所以上下文的切换非常快。

后记

好了,故事讲完了、概念介绍了、三者的区别也给大家列举了。想必大家对进程、线程、协程已经有了很深的印象,最后再通过这张图回顾下,欢迎大家在评论区留言说出自己的对进程、线程、协程的理解。

好了,以上就是本篇全部内容。

备注:本篇首发于知识星球「人人都是Pythonista」。


文章作者: &娴敲棋子&
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 &娴敲棋子& !
评论
  目录