‘壹’ 请你谈谈关于IO同步、异步、阻塞、非阻塞的区别
同步(synchronous)IO和异步(asynchronous)IO,阻塞(blocking) IO和非阻塞(non-blocking)IO的区别是什么?本文将从Linux环境下的network IO背景出发,参考Richard Stevens的“UNIX® Network Programming Volume 1, Third Edition: The Sockets Networking”中的相关内容,详细解释这四种IO模型的特点和区别。
在深入讨论之前,重要的是明确本文的讨论上下文为Linux环境下的network IO。
根据Richard Stevens的解释,本文将对比五种IO模型,而由于信号驱动IO在实际应用中不常用,本文将仅讨论剩下的四种:同步(synchronous)IO、异步(asynchronous)IO、阻塞(blocking)IO和非阻塞(non-blocking)IO。
在network IO过程中,涉及的对象主要有两个:一个是由用户进程调用IO操作的系统对象(如进程或线程),另一个是系统内核(kernel)。一个read操作通常会经历两个阶段:准备数据阶段和拷贝数据阶段。
接下来,我们将依次介绍这四种IO模型的特点和区别。
阻塞(blocking)IO
在Linux中,默认情况下,所有的socket都是阻塞的。一个典型的读操作流程如下:用户进程调用recvfrom系统调用时,内核开始准备数据阶段。如果数据尚未到达,内核将进入等待状态,而用户进程同样会被阻塞。当数据准备完毕后,内核将数据从内核复制到用户内存中,然后返回结果,用户进程解除阻塞状态,重新执行。
因此,阻塞IO的主要特点是在两个阶段均被阻塞。
非阻塞(non-blocking)IO
在Linux环境下,可以通过设置socket使其变为非阻塞。当对一个非阻塞socket执行读操作时,流程如下:如果内核中的数据尚未准备好,它不会阻塞用户进程,而是立即返回错误。用户进程在发起read操作后,不需要等待,立刻得到结果。用户进程判断结果为错误时,知道数据还未准备好,可以再次发送read操作。一旦数据准备完毕并再次收到系统调用,内核将数据复制到用户内存并返回。
用户进程需要主动询问内核数据是否准备就绪。
IO多路复用(IO multiplexing)
IO多路复用(如select或epoll)允许单个进程同时处理多个网络连接的IO。其基本原理是内核持续监视所有连接,一旦有数据到达,就通知用户进程。流程如下:用户进程调用select时,整个进程被阻塞,而内核则监视所有select负责的socket。当任何一个socket的数据准备好时,select返回。用户进程再次调用read操作,从内核复制数据到用户进程。
与阻塞IO相比,多路复用IO需要两次系统调用(select和recvfrom),而不是一次。然而,其优势在于能同时处理多个连接。
需要注意的是,实际应用中,即使使用多路复用IO,通常也设置每个socket为非阻塞,但进程被select函数阻塞,而非被socket IO阻塞。
异步(asynchronous)IO
Linux下的异步IO应用较少。其流程如下:用户进程发起read操作后,立即开始执行其他任务。另一方面,内核收到异步读请求后,立即返回,不阻塞进程。内核等待数据准备完成,将数据复制到用户内存中后,通过发送信号通知用户进程读操作已完成。
异步IO的主要区别在于:在执行IO操作时不会阻塞进程,直到内核发送信号通知操作完成。
这四种IO模型之间的主要区别在于阻塞与非阻塞、同步与异步以及处理方式的不同。非阻塞IO允许进程在数据未准备好时继续执行,而阻塞IO则需要等待操作完成。同步IO在执行过程中会阻塞进程,而异步IO则在执行后立即返回,直到完成时通知进程。