找回密码
 会员注册
查看: 52|回复: 0

深入学习IO多路复用selectpollepoll实现原理

[复制链接]

2

主题

0

回帖

7

积分

新手上路

积分
7
发表于 2024-9-21 04:02:32 | 显示全部楼层 |阅读模式
作者:mingguangtu,腾讯IEG后台开发工程师select/poll/epoll是Linux服务器提供的三种处理高并发网络请求的IO多路复用技术,是个老生常谈又不容易弄清楚其底层原理的知识点,本文打算深入学习下其实现机制。Linux服务器处理网络请求有三种机制,select、poll、epoll,本文打算深入学习下其实现原理。吃水不忘挖井人,最近两周花了些时间学习了张彦飞大佬的文章图解|深入揭秘epoll是如何实现IO多路复用的和其他文章,及出版的书籍《深入理解Linux网络》,对阻塞IO、多路复用、epoll等的实现原理有了一定的了解;飞哥的文章描述底层源码逻辑比较清晰,就是有时候归纳总结事情本质的抽象程度不够,涉及内核源码细节的讲述较多,会让读者产生一定的学习成本,本文希望在这方面改进一下。0.结论本文其他的内容主要是得出了下面几个结论:服务器要接收客户端的数据,要建立socket内核结构,主要包含两个重要的数据结构,(进程)等待队列,和(数据)接收队列,socket在进程中作为一个文件,可以用文件描述符fd来表示,为了方便理解,本文中,socket内核对象≈fd文件描述符≈TCP连接;阻塞IO的主要逻辑是:服务端和客户端建立了连接socket后,服务端的用户进程通过recv函数接收数据时,如果数据没有到达,则当前的用户进程的进程描述符和回调函数会封装到一个进程等待项中,加入到socket的进程等待队列中;如果连接上有数据到达网卡,由网卡将数据通过DMA控制器拷贝到内核内存的RingBuffer中,并向CPU发出硬中断,然后,CPU向内核中断进程ksoftirqd发出软中断信号,内核中断进程ksoftirqd将内核内存的RingBuffer中的数据根据数据报文的IP和端口号,将其拷贝到对应socket的数据接收队列中,然后通过socket的进程等待队列中的回调函数,唤醒要处理该数据的用户进程;阻塞IO的问题是:一次数据到达会进行两次进程切换,一次数据读取有两处阻塞,单进程对单连接;非阻塞IO模型解决了“两次进程切换,两处阻塞,单进程对单连接”中的“两处阻塞”问题,将“两处阻塞”变成了“一处阻塞”,但依然存在“两次进程切换,一处阻塞,单进程对单连接”的问题;用一个进程监听多个连接的IO多路复用技术解决了“两次进程切换,一处阻塞,单进程对单连接”中的“两次进程切换,单进程对单连接”,剩下了“一处阻塞”,这是Linux中同步IO都会有的问题,因为Linux没有提供异步IO实现;Linux的IO多路复用用三种实现:select、poll、epoll。select的问题是:a)调用select时会陷入内核,这时需要将参数中的fd_set从用户空间拷贝到内核空间,高并发场景下这样的拷贝会消耗极大资源;(epoll优化为不拷贝)b)进程被唤醒后,不知道哪些连接已就绪即收到了数据,需要遍历传递进来的所有fd_set的每一位,不管它们是否就绪;(epoll优化为异步事件通知)c)select只返回就绪文件的个数,具体哪个文件可读还需要遍历;(epoll优化为只返回就绪的文件描述符,无需做无效的遍历)d)同时能够监听的文件描述符数量太少,是1024或2048;(poll基于链表结构解决了长度限制)poll只是基于链表的结构解决了最大文件描述符限制的问题,其他select性能差的问题依然没有解决;终极的解决方案是epoll,解决了select的前三个缺点;epoll的实现原理看起来很复杂,其实很简单,注意两个回调函数的使用:数据到达socket的等待队列时,通过回调函数ep_poll_callback找到eventpoll对象中红黑树的epitem节点,并将其加入就绪列队rdllist,然后通过回调函数default_wake_function唤醒用户进程,并将rdllist传递给用户进程,让用户进程准确读取就绪的socket的数据。这种回调机制能够定向准确的通知程序要处理的事件,而不需要每次都循环遍历检查数据是否到达以及数据该由哪个进程处理,日常开发中可以学习借鉴下这种思想。1.Linux怎样处理网络请求1.1阻塞IO要讲IO多路复用,最好先把传统的同步阻塞的网络IO的交互方式剖析清楚。如果客户端想向Linux服务器发送一段数据,C语言的实现方式是:int main(){     int fd = socket();      // 创建一个网络通信的socket结构体     connect(fd, ...);       // 通过三次握手跟服务器建立TCP连接     send(fd, ...);          // 写入数据到TCP连接     close(fd);              // 关闭TCP连接}服务端通过如下C代码接收客户端的连接和发送的数据:int main(){     fd = socket(...);        // 创建一个网络通信的socket结构体     bind(fd, ...);           // 绑定通信端口     listen(fd, 128);         // 监听通信端口,判断TCP连接是否可以建立     while(1) {         connfd = accept(fd, ...);              // 阻塞建立连接         int n = recv(connfd, buf, ...);        // 阻塞读数据         doSomeThing(buf);                      // 利用读到的数据做些什么         close(connfd);                         // 关闭连接,循环等待下一个连接    }}把服务端处理请求的细节展开,得到如下图所示的同步阻塞网络IO的数据接收流程:图1.1同步阻塞网络IO的数据接收流程主要步骤是:1)服务端通过socket()函数陷入内核态进行socket系统调用,该内核函数会创建socket内核对象,主要有两个重要的结构体,(进程)等待队列,和(数据)接收队列,为了方便理解,等待队列前可以加上进程二字,其实不加更准确,接收队列同样;进程等待队列,存放了服务端的用户进程A的进程描述符和回调函数;socket的数据接收队列,存放网卡接收到的该socket要处理的数据;2)进程A调用recv()函数接收数据,会进入到recvfrom()系统调用函数,发现socket的数据等待队列没有它要接收的数据到达时,进程A会让出CPU,进入阻塞状态,进程A的进程描述符和它被唤醒用到的回调函数callbackfunc会组成一个结构体叫等待队列项,放入socket的进程等待队列;3)客户端的发送数据到达服务端的网卡;4)网卡首先会将网络传输过来的数据通过DMA控制程序复制到内存环形缓冲区RingBuffer中;5)网卡向CPU发出硬中断;6)CPU收到了硬中断后,为了避免过度占用CPU处理网络设备请求导致其他设备如鼠标和键盘的消息无法被处理,会调用网络驱动注册的中断处理函数,进行简单快速处理后向内核中断进程ksoftirqd发出软中断,就释放CPU,由软中断进程处理复杂耗时的网络设备请求逻辑;7)内核中断进程ksoftirqd收到软中断信号后,会将网卡复制到内存的数据,根据数据报文的IP和端口号,将其拷贝到对应socket的接收队列;8)内核中断进程ksoftirqd根据socket的数据接收队列的数据,通过进程等待队列中的回调函数,唤醒要处理该数据的进程A,进程A会进入CPU的运行队列,等待获取CPU执行数据处理逻辑;9)进程A获取CPU后,会回到之前调用recvfrom()函数时阻塞的位置继续执行,这时发现socket内核空间的等待队列上有数据,会在内核态将内核空间的socket等待队列的数据拷贝到用户空间,然后才会回到用户态执行进程的用户程序,从而真的解除阻塞;用户进程A在调用recvfrom()系统函数时,有两个阶段都是等待的:在数据没有准备好的时候,进程A等待内核socket准备好数据;内核准备好数据后,进程A继续等待内核将socket等待队列的数据拷贝到自己的用户缓冲区;在内核完成数据拷贝到用户缓冲区后,进程A才会从recvfrom()系统调用中返回,并解除阻塞状态。整体流程如下:图1.2阻塞IO模型在IO阻塞逻辑中,存在下面三个问题:进程在recv的时候大概率会被阻塞掉,导致一次进程切换;当TCP连接上的数据到达服务端的网卡、并从网卡复制到内核空间socket的数据等待队列时,进程会被唤醒,又是一次进程切换;并且,在用户进程继续执行完recvfrom()函数系统调用,将内核空间的数据拷贝到了用户缓冲区后,用户进程才会真正拿到所需的数据进行处理;一个进程同时只能等待一条连接,如果有很多并发,则需要很多进程;总结:一次数据到达会进行两次进程切换,一次数据读取有两处阻塞,单进程对单连接。1.2非阻塞IO为了解决同步阻塞IO的问题,操作系统提供了非阻塞的recv()函数,这个函数的效果是:如果没有数据从网卡到达内核socket的等待队列时,系统调用会直接返回,而不是阻塞的等待。如果我们要产生一个非阻塞的socket,在C语言中如下代码所示:// 创建socketint sock_fd = socket(AF_INET, SOCK_STREAM, 0);...// 更改socket为nonblockfcntl(sock_fd, F_SETFL, fdflags | O_NONBLOCK);// connect....while(1)  {    int recvlen = recv(sock_fd, recvbuf, RECV_BUF_SIZE) ;    ......}...非阻塞IO模型如下图所示:图1.3非阻塞IO模型从上图中,我们知道,非阻塞IO,是将等待数据从网卡到达socket内核空间这一部分变成了非阻塞的,用户进程调用recvfrom()会重复发送请求检查数据是否到达内核空间,如果没有到,则立即返回,不会阻塞。不过,当数据已经到达内核空间的socket的等待队列后,用户进程依然要等待recvfrom()函数将数据从内核空间拷贝到用户空间,才会从recvfrom()系统调用函数中返回。非阻塞IO模型解决了“两次进程切换,两处阻塞,单进程对单连接”中的“两处阻塞”问题,将“两处阻塞”变成了“一处阻塞”,但依然存在“两次进程切换,一处阻塞,单进程对单连接”的问题。1.3IO多路复用要解决“两次进程切换,单进程对单连接”的问题,服务器引入了IO多路复用技术,通过一个进程处理多个TCP连接,不仅降低了服务器处理网络请求的进程数,而且不用在每个连接的数据到达时就进行进程切换,进程可以一直运行并只处理有数据到达的连接,当然,如果要监听的所有连接都没有数据到达,进程还是会进入阻塞状态,直到某个连接有数据到达时被回调函数唤醒。IO多路复用模型如下图所示:图1.4IO多路复用模型从上图可知,系统调用select函数阻塞执行并返回数据就绪的连接个数,然后调用recvfrom()函数将到达内核空间的数据拷贝到用户空间,尽管这两个阶段都是阻塞的,但是由于只会处理有数据到达的连接,整体效率会有极大的提升。到这里,阻塞IO模型的“两次进程切换,两处阻塞,单进程对单连接”问题,通过非阻塞IO和多路复用技术,就只剩下了“一处阻塞”这个问题,即Linux服务器上用户进程一定要等待数据从内核空间拷贝到用户空间,如果这个步骤也变成非阻塞的,也就是进程调用recvfrom后立刻返回,内核自行去准备好数据并将数据从内核空间拷贝到用户空间、再notify通知用户进程去读取数据,那就是IO异步调用,不过,Linux没有提供异步IO的实现,真正意义上的网络异步IO是Windows下的IOCP(IO完成端口)模型,这里就不探讨了。2.详解select、poll、epoll实现原理2.1select实现原理select函数定义Linux提供的select函数的定义如下:int select(    int nfds,                     // 监控的文件描述符集里最大文件描述符加1    fd_set *readfds,              // 监控有读数据到达文件描述符集合,引用类型的参数    fd_set *writefds,             // 监控写数据到达文件描述符集合,引用类型的参数    fd_set *exceptfds,            // 监控异常发生达文件描述符集合,引用类型的参数    struct timeval *timeout);     // 定时阻塞监控时间readfds、writefds、errorfds是三个文件描述符集合。select会遍历每个集合的前nfds个描述符,分别找到可以读取、可以写入、发生错误的描述符,统称为“就绪”的描述符。然后用找到的子集替换这三个引用参数中的对应集合,返回所有就绪描述符的数量。timeout参数表示调用select时的阻塞时长。如果所有fd文件描述符都未就绪,就阻塞调用进程,直到某个描述符就绪,或者阻塞超过设置的timeout后,返回。如果timeout参数设为NULL,会无限阻塞直到某个描述符就绪;如果timeout参数设为0,会立即返回,不阻塞。文件描述符fd文件描述符(filedescriptor)是一个非负整数,从0开始。进程使用文件描述符来标识一个打开的文件。Linux中一切皆文件。系统为每一个进程维护了一个文件描述符表,表示该进程打开文件的记录表,而文件描述符实际上就是这张表的索引。每个进程默认都有3个文件描述符:0(stdin)、1(stdout)、2(stderr)。socketsocket可以用于同一台主机的不同进程间的通信,也可以用于不同主机间的通信。操作系统将socket映射到进程的一个文件描述符上,进程就可以通过读写这个文件描述符来和远程主机通信。socket是进程间通信规则的高层抽象,而fd提供的是底层的具体实现。socket与fd是一一对应的。通过socket通信,实际上就是通过文件描述符fd读写文件。本文中,为了方便理解,可以认为socket内核对象≈fd文件描述符≈TCP连接。fd_set文件描述符集合select函数参数中的fd_set类型表示文件描述符的集合。由于文件描述符fd是一个从0开始的无符号整数,所以可以使用fd_set的二进制每一位来表示一个文件描述符。某一位为1,表示对应的文件描述符已就绪。比如比如设fd_set长度为1字节,则一个fd_set变量最大可以表示8个文件描述符。当select返回fd_set=00010011时,表示文件描述符1、2、5已经就绪。fd_set的APIfd_set的使用涉及以下几个API:#include int FD_ZERO(int fd, fd_set *fdset);  // 将 fd_set 所有位置 0int FD_CLR(int fd, fd_set *fdset);   // 将 fd_set 某一位置 0int FD_SET(int fd, fd_set *fd_set);  // 将 fd_set 某一位置 1int FD_ISSET(int fd, fd_set *fdset); // 检测 fd_set 某一位是否为 1select监听多个连接的用法服务端使用select监控多个连接的C代码是:#define MAXCLINE 5       // 连接队列中的个数int fd[MAXCLINE];        // 连接的文件描述符队列int main(void){      sock_fd = socket(AF_INET,SOCK_STREAM,0)          // 建立主机间通信的 socket 结构体      .....      bind(sock_fd, (struct sockaddr *)&server_addr, sizeof(server_addr);         // 绑定socket到当前服务器      listen(sock_fd, 5);  // 监听 5 个TCP连接      fd_set fdsr;         // bitmap类型的文件描述符集合,01100 表示第1、2位有数据到达      int max;      for(i = 0; i 
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-28 08:09 , Processed in 0.495594 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表