目录
零拷贝(Zero Copy)
1.什么是Zero Copy?
零拷贝技术指的是在计算机执行操作时,CPU不需要先将数据从一个内存区域复制到另一个内存区域,从而可以减少上下文以及CPU的拷贝时间。
他的作用是在数据报从网络设备到用户程序空间传递的过程,减少数据拷贝的次数,减少系统调用,实现CPU的零参与,彻底消除CPU在这方面的负载,实现零拷贝的最主要的技术就是DMA数据传输技术和内存区域映射技术。
-
零拷贝就是可以减少数据在用户缓冲区和内核缓冲区之间的反复的I/O拷贝操作。
-
零拷贝机制可以减少用户进程地址空间和内核地址空间之间因为上下文切换带来的CPU开销。
为什么线程切换会导致用户态与内核台的切换? 因为线程的调度是在内核态运行的,而线程中的代码是在用户态运行。
2.物理内存和虚拟内存
由于操作系统的CPU和内存是共享的,因此需要一套完整的内存管理机制防止内存泄漏的问题。现代操作系统提供了一种对主存的抽象概念:既是虚拟内存,虚拟内存为每个进程提供了一个一致的,私有的地址空间,让每个进程都产生了一种自己独享主存的错觉。
3.内核空间和用户空间
操作系统的内核空间是独立于普通的程序的空间,可以访问显卡等受保护的资源也可以访问底层硬件的设备的权限。是为了防止用户直接操作内核,保证系统安全。操作系统将虚拟内存划分为两部分,一部分是内核空间,一部分是用户空间。
Linux系统中,内核模块运行在内核空间,对应的进程处于内核态;用户进程运行在用户空间,对应的进程是用户态。
4.Linux的I/O读写方式
Linux提供了轮询,I/O中断,DMA传输三中国主存之间的数据传输协议。
-
轮询:是基于死循环对I/O端口进行不断检测。
-
I/O中断:是指的是数据到达时,磁盘主动向CPU发起中断请求,CPU自身负责数据的传输。
-
DMA传输:是指数据到达后由DMA负责数据的传输拷贝,完成后通知CPU。
4.1 I/O中断原理
在DMA出现之间,应用程序与磁盘之间的I/O操作都是磁盘发起CPU中断,每次用户进程读取磁盘时,都需要CPU中断,然后发起IO请求等待数据的读取与拷贝完成,每次的IO中断都会导致CPU的上下文切换。(不太理解)
流程:
-
用户进程向CPU发起read()系统调用,由用户态转换为内核态,然后一直阻塞等待数据的返回。
-
CPU发接受到指令后发起IO请求,磁盘将数据放入磁盘控制器缓冲区中。
-
数据准备完成后磁盘向CPU发起IO中断信号。
-
CPU接收到IO中断后将磁盘控制器缓冲区的数据拷贝到内核缓冲区,再将数据从内核缓冲区拷贝到用户缓冲区。
-
用户进程由内核态转换为用户态,解除阻塞状态,等待CPU的下一个执行时间钟。
4.2 DMA传输原理
DMA的全称叫直接内存访问(Direct Memory Access),是一种允许外围设备直接访问主存的机制。也就是说基于DMA访问方式,系统主内存于磁盘和显卡之间的数据传输可以绕开CPU的全程调度,目前大多数硬件设备包括磁盘控制器,网卡,显卡,以及声卡都支持DMA技术.
整个数据在传输操作在一个DMA控制器的控制下进行的。CPU除了在数据开始传输和结束时做一点处理外,在传输的过程中CPU可以继续进行其他工作。这样大部分时间里,CPU计算和I/O操作都属于并行操作。使得效率大大提升。
-
用户态发起read()系统调用,进入内核态,用户态线程阻塞。
-
CPU发起IO请求通知DMA,DMA发起IO请求给磁盘,磁盘将数据加载到磁盘控制器缓冲,通知DMA,DMA将磁盘控制器中的数据拷贝到内核缓冲区中。DMA发出数据读完信号。
-
CPU将数据从内核缓冲区读取到用户缓冲区,之后read()系统调用完之后回到用户态,恢复就绪准备获取时间片后执行。
5.传统I/O方式
对于传统的IO操作的数据读写流程,整个过程涉及2次CPU拷贝,2次DMA拷贝,四次上下文切换。
-
上下文切换:用户程序发起系统调用后,CPU会将用户程序从用户态切换到内核态;系统调用结束返回后,cpu从内核态切换回用户态。
-
CPU拷贝:数据的传输依靠CPU处理,数据拷贝一直占据CPU的资源。
-
DMA拷贝:数据通知DMA磁盘控制器下达指令,让DMA控制器控制数据的传输,数据传输完毕后再把信息反馈给CPU,减轻CPU的占用率。
5.1传统读操作
传统的读操作会进行2次系统调用,1次CPU传输,1次DMA拷贝。
-
用户态通过read系统调用进入内核态,
-
CPU利用DMA控制器,将数据从主存或硬盘拷贝到内核空间的读缓冲区
-
CPU再将读内核缓冲区拷贝到用户缓冲区。
-
上下文切换回到用户态,read调用执行返回。
5.2传统写操作
同理。
6.零拷贝
用户态直接I/O: 应用程序直接访问硬件存储,操作系统只是辅助数据传输,这种方式依旧存在上下文切换,只不过硬件的数据不经过内核缓冲区。因此直接IO不存在内核空间到用户空间的CPU拷贝。
如下图:
减少拷贝次数:在数据传输过程中,避免数据在用户空间和内核空间的CPU拷贝,以及数据在内核空间的CPU拷贝。这时当前主流的零拷贝技术的实现思路。
写时复制技术:写时复制技术,是当多个进程读取一块数据的时候,不需要拷贝操作,当某个进程要修改数据,那么需要拷贝到自己的进程空间中。
6.1.用户态直接IO
用户通过直接IO使用用户态的库函数直接访问硬件设备。数据跨过内核传输。如果内核极大提高性能。
用户态直接IO只能适用于不需要内核缓冲区的应用程序,这写应用程序通常在进程地址空间有自己的数据缓冲机制,称为自缓存应用程序。如数据库管理系统。
其次,这种零拷贝机制会直接操作磁盘I/O,由于CPU和磁盘I/O之间的执行时间差距,会造成大量资源浪费,解决方案是配合异步IO。
6.2.mmap+write
一种零拷贝是使用mmap+write替换原来的read+write的方式,减少了一次CPU拷贝操作。mmap是Linux提供的一种内存映射文件的方式,将一个进程的虚拟内存地址映射到磁盘文件地址。
mmap+write的伪代码:
tmp_buf=mmap(file_fd,len);
write(socket,tmp_buf,len);
使用mmap的方式就是将内核缓冲区的地址与用户缓冲区的地址进行映射,从而实现内核缓冲区到用户缓冲区的内存共享。省去数据从内核缓冲区拷贝到用户缓冲区的过程。
基于mmap+write系统调用的零拷贝技术。整个拷贝过程会发生4次上下文切换,一次CPU拷贝,2次DMA拷贝。
用户进程读写数据流程如下:
-
用户进程通过mmap函数向内核发起系统调用,由用户态切换为内核态。
-
将用户缓冲区和内核缓冲区进行mmap地址映射。
-
CPU利用DMA拷贝数据从磁盘或主存到内核的读缓冲区。
-
上下文切换回到用户态,mmap系统调用返回。
-
用户进程通过wirte向内核发起系统调用,上下文从用户态切换为内核态。
-
CPU将读缓冲区的数据拷贝到网络缓冲区。
-
CPU利用DMA控制器将数据从网络缓冲区拷贝到网卡,进行数据传输。
-
上下文从内核态切换回用户态,wirte系统调用结束返回。
优点:
针对大文件可以极大的提高IO性能,但是对于小文件,内存映射反而会导致碎片空间的浪费。
6.3. sendfile
sendfile系统调用是Linux2.1引入的目的简化网络通过两个通道之间的数据传输过程。sendfile系统调用的引用减少了两次上下文切换。
伪代码如下:
• sendfile(socket_fd,file_fd,len);
通过sendfile的系统调用,数据可以直接在内核空间进行IO传输,省区了用户空间和内核空间来回拷贝。与mmap不同的是,sendfile调用IO数据对于用户空间来说是完全不可见的,也就是一次完全意义上的数据传输过程。
基于sendfile系统调用的零拷贝技术,整个拷贝过程会发生2次上下文切换,一次CPU拷贝,两次DMA拷贝。
流程如下:
-
用户进程通过sendfile函数向内核发起系统调用,上下文切换进入内核态。
-
CPU利用DMA将主存或磁盘数据拷贝到内核空间的读缓冲区。
-
CPU的内核读缓冲区拷贝数据到网络缓冲区socket buffer
-
CPU利用DMA将数据从网络缓冲区传输到网卡。
-
系统上下文切换用户态。之后sendfile系统调用结束返回。
相较于mmap内存映射的方式,sendfile减少了两次系统调用,但仍有一次CPU拷贝操作。
sendfile存在的问题就是用户进程不能对数据进行修改(压缩,加密),只能丹村的完成一次数据传输
6.4. sendfile+DMA gather copy
Linux 2.4 版本的内核对sendfile系统调用进行修改,为DMA拷贝引入了gather操作。
他将内核空间的读缓冲区中对应的数据描述信息(内存地址,地址偏移量)记录到相应的网络缓冲区中,
由DMA根据内存地址,地址偏移量将数据批量从读缓冲区拷贝到网卡,这样就省去了内核空间仅剩的一次CPU拷贝操作。
sendfile的伪代码如下: sendfile(socket_fd,file_fd,len)
基于sendfile+DMA gather copy系统拷贝,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。
流程如下:
-
用户进程发起sendfile函数系统调用向内核,上下文切换到内核态。
-
CPU利用DMA将数据从主存或磁盘缓冲区拷贝到内核缓冲区。
-
CPU将读缓冲区的文件描述符和文件长度拷贝到网络缓冲区
-
基于已经拷贝到文件描述符和文件长度,CPU利用DMA控制器的gather /scatter操作直接批量的从内核的读缓冲区拷贝到网卡进行数据传输。
-
上下文切换从内核态切换用户态,sendfile系统调用执行返回
这种拷贝方式同样存在用户进程不能对数据进行修改的问题,而且本身需要硬件的支持,只适用于将数据从文件拷贝到socket套接字上的传输过程。
6.5 splice
sendfile只适用于将数据从文件拷贝到socket套接字上,同时支持硬件的传输。这也限定了它的使用范围。
Linux2.6.17版本引入了splice系统调用,不仅不需要系统硬件的支持,还实现了文件描述符之间的数据零拷贝(就是C:->D:)
splice的伪代码
splice(fd_in,off_in,fd_out,off_out,len,flags);
splice系统调用可以在内核空间的读缓冲区和网络缓冲区之间建立管道(pipeline),从而避免二者之间的CPU拷贝操作。
基于splice系统调用的零拷贝方式,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。
流程:
-
用户进程通过splice函数向内核发起系统调用,上下文从用户态切换为内核态。
-
CPU利用DMA将数据从磁盘或主存中拷贝到内核的读缓冲区中。
-
CPU在内核的读缓冲区与socket缓冲区建立管道(pipeline)
-
CPU利用DMA控制器,将数据从网络缓冲区拷贝到网卡进行传输。
-
上下文切换从内核切换回到用户态,splice系统调用执行结束。
7.Linux零拷贝对比
无论是传统的IO拷贝方式还是引入了零拷贝,2次DMA Copy都是少不了的,因为两次DMA都是依赖硬件完成的,下面从CPU拷贝次数,DMA拷贝次数,以及系统调用几个方面总结上述io拷贝的差别:
8.零拷贝具体应用实现
-
Java NIO零拷贝
-
基于内存映射的(mmap) 方式 MappedByteBuffer
-
基于sendfile方式的FileChannel
-
-
Netty 零拷贝
-
RocketMQ 和 Kafka 零拷贝
-
RocketMq选择了mmap+write这种零拷贝方式,适用于业务级别的小块文件持久化和传输
-
而Kafka采用的sendfile这种零拷贝,适用于系统日志消息这种高吞吐量的大文件的数据持久化和传输。
-