mmap的原理与使用

在很以高性能著称的技术组件中我们经常会看到mmap的影子，最近我做的一个小需求就使用到了mmap来避免读取大文件OOM的问题，另外我发明的一款高性能多模匹配组件也将要使用mmap来进一步提升性能。

mmap是一种内存映射文件的方法，就是将一个文件、一段物理内存或者其它对象映射到进程的虚拟内存地址空间，实现这样的映射关系之后，进程就可以以使用指针的方式来对这一段内存进行读写，而Operating System会自动将脏页面回写到对应的文件磁盘上，即完成了对文件的操作而不用进行read、write等系统调用。

进程虚拟内存空间

在了解mmap之前需要先理解一下进程的虚拟内存空间
图中展示了虚拟内存空间所包含的主要区域，其作用分别为

保留区

这段虚拟内存地址是一段不可访问的保留区，数值比较小的地址通常被认为不是一个合法的地址，比如在 C 语言中我们通常会将一些无效的指针设置为NULL，指向这块不允许访问的地址。
代码段:

用于存放进程程序二进制文件中机器指令的；
数据段

用于存放在代码中被指定了初始值的全局变量和静态变量的区域;
BBS数据段

用于存放在代码中未指定初始值的全局变量和静态变量的区域；和数据段分开的原因是程序在磁盘上存储时，没有必要为未经初始化的变量分配存储空间。可执行文件只需记录未初始化数据段的位置及所需大小，直到运行时再由程序加载器来分配空间。
堆区

用于存放进程在运行期间动态申请的内存的区域；内核中使用start_brk标识堆的起始位置，brk标识堆当前的结束位置。当堆申请新的内存空间时，只需要将brk指针增加对应的大小，回收地址时减少对应的大小即可。比如当我们通过malloc向内核申请很小的一块内存时（128K 之内），就是通过改变brk位置实现的。堆区上面的待分配区是用于扩展堆空间的。
文件映射与匿名映射区

动态链接库中的代码段，数据段，BSS段，以及通过mmap系统调用映射的共享内存区，在虚拟内存空间的存储区域叫做文件映射与匿名映射区。这个区的地址增长方向是从高地址向低地址增长的。
栈

在这里会保存函数运行过程所需要的局部变量以及函数参数等函数调用信息。栈空间中的地址增长方向是从高地址向低地址增长。栈区下面的待分配区是用于扩展栈空间的。

这里操作系统为进程虚拟出可以独占所有内存空间资源的假象，内核帮我们做了虚拟内存到物理内存的映射，这个映射过程需要一个专门的硬件单元MMU将虚拟地址转换成物理地址。
当进程申请到一块资源的时候，可能实际上的物理内存还没有分配给它，等到缺页异常是系统才会分配，通过这种以时间换空间的方式提高了内存利用效率。

内核如何布局进程虚拟内存空间

内核为系统中的每个进程维护一个单独的任务结构task_struct，其中包含了内核运行该进程所需要的所有信息(PID、指向用户栈的指针、可执行目标文件的名称、虚拟内存状态、PC指针等)，task_struct中的mm_struct描述了虚拟内存的当前状态，其中mmap字段指向一个vm_area_struct的双向链表，为了解决链表查询慢，特别是在进程虚拟内存空间中包含的内存区域VMA比较多的情况下，使用红黑树查找特定虚拟内存区域的时间复杂度是O(logN) ，可以显著减少查找所需的时间。比如以下几种情况都会出现比较多的VMA：

1、多线程应用程序：
多线程应用程序通常会创建多个线程，每个线程都有自己的栈和线程本地存储区域。每个线程的虚拟内存空间都会有相应的VMA，因此多线程应用程序的虚拟内存空间会包含大量的VMA。
2、动态链接库（Shared Libraries）：
当一个程序使用许多共享库时，每个库都会映射到进程的虚拟内存空间中，每个库都对应一个VMA。如果应用程序使用了多个共享库，虚拟内存中的VMA数量会相应增加。
3、内存映射文件（Memory-Mapped Files）：
当应用程序将文件映射到内存中以进行读取或写入操作时，每个映射的文件区域都会被表示为一个VMA。如果应用程序频繁使用内存映射文件，虚拟内存中的VMA数量也会增加。
4、内存分配和释放：
应用程序通过malloc、free等内存管理函数动态分配和释放内存时，可能会导致虚拟内存空间中的VMA数量增多，特别是在频繁分配和释放内存的情况下。

在这些情况下，为了有效管理和查询虚拟内存中的VMA，Linux内核使用红黑树等数据结构来进行优化，以提高内存管理的效率。红黑树是一种自平衡的二叉搜索树，可以快速执行插入、删除和查询操作，因此非常适合用于管理大量的VMA。这些VMA包括了进程的代码段、数据段、栈、共享库、映射文件等，它们组成了进程的虚拟内存布局，通过红黑树等数据结构来维护这些信息，有助于操作系统高效地管理进程的虚拟内存空间。

可见mmap函数就是要创建一个新的vm_area_struct结构，并将其与文件的物理磁盘地址相连。

mmap内存映射原理

mmap内存映射的实现过程，总的来说可以分为三个阶段：

一、进程启动映射过程，并在虚拟地址空间中为`mmap`创建`vm_area_struct`

1、进程在用户空间调用库函数mmap，原型为

1	void * mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);

2、在当前进程的虚拟地址空间中，寻找一段空闲的满足要求的连续的虚拟地址；
3、为此虚拟区分配一个vm_area_struct结构，接着对这个结构的各个域进行了初始化；
4、将新建的vm_area_struct插入进程的虚拟地址区域链表或树中；

二、调用内核空间的系统调用函数`mmap`（不同于用户空间函数），实现文件物理地址和进程虚拟地址的一一映射关系

5、为映射分配了新的vm_area_struct后，通过待映射的文件指针，在文件描述符表中找到对应的文件描述符，通过文件描述符，链接到内核已打开文件集中该文件的文件结构体（struct file），每个文件结构体维护着和这个已打开文件相关各项信息。
6、通过该文件的文件结构体，链接到file_operations模块，调用内核函数mmap(不同于用户空间库函数)，其原型为：

1	int mmap(struct file filp, struct vm_area_struct vma);

7、内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。
8、通过remap_pfn_range函数建立页表，即实现了文件地址和虚拟地址区域的映射关系。此时，这片虚拟地址并没有任何数据关联到主存中。

三、进程发起对这片映射空间的访问，引发缺页异常，实现文件内容到物理内存（主存）的拷贝

注：前两个阶段仅在于创建虚拟区间并完成地址映射，但是并没有将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操作时。

9、进程的读或写操作访问虚拟地址空间这一段映射地址，通过查询页表，发现这一段地址并不在物理页面上。因为目前只建立了地址映射，真正的硬盘数据还没有拷贝到内存中，因此引发缺页异常。
10、缺页异常进行一系列判断，确定无非法操作后，内核发起请求调页过程。
11、调页过程先在交换缓存空间（swap cache）中寻找需要访问的内存页，如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。
12、之后进程即可对这片主存进行读或者写的操作，如果写操作改变了其内容，一定时间后系统会自动回写脏页面到对应磁盘地址，也即完成了写入到文件的过程。注：修改过的脏页面并不会立即更新回文件中，mmap的回写时机如下：

1、内存不足
2、进程退出
3、调用msync或者munmap
4、不设置MAP_NOSYNC情况下30s-60s(仅限FreeBSD)

mmap和常规文件操作的区别

常规文件系统操作（调用read/fread等类函数）中，函数的调用过程：

1、进程发起读文件请求。
2、内核通过查找进程文件符表，定位到内核已打开文件集上的文件信息，从而找到此文件的inode。
3、inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在，则直接返回这片文件页的内容。
4、如果不存在，则通过inode定位到文件磁盘地址，将数据从磁盘复制到页缓存。之后再次发起读页面过程，进而将页缓存中的数据发给用户进程。

总结来说，常规文件操作为了提高读写效率和保护磁盘，使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中，由于页缓存处在内核空间，不能被用户进程直接寻址，所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样，通过了两次数据拷贝过程，才能完成进程对文件内容的获取任务。写操作也是一样，kernel不能访问处于用户空间的待写入buffer，必须要先拷贝至内核空间对应的主存，才能再写回磁盘中（延迟写回），也是需要两次数据拷贝。

而使用mmap操作文件中，需要先创建新的虚拟内存区域（VMA），并建立文件磁盘地址和虚拟内存区域（VMA）映射，没有任何文件拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程，可以通过已经建立好的映射关系，只使用一次数据拷贝，就从磁盘中将数据传入内存的用户空间中，供进程使用。

总而言之，常规文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件，只需要从磁盘到用户主存的一次数据拷贝过程。

说白了，mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。

mmap的优缺点

通过上文可知，mmap的优点主要有以下几点

物理内存占用延后：首先建立VMA并简历磁盘地址映射，数据直到真正被使用时才会发生拷贝；
提高了文件读取效率：对文件的读取操作跨过了页缓存，减少了数据的拷贝次数，用内存读写取代I/O读写；
实现了用户空间和内核空间的高效交互方式：两空间的各自修改操作可以直接反映在映射的区域内，从而被对方空间及时捕捉；
物理内存占用减少：数据处于kernel区，多个进程共享，无需在物理内存中存放两份，且文件区被划分成片，缺页异常时只将所需的页拷贝到物理内存。
方便实现跨进程数据交互、共享：当映射到虚拟内存的对象被设置为共享对象，则不同进程对映射对象的写操作相互可见。

然而也能发现mmap存在以下劣势：

无法映射变长文件：调用mmap()时需指定要映射的文件位置和需要映射的大小范围。
如果需要映射的文件过大，会导致过度占用虚拟内存：在调用mmap()后，虚拟内存空间就创建了，此时虽然不会占用物理内存，但依然会占用虚拟内存。此时可考虑只映射文件中自己需要的部分。
由此，当我们需要访问一个比较大的文件，尤其是当我们只需要访问其中的一小部分数据的时候，我们可以尝试通过mmap的方式来进行访问，减少由于该文件过大而对物理内存的过度占用。

参考
一步一图带你深入理解 Linux 虚拟内存管理