Nginx和Apache都是Web服务器。Nginx能抗住几万的高并发,而Apache却只能几千。Nginx和Apache有哪些区别?在处理高并发问题时Nginx为何比Apache表现的更加优秀?主要的原因在于IO多路复用的机制选择。个人觉得要想从根本上清晰认识Nginx及Apache的区别以下几个概念你必须了解。

一、IO多路复用的机制

select、poll、epoll都是IO多路复用的机制,先是监听多个文件描述符FD,一旦某个FD就绪,就可以进行相应的读写操作。但是select、poll、epoll本质都是同步I/O,他们都需要在读写事件就绪之后自己负责读写,即这个读写过程是阻塞的。

首先我们先来理解什么是用户态和内存态?

内核态:CPU可以访问内存所有数据, 包括外围设备, 例如硬盘, 网卡. CPU也可以将自己从一个程序切换到另一个程序。

用户态:只能受限的访问内存, 且不允许访问外围设备. 占用CPU的能力被剥夺, CPU资源可以被其他程序获取。

为什么要有用户态和内核态:由于需要限制不同的程序之间的访问能力, 防止他们获取别的程序的内存数据, 或者获取外围设备的数据, 并发送到网络, CPU划分出两个权限等级:用户态 和 内核态。

1.1 select/poll

select缺点:

【1】每次调用select都需要把fd从用户态拷贝到内核态,开销比较大

【2】每次都需要在内核遍历传入的fd

【3】select支持文件数量比较小,默认是1024

poll的实现和select非常相似,只是描述fd集合的方式不同,poll使用pollfd结构而不是select的fd_set结构,就不赘述了。

1.2 epoll牛在哪里?

select/poll只提供了一个函数,selct/poll函数,但是epoll一下子就提供了3个函数:epoll_create,epoll_ctl和epoll_wait,epoll_create是创建一个epoll句 柄;epoll_ctl是注册要监听的事件类型;epoll_wait则是等待事件的产生。

优点:

【1】每次注册新事件到epoll句柄都会把所有的fd拷贝进来,而不是在epoll_wait中重复拷贝,这样确保fd只会被拷贝一次

【2】epoll不是想select/poll那样每次都把fd加入等待队列中,epoll把每个fd指定一个回调函数,当设备就绪时,唤醒等待队列的等待者就会调用其的回调函数,这个回调函数会把就绪的fd放入一个就绪链表。epoll_wait就是在这个就绪链表中查看有没有就绪fd

【3】epoll没有fd数目限制

总结:

(1)select,poll实现需要自己不断轮询所有fd集合,直到设备就绪,期间可能要睡眠和唤醒多次交替。而epoll其实也需要调用 epoll_wait不断轮询就绪链表,期间也可能多次睡眠和唤醒交替,但是它是设备就绪时,调用回调函数,把就绪fd放入就绪链表中,并唤醒在 epoll_wait中进入睡眠的进程。虽然都要睡眠和交替,但是select和poll在“醒着”的时候要遍历整个fd集合,而epoll在“醒着”的 时候只要判断一下就绪链表是否为空就行了,这节省了大量的CPU时间。这就是回调机制带来的性能提升。

(2)select,poll每次调用都要把fd集合从用户态往内核态拷贝一次,并且要把current往设备等待队列中挂一次,而epoll只要 一次拷贝,而且把current往等待队列上挂也只挂一次(在epoll_wait的开始,注意这里的等待队列并不是设备等待队列,只是一个epoll内 部定义的等待队列)。这也能节省不少的开销。

二、Apache工作模式及原理

Apache常用的两种工作模式prefork和worker,Apache通过MPM来使用操作系统的资源,对进程和线程池进行管理。Apache为了能够获得更好的运行性能,针对不同的平台 (Unix/Linux、Window)提供了不同的MPM,用户可以根据实际情况进行选择。

【1】perfork模式的工作原理:  Prefork是非线程、预生成进程型MPM,会预先启动一些子进程,每个子进程一个时间只能处理一个请求,并且会根据并发请求数量动态生成更多子进程。

当Apache被启动时,Apache会自动创建StartServers个进程,并且尽力将空闲进程数保持在MinSpareServers和MaxSpareServers之间。

如果空闲进程小于MinSpareServers,Apache将会以大约每秒1个的速度新建进程。

如果空闲进程小于MaxSpareServers,Apache将会删除多余的空闲进程,释放服务器资源。

 进程数的最大值由MaxClients控制,在Apache1.3中最大只能设置为256,但在Apache2.0中,可以通过在配置开头增加ServerLimit项目来突破256的限制,此时必须MaxClients  ≤ ServerLimit ≤ 20000。

MaxRequestsPerChild用来控制每个进程在处理了多少次请求之后自动销毁,这个参数可以设置为0表示无限(即不销毁进程)

【2】 worker模式的工作原理:

由主控制进程生成“StartServers”个子进程,每个子进程中包含固定的ThreadsPerChild线程数,各个线程独立地处理请求。

同样,为了不在请求到来时再生成线程,MinSpareThreads和MaxSpareThreads设置了最少和最多的空闲线程数;而MaxClients设置允许的最大线程总数。

如果现有子进程中的线程总数不能满足负载,控制进程将派生新的子进程。

每个子线程处理服务请求次数由MaxRequestPerChild定义。 缺省的设置值为0,即响应无限此请求。

默认生成3个子进程来处理请求。

【3】两种策略的缺陷:

(1)perfork模式:每一个连接创建一个进程,每个进程内单线程。对于一个负载相对较高的网站来说,256的进程限制是不够的,如果服务器已经达到256的极限,那么接下去的访问就需要排队,这也就是为什么某些服务器负载不高,但是访问却很慢的原因之一。

(2)worker模式:也是多进程处理,也会创建多个进程和多个线程,如果进程数达到管理员设置的阀值,则会拒绝新的请求。

 两种模式都会创建多个进程或线程,而每个进程或线程都会为其分配cpu和内存(线程要比进程小的多,所以worker支持比perfork高的并发),并发过大会榨干服务器资源。

三、Nginx的工作原理

 Nginx会按需同时运行多个进程:一个主进程(master)和几个工作进程(worker),配置了缓存时还会有缓存加载器进程(cache loader)和缓存管理器进程(cache manager)等。所有进程均是仅含有一个线程,并主要通过“共享内存”的机制实现进程间通信。主进程以root用户身份运行,而worker、cache loader和cache manager均应以非特权用户身份运行。换句话说,Nginx并不会为每一个的web请求创建新的进程,相反,管理员可以配置Nginx主进程的工作进程的数量(一个常见的做法是为每一个CPU配置一个工作进程)。所有这些进程都是单线程的。 每一个工作进程可以处理数千个并发的请求。它通过一个线程来异步非阻塞的完成了这些工作(epoll),而没有使用多线程的编程模型。nginx的优势在于,采用单线程来异步非阻塞处理请求,不会为每个请求分配cpu和内存资源,节省了大量资源,同时也减少了大量的CPU的上下文切换。所以才使得Nginx支持更高的并发。

四、总结

我们回到文章主题,epoll模型是Nginx处理性能高的根本原因,但并不是所有的情况下都是epoll大获全胜的,如果本身提供静态服务的就文件相对较少,Apache的select模型或许比epoll更高性能。当然,这只是根据网络IO模型的原理作的一个假设,真正的应用还是需要实测了再说的。一般来说,如果你对Web服务的性能需求大于稳定性,建议选用Nginx 。反之,如果您对Web服务稳定性的需求大于性能,那就选择Apache 。Apache的各种功能模块比Nginx要多要好,例如现在很流行的SSL的模块就比Nginx要好,可配置项也多。从负载和高并发考虑,现在好多集群站点采用的方案是:前端Nginx抗并发,后端Apache集群。从动态与静态处理的比较,Nginx处理动态请求是鸡肋,一般动态请求要Apache去做,Nginx更适合静态和反向。