linux系統(tǒng)性能怎么優(yōu)化
linux系統(tǒng)性能怎么優(yōu)化
作為一名Linux系統(tǒng)管理員,最主要的工作是優(yōu)化系統(tǒng)配置,使應(yīng)用在系統(tǒng)上以最優(yōu)的狀態(tài)運(yùn)行,那么你知道linux系統(tǒng)性能怎么優(yōu)化嗎?小編帶來了linux系統(tǒng)性能優(yōu)化的具體操作過程,下面大家跟著學(xué)習(xí)啦小編一起來學(xué)習(xí)一下吧。
linux系統(tǒng)性能怎么優(yōu)化
一、前提
我們可以在文章的開始就列出一個列表,列出可能影響Linux操作系統(tǒng)性能的一些調(diào)優(yōu)參數(shù),但這樣做其實(shí)并沒有什么價值。因?yàn)樾阅苷{(diào)優(yōu)是一個非常困難的任務(wù),它要求對硬件、操作系統(tǒng)、和應(yīng)用都有著相當(dāng)深入的了解。如果性能調(diào)優(yōu)非常簡單的話,那些我們要列出的調(diào)優(yōu)參數(shù)早就寫入硬件的微碼或者操作系統(tǒng)中了,我們就沒有必要再繼續(xù)讀這篇文章了。正如下圖所示,服務(wù)器的性能受到很多因素的影響。
當(dāng)面對一個使用單獨(dú)IDE硬盤的,有20000用戶的數(shù)據(jù)庫服務(wù)器時,即使我們使用數(shù)周時間去調(diào)整I/O子系統(tǒng)也是徒勞無功的,通常一個新的驅(qū)動或者應(yīng)用程序的一個更新(如SQL優(yōu)化)卻可以使這個服務(wù)器的性能得到明顯的提升。正如我們前面提到的,不要忘記系統(tǒng)的性能是受多方面因素影響的。理解操作系統(tǒng)管理系統(tǒng)資源的方法將幫助我們在面對問題時更好的判斷應(yīng)該對哪個子系統(tǒng)進(jìn)行調(diào)整。
二、Linux的CPU調(diào)度
任何計(jì)算機(jī)的基本功能都十分簡單,那就是計(jì)算。為了實(shí)現(xiàn)計(jì)算的功能就必須有一個方法去管理計(jì)算資源、處理器和計(jì)算任務(wù)(也被叫做線程或者進(jìn)程)。非常感謝Ingo Molnar,他為Linux內(nèi)核帶來了O(1)CPU調(diào)度器,區(qū)別于舊有的O(n)調(diào)度器,新的調(diào)度器是動態(tài)的,可以支持負(fù)載均衡,并以恒定的速度進(jìn)行操作。
新調(diào)度器的可擴(kuò)展性非常好,無論進(jìn)程數(shù)量或者處理器數(shù)量,并且調(diào)度器本身的系統(tǒng)開銷更少。新調(diào)取器的算法使用兩個優(yōu)先級隊(duì)列。
引用
・活動運(yùn)行隊(duì)列
・過期運(yùn)行隊(duì)列
調(diào)度器的一個重要目標(biāo)是根據(jù)優(yōu)先級權(quán)限有效地為進(jìn)程分配CPU 時間片,當(dāng)分配完成后它被列在CPU的運(yùn)行隊(duì)列中,除了 CPU 的運(yùn)行隊(duì)列之外,還有一個過期運(yùn)行隊(duì)列。當(dāng)活動運(yùn)行隊(duì)列中的一個任務(wù)用光自己的時間片之后,它就被移動到過期運(yùn)行隊(duì)列中。在移動過程中,會對其時間片重新進(jìn)行計(jì)算。如果活動運(yùn)行隊(duì)列中已經(jīng)沒有某個給定優(yōu)先級的任務(wù)了,那么指向活動運(yùn)行隊(duì)列和過期運(yùn)行隊(duì)列的指針就會交換,這樣就可以讓過期優(yōu)先級列表變成活動優(yōu)先級的列表。通常交互式進(jìn)程(相對與實(shí)時進(jìn)程而言)都有一個較高的優(yōu)先級,它占有更長的時間片,比低優(yōu)先級的進(jìn)程獲得更多的計(jì)算時間,但通過調(diào)度器自身的調(diào)整并不會使低優(yōu)先級的進(jìn)程完全被餓死。新調(diào)度器的優(yōu)勢是顯著的改變Linux內(nèi)核的可擴(kuò)展性,使新內(nèi)核可以更好的處理一些有大量進(jìn)程、大量處理器組成的企業(yè)級應(yīng)用。新的O(1)調(diào)度器包含仔2.6內(nèi)核中,但是也向下兼容2.4內(nèi)核。
新調(diào)度器另外一個重要的優(yōu)勢是體現(xiàn)在對NUMA(non-uniform memory architecture)和SMP(symmetric multithreading processors)的支持上,例如INTEL@的超線程技術(shù)。
改進(jìn)的NUMA支持保證了負(fù)載均衡不會發(fā)生在CECs或者NUMA節(jié)點(diǎn)之間,除非發(fā)生一個節(jié)點(diǎn)的超出負(fù)載限度。
三、Linux的內(nèi)存架構(gòu)
今天我們面對選擇32位操作系統(tǒng)還是64位操作系統(tǒng)的情況。對企業(yè)級用戶它們之間最大的區(qū)別是64位操作系統(tǒng)可以支持大于4GB的內(nèi)存尋址。從性能角度來講,我們需要了解32位和64位操作系統(tǒng)都是如何進(jìn)行物理內(nèi)存和虛擬內(nèi)存的映射的。
在上面圖示中我們可以看到64位和32位Linux內(nèi)核在尋址上有著顯著的不同。
在32位架構(gòu)中,比如IA-32,Linux內(nèi)核可以直接尋址的范圍只有物理內(nèi)存的第一個GB(如果去掉保留部分還剩下896MB),訪問內(nèi)存必須被映射到這小于1GB的所謂ZONE_NORMAL空間中,這個操作是由應(yīng)用程序完成的。但是分配在ZONE_HIGHMEM中的內(nèi)存頁將導(dǎo)致性能的降低。
在另一方面,64位架構(gòu)比如x86-64(也稱作EM64T或者AMD64)。ZONE_NORMAL空間將擴(kuò)展到64GB或者128GB(實(shí)際上可以更多,但是這個數(shù)值受到操作系統(tǒng)本身支持內(nèi)存容量的限制)。正如我們看到的,使用64位操作系統(tǒng)我們排除了因ZONE_HIGHMEM部分內(nèi)存對性能的影響的情況。
實(shí)際中,在32位架構(gòu)下,由于上面所描述的內(nèi)存尋址問題,對于大內(nèi)存,高負(fù)載應(yīng)用,會導(dǎo)致死機(jī)或嚴(yán)重緩慢等問題。雖然使用hugemen核心可緩解,但采取x86_64架構(gòu)是最佳的解決辦法。
四、虛擬內(nèi)存管理
因?yàn)椴僮飨到y(tǒng)將內(nèi)存都映射為虛擬內(nèi)存,所以操作系統(tǒng)的物理內(nèi)存結(jié)構(gòu)對用戶和應(yīng)用來說通常都是不可見的。如果想要理解Linux系統(tǒng)內(nèi)存的調(diào)優(yōu),我們必須了解Linux的虛擬內(nèi)存機(jī)制。應(yīng)用程序并不分配物理內(nèi)存,而是向Linux內(nèi)核請求一部分映射為虛擬內(nèi)存的內(nèi)存空間。如下圖所示虛擬內(nèi)存并不一定是映射物理內(nèi)存中的空間,如果應(yīng)用程序有一個大容量的請求,也可能會被映射到在磁盤子系統(tǒng)中的swap空間中。
另外要提到的是,通常應(yīng)用程序不直接將數(shù)據(jù)寫到磁盤子系統(tǒng)中,而是寫入緩存和緩沖區(qū)中。Bdflush守護(hù)進(jìn)程將定時將緩存或者緩沖區(qū)中的數(shù)據(jù)寫到硬盤上。
Linux內(nèi)核處理數(shù)據(jù)寫入磁盤子系統(tǒng)和管理磁盤緩存是緊密聯(lián)系在一起的。相對于其他的操作系統(tǒng)都是在內(nèi)存中分配指定的一部分作為磁盤緩存,Linux處理內(nèi)存更加有效,默認(rèn)情況下虛擬內(nèi)存管理器分配所有可用內(nèi)存空間作為磁盤緩存,這就是為什么有時我們觀察一個配置有數(shù)G內(nèi)存的Linux系統(tǒng)可用內(nèi)存只有20MB的原因。
同時Linux使用swap空間的機(jī)制也是相當(dāng)高效率的,如上圖所示虛擬內(nèi)存空間是由物理內(nèi)存和磁盤子系統(tǒng)中的swap空間共同組成的。如果虛擬內(nèi)存管理器發(fā)現(xiàn)一個已經(jīng)分配完成的內(nèi)存分頁已經(jīng)長時間沒有被調(diào)用,它將把這部分內(nèi)存分頁移到swap空間中。經(jīng)常我們會發(fā)現(xiàn)一些守護(hù)進(jìn)程,比如getty,會隨系統(tǒng)啟動但是卻很少會被應(yīng)用到。這時為了釋放昂貴的主內(nèi)存資源,系統(tǒng)會將這部分內(nèi)存分頁移動到swap空間中。上述就是Linux使用swap空間的機(jī)制,當(dāng)swap分區(qū)使用超過50%時,并不意味著物理內(nèi)存的使用已經(jīng)達(dá)到瓶頸了,swap空間只是Linux內(nèi)核更好的使用系統(tǒng)資源的一種方法。
簡單理解:Swap usage只表示了Linux管理內(nèi)存的有效性。對識別內(nèi)存瓶頸來說,Swap In/Out才是一個比較又意義的依據(jù),如果Swap In/Out的值長期保持在每秒200到300個頁面通常就表示系統(tǒng)可能存在內(nèi)存的瓶頸。下面的事例是好的狀態(tài):
引用
# vmstat
procs ———–memory————- —swap– —–io—- –system– —-cpu—-
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 5696 6904 28192 50496 0 0 88 117 61 29 11 8 80 1
五、模塊化的I/O調(diào)度器
就象我們知道的Linux2.6內(nèi)核為我們帶來了很多新的特性,這其中就包括了新的I/O調(diào)度機(jī)制。舊的2.4內(nèi)核使用一個單一的I/O調(diào)度器,2.6 內(nèi)核為我們提供了四個可選擇的I/O調(diào)度器。因?yàn)長inux系統(tǒng)應(yīng)用在很廣闊的范圍里,不同的應(yīng)用對I/O設(shè)備和負(fù)載的要求都不相同,例如一個筆記本電腦和一個10000用戶的數(shù)據(jù)庫服務(wù)器對I/O的要求肯定有著很大的區(qū)別。
引用
(1).Anticipatory
anticipatory I/O調(diào)度器創(chuàng)建假設(shè)一個塊設(shè)備只有一個物理的查找磁頭(例如一個單獨(dú)的SATA硬盤),正如anticipatory調(diào)度器名字一樣,anticipatory調(diào)度器使用“anticipatory”的算法寫入硬盤一個比較大的數(shù)據(jù)流代替寫入多個隨機(jī)的小的數(shù)據(jù)流,這樣有可能導(dǎo)致寫 I/O操作的一些延時。這個調(diào)度器適用于通常的一些應(yīng)用,比如大部分的個人電腦。
(2).Complete Fair Queuing (CFQ)
Complete Fair Queuing(CFQ)調(diào)度器是Red Flag DC Server 5使用的標(biāo)準(zhǔn)算法。CFQ調(diào)度器使用QoS策略為系統(tǒng)內(nèi)的所有任務(wù)分配相同的帶寬。CFQ調(diào)度器適用于有大量計(jì)算進(jìn)程的多用戶系統(tǒng)。它試圖避免進(jìn)程被餓死和實(shí)現(xiàn)了比較低的延遲。
(3).Deadline
deadline調(diào)度器是使用deadline算法的輪詢的調(diào)度器,提供對I/O子系統(tǒng)接近實(shí)時的操作,deadline調(diào)度器提供了很小的延遲和維持一個很好的磁盤吞吐量。如果使用deadline算法請確保進(jìn)程資源分配不會出現(xiàn)問題。
(4).NOOP
NOOP調(diào)度器是一個簡化的調(diào)度程序它只作最基本的合并與排序。與桌面系統(tǒng)的關(guān)系不是很大,主要用在一些特殊的軟件與硬件環(huán)境下,這些軟件與硬件一般都擁有自己的調(diào)度機(jī)制對內(nèi)核支持的要求很小,這很適合一些嵌入式系統(tǒng)環(huán)境。作為桌面用戶我們一般不會選擇它。
六、網(wǎng)絡(luò)子系統(tǒng)
新的網(wǎng)絡(luò)中斷緩和(NAPI)對網(wǎng)絡(luò)子系統(tǒng)帶來了改變,提高了大流量網(wǎng)絡(luò)的性能。Linux內(nèi)核在處理網(wǎng)絡(luò)堆棧時,相比降低系統(tǒng)占用率和高吞吐量更關(guān)注可靠性和低延遲。所以在某些情況下,Linux建立一個防火墻或者文件、打印、數(shù)據(jù)庫等企業(yè)級應(yīng)用的性能可能會低于相同配置的Windows服務(wù)器。
在傳統(tǒng)的處理網(wǎng)絡(luò)封包的方式中,如下圖藍(lán)色箭頭所描述的,一個以太網(wǎng)封包到達(dá)網(wǎng)卡接口后,如果MAC地址相符合會被送到網(wǎng)卡的緩沖區(qū)中。網(wǎng)卡然后將封包移到操作系統(tǒng)內(nèi)核的網(wǎng)絡(luò)緩沖區(qū)中并且對CPU發(fā)出一個硬中斷,CPU會處理這個封包到相應(yīng)的網(wǎng)絡(luò)堆棧中,可能是一個TCP端口或者Apache應(yīng)用中。
這是一個處理網(wǎng)絡(luò)封包的簡單的流程,但從中我們可以看到這個處理方式的缺點(diǎn)。正如我們看到的,每次適合網(wǎng)絡(luò)封包到達(dá)網(wǎng)絡(luò)接口都將對CPU發(fā)出一個硬中斷信號,中斷CPU正在處理的其他任務(wù),導(dǎo)致切換動作和對CPU緩存的操作。你可能認(rèn)為當(dāng)只有少量的網(wǎng)絡(luò)封包到達(dá)網(wǎng)卡的情況下這并不是個問題,但是千兆網(wǎng)絡(luò)和現(xiàn)代的應(yīng)用將帶來每秒鐘成千上萬的網(wǎng)絡(luò)數(shù)據(jù),這就有可能對性能造成不良的影響。
正是因?yàn)檫@個情況,NAPI在處理網(wǎng)絡(luò)通訊的時候引入了計(jì)數(shù)機(jī)制。對第一個封包,NAPI以傳統(tǒng)的方式進(jìn)行處理,但是對后面的封包,網(wǎng)卡引入了POLL 的輪詢機(jī)制:如果一個封包在網(wǎng)卡DMA環(huán)的緩存中,就不再為這個封包申請新的中斷,直到最后一個封包被處理或者緩沖區(qū)被耗盡。這樣就有效的減少了因?yàn)檫^多的中斷CPU對系統(tǒng)性能的影響。同時,NAPI通過創(chuàng)建可以被多處理器執(zhí)行的軟中斷改善了系統(tǒng)的可擴(kuò)展性。NAPI將為大量的企業(yè)級多處理器平臺帶來幫助,它要求一個啟用NAPI的驅(qū)動程序。在今天很多驅(qū)動程序默認(rèn)沒有啟用NAPI,這就為我們調(diào)優(yōu)網(wǎng)絡(luò)子系統(tǒng)的性能提供了更廣闊的空間。
七、理解Linux調(diào)優(yōu)參數(shù)
因?yàn)長inux是一個開源操作系統(tǒng),所以又大量可用的性能監(jiān)測工具。對這些工具的選擇取決于你的個人喜好和對數(shù)據(jù)細(xì)節(jié)的要求。所有的性能監(jiān)測工具都是按照同樣的規(guī)則來工作的,所以無論你使用哪種監(jiān)測工具都需要理解這些參數(shù)。下面列出了一些重要的參數(shù),有效的理解它們是很有用處的。
(1)處理器參數(shù)
引用
・CPU utilization
這是一個很簡單的參數(shù),它直觀的描述了每個CPU的利用率。在xSeries架構(gòu)中,如果CPU的利用率長時間的超過80%,就可能是出現(xiàn)了處理器的瓶頸。
・Runable processes
這個值描述了正在準(zhǔn)備被執(zhí)行的進(jìn)程,在一個持續(xù)時間里這個值不應(yīng)該超過物理CPU數(shù)量的10倍,否則CPU方面就可能存在瓶頸。
・Blocked
描述了那些因?yàn)榈却齀/O操作結(jié)束而不能被執(zhí)行的進(jìn)程,Blocked可能指出你正面臨I/O瓶頸。
・User time
描述了處理用戶進(jìn)程的百分比,包括nice time。如果User time的值很高,說明系統(tǒng)性能用在處理實(shí)際的工作。
・System time
描述了CPU花費(fèi)在處理內(nèi)核操作包括IRQ和軟件中斷上面的百分比。如果system time很高說明系統(tǒng)可能存在網(wǎng)絡(luò)或者驅(qū)動堆棧方面的瓶頸。一個系統(tǒng)通常只花費(fèi)很少的時間去處理內(nèi)核的操作。
・Idle time
描述了CPU空閑的百分比。
・Nice time
描述了CPU花費(fèi)在處理re-nicing進(jìn)程的百分比。
・Context switch
系統(tǒng)中線程之間進(jìn)行交換的數(shù)量。
・Waiting
CPU花費(fèi)在等待I/O操作上的總時間,與blocked相似,一個系統(tǒng)不應(yīng)該花費(fèi)太多的時間在等待I/O操作上,否則你應(yīng)該進(jìn)一步檢測I/O子系統(tǒng)是否存在瓶頸。
・Interrupts
Interrupts 值包括硬Interrupts和軟Interrupts,硬Interrupts會對系統(tǒng)性能帶來更多的不利影響。高的Interrupts值指出系統(tǒng)可能存在一個軟件的瓶頸,可能是內(nèi)核或者驅(qū)動程序。注意Interrupts值中包括CPU時鐘導(dǎo)致的中斷(現(xiàn)代的xServer系統(tǒng)每秒1000個 Interrupts值)。
(2)內(nèi)存參數(shù)
引用
・Free memory
相比其他操作系統(tǒng),Linux空閑內(nèi)存的值不應(yīng)該做為一個性能參考的重要指標(biāo),因?yàn)榫拖裎覀冎疤岬竭^的,Linux內(nèi)核會分配大量沒有被使用的內(nèi)存作為文件系統(tǒng)的緩存,所以這個值通常都比較小。
・Swap usage
這 個值描述了已經(jīng)被使用的swap空間。Swap usage只表示了Linux管理內(nèi)存的有效性。對識別內(nèi)存瓶頸來說,Swap In/Out才是一個比較又意義的依據(jù),如果Swap In/Out的值長期保持在每秒200到300個頁面通常就表示系統(tǒng)可能存在內(nèi)存的瓶頸。
・Buffer and cache
這個值描述了為文件系統(tǒng)和塊設(shè)備分配的緩存。在Red Flag DC Server 5版本中,你可以通過修改/proc/sys/vm中的page_cache_tuning來調(diào)整空閑內(nèi)存中作為緩存的數(shù)量。
・Slabs
描述了內(nèi)核使用的內(nèi)存空間,注意內(nèi)核的頁面是不能被交換到磁盤上的。
・Active versus inactive memory
提供了關(guān)于系統(tǒng)內(nèi)存的active內(nèi)存信息,Inactive內(nèi)存是被kswapd守護(hù)進(jìn)程交換到磁盤上的空間。
(3)網(wǎng)絡(luò)參數(shù)
引用
・Packets received and sent
這個參數(shù)表示了一個指定網(wǎng)卡接收和發(fā)送的數(shù)據(jù)包的數(shù)量。
・Bytes received and sent
這個參數(shù)表示了一個指定網(wǎng)卡接收和發(fā)送的數(shù)據(jù)包的字節(jié)數(shù)。
・Collisions per second
這個值提供了發(fā)生在指定網(wǎng)卡上的網(wǎng)絡(luò)沖突的數(shù)量。持續(xù)的出現(xiàn)這個值代表在網(wǎng)絡(luò)架構(gòu)上出現(xiàn)了瓶頸,而不是在服務(wù)器端出現(xiàn)的問題。在正常配置的網(wǎng)絡(luò)中沖突是非常少見的,除非用戶的網(wǎng)絡(luò)環(huán)境都是由hub組成。
・Packets dropped
這個值表示了被內(nèi)核丟掉的數(shù)據(jù)包數(shù)量,可能是因?yàn)榉阑饓蛘呤蔷W(wǎng)絡(luò)緩存的缺乏。
・Overruns
Overruns表達(dá)了超出網(wǎng)絡(luò)接口緩存的次數(shù),這個參數(shù)應(yīng)該和packets dropped值聯(lián)系到一起來判斷是否存在在網(wǎng)絡(luò)緩存或者網(wǎng)絡(luò)隊(duì)列過長方面的瓶頸。
・Errors 這個值記錄了標(biāo)志為失敗的幀的數(shù)量。這個可能由錯誤的網(wǎng)絡(luò)配置或者部分網(wǎng)線損壞導(dǎo)致,在銅口千兆以太網(wǎng)環(huán)境中部分網(wǎng)線的損害是影響性能的一個重要因素。
(4)塊設(shè)備參數(shù)
引用
・Iowait
CPU等待I/O操作所花費(fèi)的時間。這個值持續(xù)很高通??赡苁荌/O瓶頸所導(dǎo)致的。
・Average queue length
I/O請求的數(shù)量,通常一個磁盤隊(duì)列值為2到3為最佳情況,更高的值說明系統(tǒng)可能存在I/O瓶頸。
・Average wait
響應(yīng)一個I/O操作的平均時間。Average wait包括實(shí)際I/O操作的時間和在I/O隊(duì)列里等待的時間。
・Transfers per second
描述每秒執(zhí)行多少次I/O操作(包括讀和寫)。Transfers per second的值與kBytes per second結(jié)合起來可以幫助你估計(jì)系統(tǒng)的平均傳輸塊大小,這個傳輸塊大小通常和磁盤子系統(tǒng)的條帶化大小相符合可以獲得最好的性能。
・Blocks read/write per second
這個值表達(dá)了每秒讀寫的blocks數(shù)量,在2.6內(nèi)核中blocks是1024bytes,在早些的內(nèi)核版本中blocks可以是不同的大小,從512bytes到4kb。
・Kilobytes per second read/write
按照kb為單位表示讀寫塊設(shè)備的實(shí)際數(shù)據(jù)的數(shù)量。
看過“linux系統(tǒng)性能怎么優(yōu)化 ”的人還看了: