詳解Linux系統(tǒng)內存知識及調優(yōu)方案
詳解Linux系統(tǒng)內存知識及調優(yōu)方案
內存是計算機中重要的部件之一,它是與CPU進行溝通的橋梁。計算機中所有程序的運行都是在內存中進行的,因此內存的性能對計算機的影響非常大。內存作用是用于暫時存放CPU中的運算數(shù)據(jù),以及與硬盤等外部存儲器交換的數(shù)據(jù)。只要計算機在運行中,CPU就會把需要運算的數(shù)據(jù)調到內存中進行運算,當運算完成后CPU再將結果傳送出來,內存的運行也決定了計算機的穩(wěn)定運行。對于整個操作系統(tǒng)來說,內存可能是最麻煩的的設備。而其性能的好壞直接影響著整個操作系統(tǒng)。
我們知道CPU是不能與硬盤打交道的,只有數(shù)據(jù)被載入到內存中才可以被CPU調用。cpu在訪問內存的時候需要先像內存監(jiān)控程序請求,由監(jiān)控程序控制和分配內存的讀寫請求,這個監(jiān)控程序叫做MMU(內存管理單元)。下面以32位系統(tǒng)來說明內存的訪問過程:
32位的系統(tǒng)上每一個進程在訪問內存的時候,每一個進程都當做自己有4個G的內存空間可用,這叫虛擬內存(地址),虛擬內存轉化成物理內存是通過MMU來完成的。為了能夠從線性地址轉換成物理地址,需要page table(頁表)的內存空間,page table要載入到MMU上。為了完成線性地址到物理地址的映射,如果按照1個字節(jié)1個字節(jié)映射的話,需要一張非常大的表,這種轉換關系會非常的復雜。因此把內存空間又劃分成了另外一種存儲單元格式,通常為4K。在不同的硬件平臺上,它們的大小一般是不一樣的,像x86 32位的有4k的頁;而64位的有4k頁,2M頁,4M頁,8M頁等等,默認都是4k的。每一個進程一般而言都有自己的頁路徑和頁表映射機制,不管那一個頁表都是由內核加載的。每一個進程只能看到自己的線性地址空間,想要增加新的內存的時候,只能在自己的線性地址空間中申請,并且申請后一定是通過操作系統(tǒng)的內核映射到物理地址空間中去找那么一段空間,并且告訴線性地址空間準備好了,可以訪問,并且在page table中增加一條映射關系,于是就可以訪問物理內存了,這種叫做內存分配。但是新的申請一定是通過操作的內核到物理內存中去找那么一段空間,并且告訴線性地址空間好了,可以建設映射關系,最終page table建立映射關系。
這反映了上述描述過程的大體情況??梢钥吹矫恳粋€用戶程序都會有自己的頁表,并且映射到對應的主存儲器上去。
根據(jù)上述文字和圖表的描述可以發(fā)現(xiàn)2個問題:
1.每個進程如果需要訪問內存的時候都需要去查找page table的話,勢必會造成服務器的性能底下
2.如果主存儲器的內存滿了以后,應用程序還需要調用內存的時候怎么辦
對于第一個問題,我們就需要借助TLB(Translation Lookaside Buffer)翻譯后備緩沖器。TLB是一個內存管理單元,它可以用于改進虛擬地址到物理地址轉換速度的緩存。這樣每次在查找page table的時候就可以先去TLB中查找相應的頁表數(shù)據(jù),如果有就直接返回,沒有再去查找page table,并把查找到的結果緩存中TLB中。TLB雖然解決了緩存的功能,但是在那么page table中查找映射關系仍然很慢,所以又有了page table的分級目錄。page table可以分為1級目錄,2級目錄和偏移量
但是一個進程在運行的時候要頻繁的打開文件,關閉文件。這就意味著要頻繁的申請內存和釋放內存。有些能夠在內存中緩存數(shù)據(jù)的那些進程,他們對內存的分配和回收更多,那么每一次分配都會在頁表中建立一個對應項。所以,就算內存的速度很快,大量頻繁的同一時間分配和釋放內存,依然會降低服務器的整體性能。當然內存空間不夠用的時候,我們稱為oom(out of memory,內存耗盡)。當內存耗盡的時候,,整個操作系統(tǒng)掛了。這種情況下我們可以考慮交換分區(qū),交換分區(qū)畢竟是由硬盤虛擬出來的內存,所以其性能與真正的內存相比,差了很多,所以要盡力避免使用交換分區(qū)。有物理內存空間的時候盡量保證全部使用物理內存。cpu無論如何是不能給交換內存打交道的,它也只能給物理內存打交道,能尋址的空間也只能是物理內存。所以當真正物理內存空間不夠用的時候,會通過LRU算法把其中最近最少使用的內存放到交換內存中去,這樣物理內存中的那段空間就可以供新的程序使用了。但是這樣會引發(fā)另外的一個問題,即原來的進程通過page table尋找的時候,那一段空間的數(shù)據(jù)已經(jīng)不屬于它了。所以此刻cpu發(fā)送通知或者異常告訴這個程序,這個地址空間已不屬于它,這個時候可能會出現(xiàn)2種情況:
1.物理內存有可用的空間可用:這個時候cpu會根據(jù)以前的轉換策略會把交換分區(qū)中的那段內存重新送到物理內存中去,但是轉換過來的空間地址不一定會是以前的那一段空間地址,因為以前的那一段空間地址可能已經(jīng)被別人使用了。
2.物理內存沒有可用的空間可用:這個時候依然會使用LRU算發(fā)把當前物理地址空間上最近最少使用的空間地址轉換到交換內存中去,并把當前進程需要的這斷在交換空間中的內存送到物理內存空間中去,并且重新建立映射關系。
上述通知或者異常出現(xiàn)的情況,通常叫做缺頁異常。缺頁異常也分為大異常和小異常兩種。大異常就是訪問的數(shù)據(jù)內存中沒有,不的不去硬盤上加載,無論是從交換內存中還是直接從磁盤的某個文件系統(tǒng)上,反正需要從硬盤上去加載,這種異常加載需要很長時間。小異常就是進程之間通過共享內存,第二個進程訪問的時候,查看本地的內存映射表沒有,但是其它進程已經(jīng)擁有了這個內存頁,所以可以直接映射,這種異常加載需要的時間一般很短。
在操作系統(tǒng)開機的時候,每一個io設備都會像cpu申請一些列的隨機端口,這種端口叫做io端口。在IBM PC體系結構中,I/O地址空間一共提供了65,536個8位的I/O端口。正是這些io端口的存在,cpu可以與io設備進行讀寫交互的過程。在執(zhí)行讀寫操作時,CPU使用地址總線選擇所請求的I/O端口,使用數(shù)據(jù)總線在CPU寄存器和端口之間傳送數(shù)據(jù)。I/O端口還可以被映射到物理地址空間:因此,處理器和I/O設備之間的通信就可以直接使用對內存進行操作的匯編語言指令(例如,mov、and、or等等)?,F(xiàn)代的硬件設備更傾向于映射I/O,因為這樣處理的速度較快,并可以和DMA結合起來使用。這樣io在和內存?zhèn)鲾?shù)據(jù)的時候就不需要通過cpu,cpu把總線的控制權交給DMA,每次io傳數(shù)據(jù)的時候就調用DMA一次,就把cpu給解放了出來。當數(shù)據(jù)傳輸完了以后,DMA通知給cpu中斷一次。DMA在運行的時候對整個總線有控制權限,當cpu發(fā)現(xiàn)有其它進程需要使用總線的時候,二者就會產(chǎn)生爭用。這個時候,在總線控制權的使用上,CPU和DMA具有相等的權限。只要CPU委托給了DMA,就不能隨意的收回這個委托,就要等待DMA的用完。
如果沒有其它進程可以運行,或者其它進程運行的時間非常短,這個時候CPU發(fā)現(xiàn)我們的IO仍然沒有完成,那就意味著,CPU只能等待IO了。CPU在時間分配里面有個iowait的值,就是CPU在等待IO花費的時間。有些是在同步調用過程中,CPU必須要等待IO的完成;否者CPU可以釋放IO的傳輸在背后自動完成,CPU自己去處理其它的事情。等硬盤數(shù)據(jù)傳輸完成以后,硬盤只需要像CPU發(fā)起一個通知即可。CPU外圍有一種設備,這個設備叫做可編程中斷控制器。每一個硬件設備為了給CPU通信,在剛開機的時候,在BIOS實現(xiàn)檢測的時候,這個設備就要到可編程中斷控制器上去注冊一個所謂的中斷號。那么這個號碼就歸這個硬件使用了。當前主機上可能有多個硬件,每一個硬件都有自己的號碼,CPU在收到中斷號以后,就能夠通過中斷相量表查找到那個硬件設備進行中斷。并且就由對應的IO端口過來處理了。
CPU正在運行其它進程,當一個中斷請求發(fā)過來的時候,CPU會立即終止當前正在處理的進程,而去處理中斷。當前CPU掛起當前正在處理的進程,轉而去執(zhí)行中斷的過程,也叫做中斷切換。只不過,這種切換在量級別上比進程切換要低一些,而且任何中斷的優(yōu)先級通常比任何進程也要高,因為我們指的是硬件中斷。中斷還分為上半部和下半部,一般而言,上半部就是CPU在處理的時候,把它接進來,放到內存中,如果這個事情不是特別緊急(CPU或者內核會自己判斷),因此在這種情況下,CPU回到現(xiàn)場繼續(xù)執(zhí)行剛才掛起的進程,當這個進程處理完了,再回過頭來執(zhí)行中斷的下半部分。
在32位系統(tǒng)中,我們的內存(線性地址)地址空間中,一般而言,低地址空間有一個G是給內核使用的,上面3個G是給進程使用的。但是應該明白,其實在內核內存當中,再往下,不是直接這樣劃分的。32位系統(tǒng)和64位系統(tǒng)可能不一樣(物理地址),在32位系統(tǒng)中,最低端有那么10多M的空間是給DMA使用的。DNA的總線寬度是很小的,可能只有幾位,所以尋址能力很有限,訪問的內存空間也就很有限。如果DMA需要復制數(shù)據(jù),而且自己能夠尋址物理內存,還可以把數(shù)據(jù)直接壯哉進內存中去,那么就必須保證DMA能夠尋址那段內存才行。尋址的前提就是把最低地址斷M,DA的尋址范圍內的那一段給了DMA。所以站在這個角度來說,我們的內存管理是分區(qū)域的。
在32位系統(tǒng)上,16M的內存空間給了ZONE_DMA(DMA使用的物理地址空間);從16M到896M給了ZONE_NORMAL(正常物理地址空間),對于Linux操作系統(tǒng)來說,是內核可以直接訪問的地址空間;從896M到1G這斷空間叫做"Reserved"(預留的物理地址空間);從1G到4G的這段物理地址空間中,我們的內核是不能直接訪問的,要想訪問必須把其中的一段內容映射到Reserved來,在Reserved中保留出那一段內存的地址編碼,我們內核才能上去訪問,所以內核不直接訪問大于1G的物理地址空間。所以在32位系統(tǒng)上,它訪問內存當中的數(shù)據(jù),中間是需要一個額外步驟的。
在64位系統(tǒng)上,ZONE_DAM給了低端的1G地址空間,這個時候DMA的尋址能力被大大加強了;ZONE_DAM32可以使用4G的空間;而大于1G以上給劃分了ZONE_NORMAL,這段空間都可以被內核直接訪問。所以在64位上,內核訪問大于1G的內存地址,就不需要額外的步驟了,效率和性能上也大大增加,這也就是為什么要使用64位系統(tǒng)的原因。
在現(xiàn)在的PC架構上,AMD,INTER都支持一種機制,叫做PEA(物理地址擴展)。所謂PAE。指的是在32位系統(tǒng)的地址總線上,又擴展了4位,使得32位系統(tǒng)上的地址空間可以達到64G。當然在32為系統(tǒng)上,不管你的物理內存有多大,單個進程所使用的空間是無法擴展的。因為在32位的系統(tǒng)上,線性地址空間只有4個G,而單個進程能夠識別的訪問也只有3個G。
linux的虛擬內存子系統(tǒng)包含了以下幾個功能模塊:
slab allocator,zoned buddy allocator,MMU,kswapd,bdflush
slab allocator叫做slab分配器
buddy allocator又叫做buddy system,叫做伙伴系統(tǒng),也是一種內存分配器
buddy system是工作在MMU之上的,而slab allocator又是工作在buddy system之上的。
設置為小于等于1G,在數(shù)據(jù)庫服務器應該勁量避免使用交換內存
3.在應用服務器上,可以設置為RAM*0.5,當然這個是理論值
如果不的不使用交換內存,應該把交換內存放到最靠外的磁道分區(qū)上,因為最外邊的磁盤的訪問速度最快。所以如果有多塊硬盤,可以把每塊硬盤的最外層的磁道拿一小部分出來作為交換分區(qū)。交換分區(qū)可以定義優(yōu)先級,因此把這些硬盤的交換內存的優(yōu)先級設置為一樣,可以實現(xiàn)負載均衡的效果。定義交換分區(qū)優(yōu)先級的方法為編輯/etc/fstab:
/dev/sda1 swap swap pri=5 0 0
/dev/sdb1 swap swap pri=5 0 0
/dev/sdc1 swap swap pri=5 0 0
/dev/sdd1 swap swap pri=5 0 0
四.內存耗盡時候的相關調優(yōu)參數(shù)
當Linux內存耗盡的時候,它會殺死那些占用內存最多的進程,以下三種情況會殺死進程:
1.所有的進程都是活動進程,這個時候想交換出去都沒有空閑的進程
2.沒有可用的page頁在ZONE_NORMAL中
3.有其它新進程啟動,申請內存空間的時候,要找一個空閑內存給做映射,但是這個時候找不到了
一旦內存耗盡的時候,操作系統(tǒng)就會啟用oom-kill機制。
在/proc/PID/目錄下有一個文件叫做oom_score,就是用來指定oom的評分的,就是壞蛋指數(shù)。
如果要手動啟用oom-kill機制的話,只需要執(zhí)行echo f>/proc/sysrq-trigger即可,它會自動殺掉我們指定的壞蛋指數(shù)評分最高的那個進程
可以通過echo n > /proc/PID/oom_adj來調整一個進程的壞蛋評分指數(shù)。最終的評分指數(shù)就是2的oom_adj的值的N次方。假如我們的一個進程的oom_adj的值是5,那么它的壞蛋評分指數(shù)就是2的5次方。
如果想禁止oom-kill功能的使用可以使用vm.panic_on_oom=1即可。
五.與容量有關的內存調優(yōu)參數(shù):
overcommit_memory,可用參數(shù)有3個,規(guī)定是否能夠過量使用內存:
0:默認設置,內核執(zhí)行啟發(fā)式的過量使用處理
1:內核執(zhí)行無內存的過量使用處理。使用這個值會增大內存超載的可能性
2:內存的使用量等于swap的大小+RAM*overcommit_ratio的值。如果希望減小內存的過度使用,這個值是最安全的
overcommit_ratio:將overcommit_memory指定為2時候,提供的物理RAM比例,默認為50
六.與通信相關的調優(yōu)參數(shù)
常見在同一個主機中進行進程間通信的方式:
1.通過消息message;2.通過signal信號量進行通信;3.通過共享內存進行通信,跨主機常見的通信方式是rpc
以消息的方式實現(xiàn)進程通信的調優(yōu)方案:
msgmax:以字節(jié)為單位規(guī)定消息隊列中任意消息的最大允許大小。這個值一定不能超過該隊列的大小(msgmnb),默認值為65536
msgmnb:以字節(jié)為單位規(guī)定單一消息隊列的最大值(最大長度)。默認為65536字節(jié)
msgmni:規(guī)定消息隊列識別符的最大數(shù)量(及隊列的最大數(shù)量)。64位架構機器的默認值為1985;32位架構機器的默認值為1736
以共享內存方式實現(xiàn)進程通信的調優(yōu)方案:
shmall:以字節(jié)為單位規(guī)定一次在該系統(tǒng)中可以使用的共享內存總量(單次申請的上限)
shmmax:以字節(jié)為單位規(guī)定每一個共享內存片段的最大大小
shmmni:規(guī)定系統(tǒng)范圍內最大共享內存片段。在64和32位的系統(tǒng)上默認值都是4096
七.與容量相關的文件系統(tǒng)可調優(yōu)參數(shù):
file-max:列出內核分配的文件句柄的最大值
dirty_ratio:規(guī)定百分比值,當臟數(shù)據(jù)達到系統(tǒng)內存總數(shù)的這個百分比值后開始執(zhí)行pdflush,默認為20
dirty_background_ratio:規(guī)定百分比值,當某一個進程自己所占用的臟頁比例達到系統(tǒng)內存總數(shù)的這個百分比值后開始在后臺執(zhí)行pdflush,默認為10
dirty_expire_centisecs:pdlush每隔百分之一秒的時間開啟起來刷新臟頁,默認值為3000,所以每隔30秒起來開始刷新臟頁
dirty_writeback_centisecs:每隔百分之一秒開始刷新單個臟頁。默認值為500,所以一個臟頁的存在時間達到了5秒,就開始刷新臟
八.linux內存常用的觀察指標命令:
Memory activity
vmstat [interval] [count]
sar -r [interval] [count]
Rate of change in memory
sar -R [interval] [count]
frmpg/s:每秒釋放或者分配的內存頁,如果為正數(shù),則為釋放的內存頁;如果為負數(shù),則為分配的內存頁
bufpg/s:每秒buffer中獲得或者釋放的內存頁。如果為正數(shù)則為獲得的內存頁,為負數(shù)。則為釋放的內存頁
campg/s:每秒cache中獲得或者釋放的內存頁。如果為正數(shù)則為獲得的內存頁,為負數(shù)。則為釋放的內存頁
Swap activity
sar -W [interval] [count]
ALL IO
sar -B [interval] [count]
pgpgin/s:每秒從磁盤寫入到內核的塊數(shù)量
pgpgout/s:每秒從內核寫入到磁盤的塊數(shù)量
fault/s:每秒鐘出現(xiàn)的缺頁異常的個數(shù)
majflt/s:每秒鐘出現(xiàn)的大頁異常的個數(shù)
pgfree/s:每秒回收回來的頁面?zhèn)€數(shù)