版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
iLinuxx86_64與i386區(qū)別|之內(nèi)
存尋址逾
21引子
毫無疑問,不管是32位,還是64位處理器,所有進程(執(zhí)行的程序)都必須占
用一定數(shù)量的內(nèi)存,它或是用來存放從磁盤載入的程序代碼,或是
存放取自用戶輸入的數(shù)據(jù)等等。不過進程對這些內(nèi)存的管理方式因內(nèi)存用途不一
而不盡相同,有些內(nèi)存是事先靜態(tài)分配和統(tǒng)一回收的,而有些卻是按需要動態(tài)分
配和回收的。
對任何一個普通進程來講,它都會涉及到5種不同的數(shù)據(jù)段。稍有編程知識的朋
友都該能想到這幾個數(shù)據(jù)段種包含有“程序代碼段”、“程序數(shù)據(jù)段”、“程序
堆棧段”等。不錯,這兒種數(shù)據(jù)段都在其中,但除了以上兒種數(shù)據(jù)段之外,進程
還另外包含兩種數(shù)據(jù)段。下面我們來簡單歸納一下進程對應(yīng)的內(nèi)存空間中所包含
的5種不同的數(shù)據(jù)區(qū)。
代碼段:代碼段是用來存放可執(zhí)行文件的操作指令,也就是說是它是可執(zhí)行程序
在內(nèi)存種的鏡像。代碼段需要防止在運行時被非法修改,所以只準(zhǔn)許讀取操作,
而不允許寫入(修改)操作——它是不可寫的。
數(shù)據(jù)段:數(shù)據(jù)段用來存放可執(zhí)行文件中已初始化全局變量,換句話說就是存放程
序靜態(tài)分配的變量和全局變量。
BSS段:BSS段包含了程序中未初始化全局變量,在內(nèi)存中bss段全部置零。
堆(heap):堆是用于存放進程運行中被動態(tài)分配的內(nèi)存段,它大小并不固定,
可動態(tài)擴張或縮減。當(dāng)進程調(diào)用malloc等函數(shù)分配內(nèi)存時,新分配的內(nèi)存就被
動態(tài)添加到堆上(堆被擴張);當(dāng)利用free等函數(shù)釋放內(nèi)存時,被釋放的內(nèi)存
從堆中被剔除(堆被縮減)。
棧:棧是用戶存放程序臨時創(chuàng)建的局部變量,也就是說我們函數(shù)括弧“{}”中定
義的變量(但不包括static聲明的變量,static意味這在數(shù)據(jù)段中存放變量)。
除此以外在函數(shù)被調(diào)用時,其參數(shù)也會被壓入發(fā)起調(diào)用的進程棧中,并且待到調(diào)
用結(jié)束后,函數(shù)的返回值也回被存放回棧中。由于棧的先進先出特點,所以棧
特別方便用來保存/恢復(fù)調(diào)用現(xiàn)場。從這個意義上將我們可以把堆棧看成一個臨
時數(shù)據(jù)寄存、交換的內(nèi)存區(qū)。
靜態(tài)分配內(nèi)存就是編譯器在編譯程序的時候根據(jù)源程序來分配內(nèi)存.動態(tài)分配
內(nèi)存就是在程序編譯之后,運行時調(diào)用運行時刻庫函數(shù)來分配內(nèi)存的.靜態(tài)分
配由于是在程序運行之前,所以速度快,效率高,但是局限性大.動態(tài)分配在程
序運行時執(zhí)行,所以速度慢,但靈活性高。
術(shù)語〃BSS〃已經(jīng)有些年頭了,它是blockstartedbysymbol的縮寫。因為未初
始化的變量沒有對應(yīng)的值,所以并不需要存儲在可執(zhí)行對象中。但是因為C標(biāo)準(zhǔn)
強制規(guī)定未初始化的全局變量要被賦予特殊的默認(rèn)值(基本上是0值),所以內(nèi)
核要從可執(zhí)行代碼裝入變量(未賦值的)到內(nèi)存中,然后將零頁映射到該片內(nèi)存上,
于是這些未初始化變量就被賦予了0值。這樣做避免了在目標(biāo)文件中進行顯式
地初始化,減少空間浪費(來自《Linux內(nèi)核開發(fā)》)
我們在x86_64環(huán)境上運行以下經(jīng)典程序:
#include<stdio.h>
#include<malloc.h>
#include<unistd.h>
intbss_var;
intdata_varO=l;
intmain(intargc,char**argv)
(
printf(z,belowareaddressesoftypesofprocess,smem\n,z);
printf(Z/Textlocation:\n,z);
printf(z,\tAddressofmain(CodeSegment):%p\nz,,main);
printf(z,\n〃);
intstack_var0=2;
printf(z?StackLocation:\n,z);
printf(z,\tlnitialendofstack:%p\nz/,&stack_varO);
intstack_varl=3;
printf(z,\tnewendofstack:%p\n/z,&stack_varl);
printf\n〃);
printf(z,DataLocation:\n,z);
printf(z,\tAddressofdata_var(DataSegment):%p\n,z,&data_varO);
staticintdata_varl=4;
printf(z,\tNewendofdata_var(DataSegment):%p\n,z,&data_varl);
printf(z,\n〃);
printf(Z,BSSLocation:\n,z);
printf(zz\tAddressofbss_var:%p\n,z,&bss_var);
printf(〃\n〃);
char*b=sbrk((ptrdiff_t)O);
printfC'HeapLocation:\n,z);
printf(z,\tlnitialendofheap:%p\n,/,b);
brk(b+4);
b=sbrk((ptrdiff_t)0);
printf(zz\tNewendofheap:%p\n〃,b);
return0;
運行結(jié)果:
[root@kolleraupdilogs]#./memory
belowareaddressesoftypesofprocess,smem
Textlocation:
Addressofmain(CodeSegment):0x400568
StackLocation:
Initialendofstack:0x7fff0e0dc544
newendofstack:0x7fff0e0dc540
DataLocation:
Addressofdata_var(DataSegment):0x600bfc
Newendofdata_var(DataSegment):0x600c00
BSSLocation:
Addressofbss_var:0x600cl4
HeapLocation:
Initialendofheap:0xb059000
Newendofheap:0xb059004
32x86_64體系新變化
AMDx86_64的出現(xiàn),給全新的64位的x86帶來了很多結(jié)構(gòu)上的變化:
1)64位整型數(shù)
在X86-64中,所有通用寄存器(GPRs)都從32位擴充到了64位,名字也發(fā)生
了變化。8個通用寄存器(eax,ebx,ecx,edx,
ebp,esp,esi,edi)在新的結(jié)構(gòu)中被命名為rax,rbx,rex,rdx,rbp,rsp,
rsi,rdi,它們都是64位的。呵呵,想當(dāng)年,從16位擴充到32位時,同樣也
有一次名字的變化。所有算術(shù)邏輯操作、寄存器到內(nèi)存的數(shù)據(jù)傳輸現(xiàn)在都能以
64位的整形類型進行操作。堆棧的壓棧和彈出操作都以8字節(jié)的單位進行,而
且指針類型也擁有了64位。
2)新增寄存器
在新的架構(gòu)中,另外新增了8個通用寄存器:64位的r8,r9,rlO,rll,rl2,rl3,
rl4,rl5o這樣就有利與編譯器將函數(shù)參數(shù)、返回值等放在這些新增的GPR里面
進行傳遞,從而提高了程序的運行速度。同時,128位的MMX寄存器也從原來的
8個增加到了16個。
3)增大的邏輯地址空間
目前在新的架構(gòu)中,應(yīng)用程序可以擁有的邏輯地址空間從4GB增加到了256TB
(2~48),而且這一邏輯地址空間在未來可能增加到16EB
(2*64,1EB=1O24PB,1PB=1024TB,1TB=1O24GB)。
4)增大的物理地址空間
目前的X86-64架構(gòu),可以支持的物理內(nèi)存擴展到了1TB(2*40),當(dāng)然,在未
來該數(shù)字可以擴展到4PB(2"52)o相比于經(jīng)過PAE技術(shù)擴展的i386的64GB物
理內(nèi)存,新的架構(gòu)帶來了不小的飛躍。
5)無縫使用SSE指令
新的架構(gòu)借鑒和吸收了Intel的SSE、SSE2的核心指令,并在2005年加入了SSE3。
在這一新的架構(gòu)下,可以不再需要x87浮點協(xié)處理器來完成浮點運算了。
6)NX位
跟PAE技術(shù)一樣,新的X86-64架構(gòu)也在頁表項中增加了NX位,來幫助CPU判斷
該頁包含的內(nèi)容是否是可以執(zhí)行的,從而避免借助"bufferoverrun”導(dǎo)致的病
毒攻擊。
7)去除舊的機制
在新架構(gòu)的“長模式(longmode)”下,很多在IA32中被提出,但確不經(jīng)常被
操作系統(tǒng)用到的一些機制不再被支持。這些機制包括段式地址變化機制(FS和
GS仍然被保留),任務(wù)轉(zhuǎn)移門(TSS)機制,以及虛擬86模式。當(dāng)然,出于向
下兼容的考慮,X86-64在“傳統(tǒng)模式"(Legacymode)下,仍然對這些機制進
行了保留。
43x86_64段式管理
x86的兩種工作模式:實地址模式和虛地址模式(保護模式)。Linux主要工作
在保護模式下。
在保護模式下,64位x86體系架構(gòu)的虛地址空間可達2c48Byte,即256TB,這
可比只能到達區(qū)區(qū)4GB的32位x86體系大多了。邏輯地址到線性地址的轉(zhuǎn)換由
x86分段機制管理。段寄存器CS、DS、ES、SS、FS或GS各標(biāo)識一個段。這些段
寄存器作為段選擇器,用來選擇該段的描述符。
Linux中關(guān)于段描述符的宏定義集中在文件/arch/x86/include/asm/Segment.h
中,我們先貼出部分代碼:
32位的:
#defineGDT_ENTRY_KERNEL_BASE12/*
0x0000000cc=>1100*/
#defineGDT_ENTRY_KERNEL_CS(GDT_ENTRY_KERNEL_BASE+0)/*
0x0000000cc=>1100*/
#defineGDT_ENTRY_KERNEL_DS(GDT_ENTRY_KERNEL_BASE+1)/*
OxOOOOOOOdc=>1101*/
64位的:
#defineGDT_ENTRY_KERNEL32_CS1/*0x00000001*/
#defineGDT_ENTRY_KERNEL_CS2/*0x00000002*/
#defineGDT_ENTRY_KERNEL_DS3/*0x00000003*/
#define_KERNEL32_CS(GDT_ENTRY_KERNEL32_CS*8)/*
0x00000100*/
^defineGDT_ENTRY_DEFAULT_USER32_CS4/*0x00000004*/
#defineGDT_ENTRY_DEFAULT_USER?DS5/*0x00000005*/
#defineGDT_ENTRY_DEFAULT_USER_CS6/*0x00000006*/
#define_USER32_CS(GDT_ENTRY_DEFAULT_USER32_CS*8+3)/*
0x00000403*/
#define_USER32_DS_USER_DS
不管32位還是64位的:(我們只關(guān)心64位)
^define_KERNEL_CS(GDT_ENTRY_KERNEL_CS*8)/*0x00000200
*/
#define_KERNEL_DS(GDT_ENTRY_KERNEL_DS*8)/*0x00000300
*/
#define_USER_DS(GDT_ENTRY_DEFAULT_USER_DS*8+3)/*
0x00000503*/
#define_USER?CS(GDT_ENTRY_DEFAULT_USER_CS*8+3)/*
0x00000603*/
看見沒有,我們熟悉的_USER_CS,_USER_DS,_KERNEL_CS,和_KERNEL_DS,
就是傳說中的段選擇子。
我們看到,內(nèi)核代碼段的描述子存放在以0x200為基地址的內(nèi)存單元中,占8
個字節(jié)。同樣,內(nèi)核數(shù)據(jù)段、用戶代碼段、用戶數(shù)據(jù)段分別存放在
以0x300、0x500、0x600為基地址的內(nèi)存單元中。我們注意到,_USER_DS和
_USER_CS的最低三位為3,也就是011,這正說明
其CPL位為11,代表用戶模式,TI為0,代表GDT。
對于x86_64來說,虛擬地址由16位選擇子和64位偏移量組成,段寄存器僅僅
存放選擇子。CPU的分段單元(SU)執(zhí)行以下操作:
[1]先檢查選擇子的TI字段,以決定描述子對應(yīng)的描述子保存在哪一個描述符
表中。TI字段指明描述子是在GDT中(在這種情況下,分段單元從gdtr寄存器
中得到GDT的線性基地址)還是在激活的LDT中(在這種情況下,分段單元從
Idtr寄存器中得到LDT的線性基地址)。
[2]從選擇子的13位index字段計算描述子的地址,index字段的值乘以8(一
個描述子的大小,其實就是屏蔽掉末尾那三位指示特權(quán)級的CPL和指示TI的字
段),這個結(jié)果與gdtr或Idtr寄存器中的內(nèi)容相加。
[3]將對應(yīng)的段描述子從內(nèi)存拷貝到CPU的影子Cache中,這樣,只有在選擇子
改變的情況下才會修改影子Cache中的內(nèi)容。
[4]把虛擬地址的偏移量與隱Cache中描述子Base字段的值相加就得到了線性
地址。
例如,為了對內(nèi)核代碼段尋址,內(nèi)核只需要把_KERNEL_CS宏產(chǎn)生的選擇子的值
裝進cs段寄存器即可。注意,與段相關(guān)的線性地址還是從
0開始,達到264T的尋址限長。這就意味著在用戶態(tài)或內(nèi)核態(tài)下的所有進程
任然使用相同的虛擬地址,這就是傳說中的“基本平坦模式”。
按照這個模式,虛擬地址跟線性地址數(shù)字一?樣,唯一-的不同就是CS和DS裝的內(nèi)
容不同,可能是KERNEL級別的選擇子,也可能是USER級別
的選擇子。
54x86_64分頁管理
雖然邏輯地址擴展到了64位,但是,現(xiàn)有的設(shè)計并沒有完全用到這64位的空間
(2*64=16EB),因為使用到如此大的空間,勢必造成很大的系統(tǒng)開銷。AMD64
在設(shè)計的時候就決定在x86_64的第一階段,只用這64位中的低48位來做頁式
地址轉(zhuǎn)換,高16位(48-64位)將填充第47位相同的內(nèi)容(這種方式類似于符
號擴展)。如果邏輯地址不符合此規(guī)定,系統(tǒng)將產(chǎn)生異常。符合此規(guī)定的地址稱
為canonicalform,地址的范圍分為兩段:0到00007FFF-FFFFFFFF,以及FFFF8
構(gòu),也為操作系統(tǒng)的設(shè)計帶來了一定便利:可以取地址的上半段保留做為操作
系統(tǒng)的邏輯地址空間,而低地址部分做為裝載應(yīng)用程序的空間,而canonical
form不允許的地址空間則做為操作系統(tǒng)的標(biāo)志、以及特權(quán)級的標(biāo)識等。當(dāng)然,
這樣的設(shè)計在未來地址進一步擴展的時候?qū)⒊蔀橐粋€新的問題。
采用64位地址空間的X86-86被稱為是運行在“長模式"(longmode)下,該
模式可以看成是對PAE模式的一個擴充。長模式允許使用三個不同的物理頁面大
?。?KB、2MB和1GB。在使用64位中的48位用來存放地址時,與PAE模式下
的三級頁面映射機制不同的是,長模式下線性地址到物理地址的映射需要經(jīng)過四
級地址映射。在這四級地址映射機制中,原來PAE模式下僅擁有4個表項的頁
目錄指針表被擴展到512個表項。同時,在最末一級加入一?級新的頁面映射結(jié)構(gòu),
該結(jié)構(gòu)被稱為第四級頁表(MapLevel4Table,PML4),它跟PAE模式下
的頁目錄及頁表(在長模式中,成為了頁目錄)一樣,擁有512個表項。如果地
址進一步擴充,如把64位尋址全部用上,該頁表就能夠擴充到33,554,432個
表項,或者干脆再加一層地址映射(PML5),當(dāng)然,按照目前只用了48位的情
況下,用到512個表項的PML4就已經(jīng)夠用了。
可以想象,用到48位的X86-64虛擬地址的分配機制為:
-0—11(12)位:頁內(nèi)偏移;
-12-20(9)位:由PML4來映射;
-21-29(9)位:高一級頁目錄來映射(如果PS=1,則該頁表項指向一個2MB
的頁);
-30-38(9)位:再高一級的頁目錄來映射(如果PS=2,則該頁表項指向一個
1GB的頁);
-39—47(9)位:頁目錄指針表來映射。
X86-64的長模式下,對16位以及32位代碼進行了兼容,即使CPU上跑的是64
位的操作系統(tǒng),歷史遺留的16位以及32位代碼將都能夠在該操作系統(tǒng)上運行。
由于X86-64兼容IA32的指令,所以,這些代碼在這種情況下運行,基本上沒有
性能損耗。
在傳統(tǒng)模式(Legacymode)下,x86-64的CPU的工作模式跟傳統(tǒng)的IA32沒有
什么兩樣。
6堆的管理譴
一般人喜歡把堆和棧來做對比,網(wǎng)上資料也很多,這里我只分享一下我本人的理
解。堆這個東西跟棧沒有直接的關(guān)聯(lián),它只給程序員提供一個手工分配和釋放的
內(nèi)存空間,僅此而已。
對于每個Unix進程來說,都擁有一個特殊的線性區(qū),這個線性區(qū)就是所謂的堆
(heap),堆用于滿足進程的動態(tài)內(nèi)存請求。內(nèi)存描述符的start_brk與brk
字段分別限定了這個區(qū)的開始地址和結(jié)束地址。
進程可以使用下面的C語言API來請求和釋放動態(tài)內(nèi)存:
malloc(size)
請求size個字節(jié)的動態(tài)內(nèi)存。如果分配成功,就返回所分配內(nèi)存單元第一
個字節(jié)的線性地址。
calloc(n,size)
請求含有n個大小為size的元素的一個數(shù)組。如果分配成功,就把數(shù)組元
素初始化為0,并返回第一個元素的線性地址。
realloc(ptr,size)
改變由前面的malloc?;騝alloc()分配的內(nèi)存區(qū)字段的大小。
free(addr)
釋放由mallocO或calloc。分配的起始地址為addr的線性區(qū)。
brk(addr)
直接修改堆的大小。addr參數(shù)指定current->mm->brk的新值,返回值是線
性區(qū)新的結(jié)束地址(進程必須檢查這個地址和所請求的地址值addr是否致)。
sbrk(incr)
類似于brk(),不過其中的incr參數(shù)指定是增加還是減少以字節(jié)為單位的
堆大小。
brk()函數(shù)和以上列出的函數(shù)有所不同,因為它是唯一以系統(tǒng)調(diào)用的方式實現(xiàn)的
函數(shù),而其他所有的函數(shù)都是使用brk()和mmap()系統(tǒng)調(diào)用實現(xiàn)的C語言庫函數(shù)。
當(dāng)用戶態(tài)的進程調(diào)用brk()系統(tǒng)調(diào)用時,內(nèi)核執(zhí)行sys_brk(addr)函數(shù)。該函數(shù)
首先驗證addr參數(shù)是否位干進程代碼所在的線性區(qū)。如果是,則立即返回,
因為堆不能與進程代碼所在的線性區(qū)重疊:
mm=current->mm;
down_write(&.mm->mmap_sem);
if(addr<mm->end_code){
out:
up_write(&mm->mmap_sem);
returnmm->brk;
由于brk()系統(tǒng)調(diào)用作用于某一個非代碼的線性區(qū),它分配和釋放完整的頁。
因此,該函數(shù)把addr的值調(diào)整為PAGE_SIZE的倍數(shù),然后把調(diào)整的結(jié)果與內(nèi)存
描述符的brk字段的值進行比較:
newbrk=(addr+Oxfff)&OxfffffOOO;
oldbrk=(mm->brk+Oxfff)&OxfffffOOO;
if(oldbrk==newbrk){
mm->brk=addr;
gotoout;
如果進程請求縮小堆,則sys_brk()調(diào)用do_munmap()函數(shù)完成這項任務(wù),然后
返回:
if(addr<=mm->brk){
if(!do_munmap(mm,newbrk,o1dbrk-newbrk))
mm->brk=addr;
gotoout;
如果進程請求擴大堆,則sys_brk()首先檢查是否允許進程這樣做。如果進程企
圖分配在其跟制范圍之外的內(nèi)存,函數(shù)并不多分配內(nèi)存,只簡單地返回mm->brk
的原有值:
rlim=current->signal->rlim[RLIMIT_DATA].rlim_cur;
if(rlim<RLIM_INFINITY&&addr-mm->start_data>rlim)
gotoout;
然后,函數(shù)檢查擴大后的堆是否和進程的其他線性區(qū)相重疊,如果是,不做任何
事情就返回:
if(find_vma_intersection(mm,oldbrk,newbrk+PAGE_SIZE))
gotoout;
如果一切都順利,則調(diào)用do_brk()函數(shù)。如果它返回oldbrk,則分配成功且
sys_brt()函數(shù)返回addr的值;否則,返回舊的mm->brk值:
if(do_brk(oldbrk,newbrk-oldbrk)==oldbrk)
mm->brk=addr;
gotoout;
do_brk()函數(shù)實際上是僅處理匿名線性區(qū)的do_mmap()的簡化版??梢哉J(rèn)為它的
調(diào)論等價于:
dommap(NULL,oldbrk,newbrk-oldbrk,
PR0T_READ|PROT__WRITE|PR0T_EXEC,
MAP_FIXED|MAP_PRIVATE,0)
當(dāng)然,do_brk()比do_mmap()稍快,因為前者假定線性區(qū)不映射磁盤上的文件,
從而避免亍檢查線性反對象的兒個字段。
7創(chuàng)建和刪除進程的地址空間收藏
本博,我們重點關(guān)注fork。系統(tǒng)調(diào)用為子進程創(chuàng)建一個完整的新地址空間。相
反,當(dāng)進程結(jié)束時,內(nèi)核撤消它的地址空間。我們重點來討論Linux如何執(zhí)行這
兩種操作。
81創(chuàng)建進程的地址空間
回憶一下“進程的創(chuàng)建——dofork。函數(shù)詳解”博文:當(dāng)創(chuàng)建一個新的進程
時內(nèi)核調(diào)用copy_mm()函數(shù)。這個函數(shù)通過建立新進程的所有頁表和內(nèi)存描述符
來創(chuàng)建進程一的地址空間:
staticintcopy_mm(unsignedlongclone_flags,structtaskstruct*tsk)
{
structmmstruct*mm,*oldmm;
intretval;
tsk->min_fIt=tsk->maj_fIt=0;
tsk->nvcsw=tsk->nivcsw=0;
tsk->mm=NULL;
tsk->active_mm=NULL;
/*
*Arewecloningakernelthread?
*
*WeneedtostealaactiveVMforthat..
*/
oldmm=current->mm;
if(!oldmm)
return0;
if(clone_flags&CLONE_VM){
atomicinc(&o1users);
mm=oldmm;
gotogood_mm;
)
retval=-ENOMEM;
mm=dup_mm(tsk);
if(!mm)
gotofailnomem;
goodmm:
tsk->mm=mm;
tsk->active_mm=mm;
return0;
fail_nomem:
returnretval;
}
通常,每個進程都有自己的地址空間,但是輕進程可以通過調(diào)用clone。函數(shù)(設(shè)
置了CL0NE_VM標(biāo)志)來創(chuàng)建。這些輕量級進程共享同一?地址空間,也就是說,
允許它們對同一組頁進行尋址。
按照前面講述的“寫時復(fù)制”方法,傳統(tǒng)的進程繼承父進程的地址空間,只要
頁是只讀的,就依然共享它們。當(dāng)其中的一個進程試圖對某個頁進行寫時,此時,
這個頁才被復(fù)制一份。一段時間之后,所創(chuàng)建的子進程通常會因為缺頁異常而獲
得與父進程不一樣的完全屬于自己的地址空間。
另一方面,輕量級的進程使用父進程的地址空間。Linux實現(xiàn)輕量級進程很簡單,
即不復(fù)制父進程地址空間。創(chuàng)建輕量級的進程(clone)比創(chuàng)建普通進程相應(yīng)要
快得多,而且只要父進程和子進程謹(jǐn)慎地協(xié)調(diào)它們的訪問,就可以認(rèn)為頁的共享
是有益的。
如果通過clone()系統(tǒng)調(diào)用已經(jīng)創(chuàng)建了新進程,并且flag參數(shù)的CLONE_VM標(biāo)志
被設(shè)置,則copy_mm()函數(shù)把父進程(current)地址空間給子進程(tsk):
if(clone_flags&CL0NE_VM){
atomic_inc(&o1dmm->mm_users);
mm=oldmm;
gotogood_mm;
good_mm:
tsk->mm=mm;
tsk->active_mm=mm;
return0;
如果沒有設(shè)置CLONE_VM標(biāo)志,copy_mm()函數(shù)就必須創(chuàng)建一個新的地址空間(在
進程請求一個地址之前,即使在地癥空間內(nèi)沒有分配內(nèi)存):
mm=dup_mm(tsk);
dup_mm()函數(shù)分配一個新的內(nèi)存描述符,把它的地址存放在新進程描述符tsk
的mm字段中,并把current->min的內(nèi)容復(fù)制到tsk->mm中。然后改變新進程描
述符的一些字段:
staticstructmm_struct*dupmm(structtask_struct*tsk)
{
structmm_struct*mm,*oldmm=current->mm;
interr;
if(!oldmm)
returnNULL;
mm二allocate_mm();
if(!mm)
gotofailnomem;
memcpy(mm,oldmm,sizeof;
if(!mminit(mm))
gotofail_nomem;
if(init_new_context(tsk,mm))
gotofail_nocontext;
err二dup_mmap(mm,oldmm);
if(err)
gotofree_pt;
mm->hiwater_rss=get_mm_rss(mm);
mm->hiwater_vm=mm->total_vm;
returnmm;
free_pt:
mmput(mm);
fail_nomem:
returnNULL;
fail_nocontext:
free_mm_flags(mm);
mm_free_pgd(mm);
free_mm(mm);
returnNULL;
}
ttdefineallocate_mmO(kmem_cache_alloc(mmcachep,SLABKERNEL))
函數(shù)首先使用allocatemm()函數(shù)調(diào)用kmem_cache_alloc(mmcachep,
SLAB_KERNEL)從slab中分配一個mm_struct結(jié)構(gòu),然后調(diào)用mm_init對其進行
初始必
staticstructmm_struct*mminit(structmm_struct*mm)
(
unsignedlongmm_flags;
atomic_set(&mm->mm_users,1);
atomic_set(&mm->mm_count,1);
init_rwsem(&mm->mmap_sem);
INIT_LIST_HEAD(&mm->innilist);
mm->core_waiters=0;
mm->nr_ptes=0;
set_mm_counter(mm,file_rss,0);
set_mm_counter(mm,anon_rss,0);
spin_lock_init(&mm->page_table_lock);
rwlockinit(&mm->ioctx_list_lock);
mm->ioctx_list=NULL;
mm->free_area_cache=TASK_UNMAPPED_BASE;
mm->cached_hole_size=~OUL;
mm_flags=get_mm_flags(current->mm);
if(mm_flags!=MMF_DUMP_FILTER_DEFAULT){
if(uniikely(set_mm_flags(mm,mm_flags,0)<0))
gotofail_nomem;
)
if(likely(!mm_a11oc_pgd(mm))){
mm->def_flags=0;
mmu_notifier_mm_init(mm);
returnmm;
if(mm_flags!=MMF_DUMP_FILTER_DEFAULT)
free_mm_flags(mm);
fail_nomem:
free_mm(mm);
returnNULL;
)
回想一下,mmallocpgd()調(diào)用pgd_alloc()宏為新進程分配一個全新的頁全局
目錄:(/arch/i386/mm/Pgtable.c)
staticinlineintmm_alloc_pgd(structmmstruct*mm)
(
mm->pgd=pgd_alloc(mm);
if(unlikely(!mm->pgd))
return-ENOMEM;
return0;
)
pgd_t*pgd_alloc(structmm_struct*mm)
(
inti;
pgd_t*pgd=kmem_cache_alloc(pgd_cache,GFPKERNEL);
if(PTRS_PER_PMD==1||!pgd)
returnpgd;
for(i=0;i<USER_PTRS_PER_PGD;++i){
pmd_t*pmd=kmem_cache_alloc(pmd_cache,GFP_KERNEL);
if(!pmd)
gotoout_oom;
set_pgd(&pgd[i],_pgd(l+_pa(pmd)));
)
returnpgd;
out_oom:
for(i--;i>=0;i--)
kmem_cache_free(pmd_cache,(void*)_va(pgd_val(pgd[i])~l));
kmem_cache_free(pgd_cache,pgd);
returnNULL;
}
SdefineUSER_PTRS_PER_PGD(TASK_SIZE/PGDIR_SIZE)
ttdefinePGDIR_SIZE(1UL?PGDIR_SHIFT)
SdefinePGDIR_SHIFT22
#defineTASKSIZE(PAGE_OFFSET)/*Userspaceprocesssize:3GB
(default).*/
注意,執(zhí)行完mm_a芯oc_pgd()函數(shù)之后,子進程的pgd和pmd有了(32位i386
體系結(jié)構(gòu)),但是pte是沒有的,后面的工作需要dupjnmapO函數(shù)來完成,馬
上會談到。
接著來,隨后調(diào)用依賴于體系結(jié)構(gòu)的init_new_context()函數(shù):對于80x86處
理器,該函數(shù)檢查當(dāng)前進程是否擁有定制而局而描述符表,如果是,
init_new_context()復(fù)制一份current的局部描述符表并把它插入tsk的地址空
間:
intinit_new_context(structtask_struct*tsk,structmm_struct*mm)
(
structmmstruct*old_mm;
intretval=0;
init_MUTEX(&mm->context.sem);
mm->context.size=0;
old_mm=current->mm;
if(old_mm&&old_mm->context.size>0){
down(&old_mm->context.sem);
retval=copy_ldt(&mm->context,&old_mm->context);
up(&old_mm->context.sem);
)
returnretval;
)
下一個重點步驟:err=dup_mmap(mm,oldmm):
staticinlineintdupmmap(structmm_struct*mm,structmm_struct*oldmm)
{
structvm_area_struct*mpnt,*tmp,**pprev;
structrb_node**rb_link,*rb_parent;
intretval;
unsignedlongcharge;
structmempolicy*pol;
down_write(&oldmm->mmap_sem);
flush_cache_mm(oldmm);
/*
*Notlinkedinyet-nodeadlockpotential:
*/
down_write_nested(&mm->mmap_sem,SINGLE_DEPTH_NESTING);
mm->locked_vm=0;
mm->mmap=NULL;
mm->mmap_cache=NULL;
mm->free_area_cache=oldmm->mmap_base;
mm->cached_ho1e_size=~OUL;
mm->map_count=0;
cpus_clear(mm->cpu_vm_mask);
mm->mm_rb=RBROOT;
rb_link=rb_node;
rb_parent=NULL;
pprev=&mm->mmap;
for(mpnt=oldmm->mmap;mpnt;mpnt=mpnt->vm_next){
structfile
if(mpnt->vm_flags&VM_DONTCOPY){
longpages=vma_pages(mpnt);
mm->total_vm-二pages;
vm_stat_account(mm,mpnt->vm_flags,mpnt->vm_file,
s);
continue;
)
charge=0;
if(mpnt->vm_flags&VM_ACCOUNT){
unsignedintlen=(mpnt->vm_end-mpnt->vm_start)?
PAGE_SHIFT;
if(security_vm_enough_memory(1en))
gotofail_nomem;
charge=len;
}
tmp=kmem_cache_alloc(vm_area_cachep,SLAB_KERNEL);
if(!tmp)
gotofail_nomem;
*tmp=*mpnt;
pol=mpol_copy(vma_policy(mpnt));
retval=PTR_ERR(pol);
if(IS_ERR(pol))
gotofail_nomempolicy;
vma_set_po1icy(tmp,pol);
tmp->vm_flags&="VM_L0CKED;
tmp->vm_mm=mm;
tmp->vm_next=NULL;
anon_vma_link(tmp);
file=tmp->vm_file;
if(file){
structinodebinode=file->f_dentry->d_inode;
get_file(file);
if(tmp->vm_flags&VM_DENYWRITE)
atomic_dec(&inode->i_writecount);
/*inserttmpintothesharelist,justaftermpnt*/
spinlock(&file->f_mapping->i_mmap_lock);
tmp->vm_truncate_count=mpnt->vm_truncate_count;
flushdcachemmap_lock(file->fmapping);
vma_prio_tree_add(tmp,mpnt);
flushdcachemmap_unlock(file->f_mapping);
spin_unlock(&fi1e->f_mapping->i_mmap_lock);
}
/*
*Linkinthenewvmaandcopythepagetableentries.
*/
*pprev=tmp;
pprev=&tmp->vm_next;
_vma_link_rb(mm,tmp,rb_link,rb_parent);
rb_link=&tmp->vm_rb.rb_right;
rb_parent=&tmp->vmrb;
mm->map_count++;
retval=copyjpage_range(mm,oldmm,mpnt);
if(tmp->vm_ops&&tmp->vm_ops->open)
tmp->vmops->open(tmp);
if(retval)
gotoout;
}
#ifdefarch_dup_mmap
arch_dup_mmap(mm,oldmm);
Sendif
retval=0;
out:
upwrite(&mm->mmapsem);
f1ush_11b_mm(o1dmm);
upwrite(&oldmm->mmap_sem);
returnretval;
fail_nomem_policy:
kmem_cache_free(vm_area_cachep,tmp);
fail_nomem:
retval=-ENOMEM;
vm_unacct_memory(charge);
gotoout;
}
dup_mmap()函數(shù)既復(fù)制父進程的線性區(qū),也復(fù)制父進程的頁表。
然后,從current->mm->mmap所指向的線性區(qū)開始掃描父進程的線性區(qū)鏈表:
for(mpnt=oldmm->mmap;mpnt;mpnt=mpnt->vm_next)
它復(fù)制遇到的每個vm_area_struct線性區(qū)描述符,并把復(fù)制品插入到子進程的
線性區(qū)鏈表和紅-黑樹中:
tmp=kmem_cache_alloc(vm_area_cachep,SLABKERNEL);
*tmp=*mpnt;/*完全復(fù)制,這個技巧在這里又用到了*/
rb_link=rb_node;
rbparent=NULL;
_vma_link_rb(mm,tmp,rb_link,rb_parent);
rb_link=&tmp->vm_rb.rb_right;
rb_parent=&tmp->vm_rb;
在插入一個新的線性區(qū)描述符之后,如果需要的話,dup_mmap()立即調(diào)用
copy_page_range()創(chuàng)建必要的頁表來映射這個線性區(qū)所包含的一組頁,并且初
始化新頁袤的表項。尤其是,與私有的、可寫的頁(VM_SHARED標(biāo)志關(guān)閉,
VM—MAYWRITE標(biāo)志打開)所對應(yīng)的任一頁框都標(biāo)記為對父子進程是只讀的,以
便這種頁框能用寫時復(fù)制機制進行處理:
intcopypage_range(structmmstruct*dst_mm,structmm_struct*src_mm,
structvm_area_struct*vma)
(
pgd_t*src_pgd,*dst_pgd;
unsignedlongnext;
unsignedlongaddr=vma->vm_start;
unsignedlongend=vma->vm_end;
intret;
/*
*Don,tcopypteswhereapagefaultwillfillthemcorrectly.
*Forkbecomesmuchlighterwhentherearebigsharedorprivate
*readonlymappings.Thetradeoffisthatcopy_page_rangeismore
*efficientthanfaulting.
*/
if(!(vma->vm_flags&
(VM_HUGETLB|VM_NONLINEAR|VM_PFNMAP|VM_INSERTPAGE))){
if(!vma->anon_vma)
return0;
if(is_vm_huge11b_page(vma))
returncopyhugetlb_page_range(dstmm,srcmm,vma);
/*
*WeneedtoinvalidatethesecondaryMMUmappingsonlywhen
*therecouldbeapermissiondowngradeontheptesofthe
*parentmm.Andapermissiondowngradewillonlyhappenif
*is_cow_mapping()returnstrue.
*/
if(is_cow_mapping(vma->vm_flags))
mmu_notifier_invalidate_range_start(src_mm,addr,end);
ret=0;
dst_pgd=pgdoffset(dstmm,addr);
src_pgd=pgd_offset(src_mm,addr);
do{
next=pgd_addr_end(addr,end);
if(pgd_none_or_c1ear_bad(src_pgd))
continue;
if(unlikely(copy_pud_range(dst_mm,srcmm,dst_pgd,srcpgd,
vma,addr,next))){
ret=-ENOMEM;
break;
}
}while(dst_pgd++,src_pgd++,addr=next,addr!=end);
if(is_cow_mapping(vma->vm_flags))
mmu_notifier_invalidate_range_end(src_mm,
vma->vm_start,end);
returnret;
)
staticinlineintcopy_pud_range(structmm_structstruct
mm_struct*src_mm,
pgd_t*dst_pgd,pgd_t*src_pgd,structvm_area_struct*vma,
unsignedlongaddr,unsignedlongend)
(
pud_t*src_pud,*dst_pud;
unsignedlongnext;
dst_pud=pud_alloc(dst_mm,dst_pgd,addr);
if(!dst_pud)
return-ENOMEM;
src_pud=pud_offset(src_pgd,addr);
do{
next=pud_addr_end(addr,end);
if(pud_none_or_clear_bad(src_pud))
continue;
if(copy_pmd_range(dst_mm,src_mm,dst_pud,src_pud,
vma,addr,next))
return-ENOMEM;
}while(dst_pud++,src_pud++,addr=next,addr!=end);
return0;
)
staticinlineintcopy_pmd_range(structmm_struct*dst_mm,struct
mm_struct*src_mm,
pud_t*dst_pud,pud_t*src_pud,structvm_area_struct*vma,
unsignedlongaddr,unsignedlongend)
{
pmd_t*src_pmd,*dst_pmd;
unsignedlongnext;
dst_pmd=pmd_alloc(dst_mm,dst_pud,addr);
if(!dst_pmd)
return-ENOMEM;
src_pmd=pmd_offset(src_pud,addr);
do{
next=pmd_addr_end(addr,end);
if(pmd_none_or_c1ear_bad(src_pmd))
continue;
if(copy_pte_range(dst_mm,src_mm,dst_pmd,src_pmd,
vma,addr,next))
return-ENOMEM;
}while(dst_pmd++,src_pmd++,addr=next,addr!=end);
return0;
staticintcopy_pte_range(structmm__structstructmm_struct
*src_mm,
pmd_t*dst_pmd,pmd_t*src_pmd,structvm_area_struct*vma,
unsignedlongaddr,unsignedlongend)
pte_t*src_pte,*dst_pte;
spinlock_t*src_ptl,*dst_ptl;
intprogress=0;
intrss[2];
again:
rssEl]=rss[0]=0;
dst_pte=pte_alloc_map_lock(dst_mm,dst_pmd,addr,&dst_ptl);
if(!dst_pte)
return-ENOMEM;
src_pte=pte_offset_map_nested(src_pmd,addr);
src_ptl=pte_lockptr(src_mm,src_pmd);
spin_lock_nested(src_ptl,SINGLE_DEPTH_NESTING);
do{
/*
*Weareholdingtwolocksatthispoint-eitherofthem
*couldgeneratelatenciesinanothertaskonanotherCPU.
*/
if(progress>=32){
progress=0;
if(need_resched()
need_lockbreak(src_ptl)
needlockbreak(dst_ptl))
break;
)
if(pte_none(*src_pte)){
progress++;
continue;
)
copy_one_pte(dstmm,src_mm,dst_pte,src_pte,vma,addr,rss);
progress+=8;
}while(dst_pte++,src_pte++,addr+二PAGE_SIZE,addr!=end);
spin_unlock(src_ptl);
pte_unmap_nested(src_pte-1);
add_mm_rss(dst_mm,rss[0],rss[l]);
pte_unmap_unlock(dst_pte-1,dst_ptl);
cond_resched();
if(addr!=end)
gotoagain;
return0;
staticinlinevoid
copy_one_pte(structmmstructstructmm_struct*src_mm,
pte_t*dst_pte,pte_t*src_pte,structvm_area_struct*vma,
unsignedlongaddr,int*rss)
(
unsignedlongvm_flags=vma->vm_flags;
pte_tpte=*src_pte;
structpage*page;
/*ptecontainspositioninswaporfile,socopy.*/
if(unlikely(!pte_present(pte))){
if(!pte_file(pte)){
swp_entry_tentry=pte_to_swp_entry(pte);
swap_duplicate(entry);
/*makesuredst_mmisonswapoff,smmlist.*/
if(unlikely(list_empty(&dst_mm->mmlist))){
spin_lock(&mmlist_lock);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 6930-2024滾動軸承詞匯
- 法律法規(guī)經(jīng)濟與施工-二級注冊建筑師《法律、法規(guī)、經(jīng)濟與施工》押題密卷2
- 建筑裝飾裝修工程設(shè)計制圖標(biāo)準(zhǔn)
- 人教版語文一年級上冊全冊電子備課教案
- 高一化學(xué)教案:第一單元核外電子排布與周期律
- 2024屆湖北省黃梅縣某中學(xué)高考化學(xué)必刷試卷含解析
- 2024高中物理第三章相互作用4力的合成課后作業(yè)含解析新人教版必修1
- 2024高中語文考點鏈接6論述類文本閱讀提升訓(xùn)練含解析新人教版必修5
- 2024高考化學(xué)一輪復(fù)習(xí)第9章化學(xué)實驗基礎(chǔ)第30講物質(zhì)的分離和提純精練含解析
- 2024高考化學(xué)一輪復(fù)習(xí)第四章第5課時氨和銨鹽教案魯科版
- PVC管道施工方案
- 植皮的觀察與護理課件整理
- 第二版《高中物理題型筆記》上冊
- 水利工程實驗室量測作業(yè)指導(dǎo)書
- 人教數(shù)學(xué)七年級下全冊同步練習(xí)-初中數(shù)學(xué)七年級下冊全冊同步練習(xí)題(含答案)
- 部編版初中語文七至九年級語文教材各冊人文主題與語文要素匯總一覽表合集單元目標(biāo)能力點
- 工程項目收入情況統(tǒng)計表
- GB/T 29490-2013企業(yè)知識產(chǎn)權(quán)管理規(guī)范
- 《中外資產(chǎn)評估準(zhǔn)則》課件第6章 英國評估準(zhǔn)則
- FZ∕T 63006-2019 松緊帶
- 罐區(qū)自動化系統(tǒng)總體方案(31頁)ppt課件
評論
0/150
提交評論