版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 教學(xué)提示:Intel 8086/8088 CPU誕生至今已經(jīng)20多年了,期間Intel公司又相繼推出了80286、80386、80486(統(tǒng)稱為80X86)及Pentium處理器。這些CPU都是向下兼容的,即它們的指令系統(tǒng)都包括前期處理器的全部指令,并分別進(jìn)行了指令擴(kuò)展,從而提供了更強(qiáng)大的功能。本章的主要學(xué)習(xí)目的是熟悉高性能微機(jī)技術(shù),了解高檔微處理器基本結(jié)構(gòu)和新增指令系統(tǒng)。 教學(xué)要求:通過本章的學(xué)習(xí),要了解386以上的CPU的寄存器、新增的指令集的知識,了解計(jì)算機(jī)的發(fā)展趨勢。高檔微處理器介紹高檔微處理器介紹12.1 高性能微機(jī)技術(shù)簡介高性能微機(jī)技術(shù)簡介 隨著VLSI(超大規(guī)模集成電路)的出現(xiàn)
2、和發(fā)展,芯片集成度顯著提高,價(jià)格不斷下降,從而提高了計(jì)算機(jī)的性能價(jià)格比,使得過去在大、中、小型計(jì)算機(jī)中才采用的一些現(xiàn)代技術(shù)(例如,流水線技術(shù)、高速緩沖存儲(chǔ)器Cache和虛擬存儲(chǔ)器等)下移到微機(jī)系統(tǒng)中來。12.1.1 12.1.1 流水線技術(shù)流水線技術(shù) 流水線技術(shù)是一種同時(shí)進(jìn)行若干操作的并行處理方式。類似于工廠的流水作業(yè)裝配線。在計(jì)算機(jī)中把CPU的一個(gè)操作(分析指令,加工數(shù)據(jù)等)進(jìn)一步分解成多個(gè)可以單獨(dú)處理的子操作,使每個(gè)子操作在一個(gè)專門的硬件上執(zhí)行,這樣,一個(gè)操作需順序地經(jīng)過流水線中多個(gè)硬件的處理才能完成。但前后連續(xù)的幾個(gè)操作可以依次流入流水線中,在各個(gè)硬件間重疊執(zhí)行,這種操作的重疊提高了CP
3、U的效率。 標(biāo)量流水工作原理標(biāo)量流水工作原理 通常CPU按順序方式執(zhí)行指令,執(zhí)行完一條指令后,才取出下一條指令來執(zhí)行,而且,一條機(jī)器指令內(nèi)各個(gè)微操作也是順序串行執(zhí)行的。順序執(zhí)行的優(yōu)點(diǎn)是控制簡單,但機(jī)器各部分的利用率不高。 假如把兩條指令或若干條指令在時(shí)間上重疊起來將大幅度提高程序的執(zhí)行速度。如圖12.1給出了一次重疊方式。所謂“一次重疊”指的是任何時(shí)候都只是“執(zhí)行K”與“分析K+1”重疊。由于這兩個(gè)子過程是分別由分析和執(zhí)行兩個(gè)獨(dú)立部件實(shí)現(xiàn)的,所以就不必等待上一條指令的“分析”、“執(zhí)行”子過程都完成后才送入下一條指令,而是可以在上條指令的“分析”子過程結(jié)束,轉(zhuǎn)入“執(zhí)行”子過程時(shí),就可接收下一條指
4、令進(jìn)入“分析”子過程。這樣,機(jī)器的吞吐率(這里指單位時(shí)間內(nèi)機(jī)器所能處理的指令數(shù)或是機(jī)器能輸出的結(jié)果數(shù)量),就由于把執(zhí)行一條指令的過程分解成兩個(gè)子過程而提高一倍。顯然,上述“重疊”和“流水”在概念上是密切聯(lián)系的。可以這樣看:“一次重疊”和“流水”的差別在于前者把一條指令的執(zhí)行過程只分解為兩個(gè)子過程,而后者則是分解成更多個(gè)子過程。也就是說,標(biāo)量流水是重疊方式的進(jìn)一步發(fā)展,如圖12.2所示。圖12.1 一次重疊方式 圖12.2 流水方式 若把執(zhí)行一條指令分解成“取指令碼”、“指令譯碼”、“取操作數(shù)”和“執(zhí)行”子過程,則指令執(zhí)行時(shí)空圖如圖12.2所示。當(dāng)流水線正常流動(dòng)時(shí),是每隔Vt(=ti+1-ti)
5、就會(huì)流出一個(gè)結(jié)果;然而,在指令剛開始流動(dòng)時(shí),情況并不如此,由圖可看出,在t4之前(即首條指令流入后的4Vt時(shí)間內(nèi))流水線并沒有流出任何結(jié)果。也就是說,對首條指令來講,流水方式和順序方式是一樣的。 以上討論的是指令執(zhí)行流水線,經(jīng)常采用的還有運(yùn)算操作流水線,在這種流水線中,把運(yùn)算操作分成幾個(gè)子過程,每個(gè)子過程設(shè)置專門的邏輯電路完成指定的操作。和上述原理類似,可實(shí)現(xiàn)幾個(gè)子過程并行處理。2. 2. 超流水線超標(biāo)量方法超流水線超標(biāo)量方法 超流水線是指某些CPU內(nèi)部的流水線超過通常的56步以上,例如Pentium Pro的流水線就長達(dá)14 步,Pentium 4為20步。將流水線設(shè)計(jì)的步(級)數(shù)越多,其完
6、成一條指令的速度越快,因此才能適應(yīng)工作主頻更高的CPU。超標(biāo)量(Super Scalar)是指在CPU中有一條以上的流水線,并且每時(shí)鐘周期內(nèi)可以完成一條以上的指令,這種設(shè)計(jì)就叫超標(biāo)量技術(shù)。一般地,超級標(biāo)量機(jī)具有如下特點(diǎn)。 (1) 配置有多個(gè)性能不同的處理部件,采用多條流水線并行處理。 (2) 能同時(shí)對若干條指令進(jìn)行譯碼,將可以并行執(zhí)行的指令送往不同的執(zhí)行部件,從而達(dá)到在每個(gè)周期啟動(dòng)多條指令的目的。 (3) 在程序運(yùn)行期間,由硬件(通常是狀態(tài)記錄部件和調(diào)度部件)來完成指令調(diào)度。從原理上講,超級標(biāo)量機(jī)主要是借助硬件資源重復(fù)(例如有兩套譯碼器和ALU等)來實(shí)現(xiàn)空間的并行操作。 3. 3. 超長指令字
7、技術(shù)超長指令字技術(shù) 超長指令字(Very Long Instruction Word,VLIW)方法是由美國耶魯大學(xué)的Fisher教授首先提出的,它與超級標(biāo)量方法有許多類似之處,但它以一條長指令來實(shí)現(xiàn)多個(gè)操作的并行執(zhí)行,以減少對存儲(chǔ)器的訪問。這種長指令往往長達(dá)上百位,每條指令可以做幾種不同的運(yùn)算,這些運(yùn)算都要發(fā)送到各種功能部件上去完成,哪些操作可以并行執(zhí)行,這是在編譯階段選擇的。其主要特點(diǎn)如下所述。 (1) 只有一個(gè)控制器,每個(gè)周期啟動(dòng)一條長指令。 (2) 超長指令字被分成多個(gè)控制字段,每個(gè)字段直接獨(dú)立地控制每個(gè)功能部件。 (3) 含有大量的數(shù)據(jù)通路和功能部件,由于編譯器在編譯時(shí)已考慮到可能出
8、現(xiàn)的相關(guān)問題,故控制硬件較簡單。 (4) 在編譯階段完成超長指令中多個(gè)可并行執(zhí)行操作的調(diào)度。4 其他相關(guān)技術(shù)其他相關(guān)技術(shù) 1) 亂序執(zhí)行技術(shù) 亂序執(zhí)行(Out-Of-Order Execution)是指CPU采用了允許將多條指令不按程序規(guī)定的順序分開發(fā)送給各相應(yīng)電路單元處理的技術(shù)。比方說程序某一段有7條指令,此時(shí)CPU將根據(jù)各單元電路的空閑狀態(tài)和各指令能否提前執(zhí)行的具體情況分析后,將能提前執(zhí)行的指令立即發(fā)送給相應(yīng)電路執(zhí)行。當(dāng)然,在各單元不按規(guī)定順序執(zhí)行完指令后,還必須由相應(yīng)電路再將運(yùn)算結(jié)果重新按原來程序指定的指令順序排列后才能返回程序。這種將各條指令不按順序拆散后執(zhí)行的運(yùn)行方式就叫亂序執(zhí)行(也
9、叫錯(cuò)序執(zhí)行)技術(shù)。采用亂序執(zhí)行技術(shù)的目的是為了使CPU內(nèi)部電路滿負(fù)荷運(yùn)轉(zhuǎn)并相應(yīng)提高了CPU的運(yùn)行程序的速度。 2) 分枝預(yù)測和推測執(zhí)行技術(shù) 分枝預(yù)測(Branch Prediction)和推測執(zhí)行(Speculation Execution) 是CPU動(dòng)態(tài)執(zhí)行技術(shù)中的主要內(nèi)容。采用分枝預(yù)測和動(dòng)態(tài)執(zhí)行的主要目的是為了提高CPU的運(yùn)算速度。推測執(zhí)行是依托于分枝預(yù)測基礎(chǔ)上的,在分枝預(yù)測程序是否分枝后所進(jìn)行的處理也就是推測執(zhí)行。程序轉(zhuǎn)移(分支)對流水線影響很大,尤其是在循環(huán)設(shè)計(jì)中。不僅在循環(huán)中對循環(huán)條件的判斷占用了大量的CPU時(shí)間,更重要的是循環(huán)轉(zhuǎn)移破壞了流水線的正常流水,影響了流水線的性能。為此,P
10、entium用分支目標(biāo)緩沖器BTB(Branch Target Buffer,一個(gè)小的Cache)來動(dòng)態(tài)地預(yù)測程序分支。動(dòng)態(tài)分支預(yù)測算法推測性地在過去曾執(zhí)行過的相應(yīng)指令的地址處運(yùn)行取代碼周期,這樣的取代碼周期根據(jù)過去的執(zhí)行歷史來運(yùn)行,而不管檢索得到的指令是否與當(dāng)前執(zhí)行的指令序列有關(guān)。 當(dāng)指令導(dǎo)致程序分支時(shí),BTB就記下這條指令的地址和分支目標(biāo)的地址(即存儲(chǔ)過去的程序分支處的程序地址和轉(zhuǎn)移目標(biāo)地址)。當(dāng)預(yù)取部件取到新的分支時(shí),就與BTB中的所有信息作比較,若有相符的信息時(shí),即預(yù)測分支,分支預(yù)取部件開始從各處開始預(yù)??;否則,原預(yù)取部件繼續(xù)順序預(yù)取。 當(dāng)BTB判斷正確時(shí),分支程序即刻得到譯碼。從循環(huán)
11、程序來看,在開始進(jìn)入循環(huán)和退出循環(huán)時(shí),BTB會(huì)發(fā)生判斷錯(cuò)誤,需重新計(jì)算分支地址。循環(huán)10次,2次錯(cuò)誤8次正確,循環(huán)100次,2次錯(cuò)誤98次正確。因此,循環(huán)越多,BTB的效益越明顯。 3) 指令特殊擴(kuò)展技術(shù) 從最簡單的計(jì)算機(jī)開始,指令序列便能取得運(yùn)算對象,并對它們執(zhí)行計(jì)算。對大多數(shù)計(jì)算機(jī)而言,這些指令同時(shí)只能執(zhí)行一次計(jì)算。如需完成一些并行操作,就要連續(xù)執(zhí)行多次計(jì)算。此類計(jì)算機(jī)采用的是“單指令單數(shù)據(jù)”(SISD)處理器。在介紹CPU性能中還經(jīng)常提到“擴(kuò)展指令”或“特殊擴(kuò)展”一說,這都是指CPU是否具有對X86指令集進(jìn)行指令擴(kuò)展而言。擴(kuò)展指令中最早出現(xiàn)的是Intel公司自己的“MMX”,其次是AMD
12、公司的“3D Now!”,最后是最近的Pentium III中的“SSE”及Pentium 4中的“SSE2”。12.1.2 RISC、SIMD簡介簡介 1. RISC CISC技術(shù)和RISC技術(shù)是以計(jì)算機(jī)指令系統(tǒng)的優(yōu)化方法來分類而形成的技術(shù)概念,它們代表著目前計(jì)算機(jī)指令系統(tǒng)的兩個(gè)截然不同的優(yōu)化方向。 最初,人們采用的優(yōu)化方法是增強(qiáng)計(jì)算機(jī)指令系統(tǒng)的功能,即設(shè)置一些功能復(fù)雜的指令,把一些原來由軟件實(shí)現(xiàn)的,常用的功能改用硬件的指令系統(tǒng)實(shí)現(xiàn),以提高計(jì)算機(jī)的執(zhí)行速度,這種計(jì)算機(jī)系統(tǒng)就被稱為復(fù)雜指令系統(tǒng)計(jì)算機(jī),即Complex Instruction Set Computer,簡稱CISC。另一種優(yōu)化方
13、法是在20世紀(jì)80年代才發(fā)展起來的,其基本思想是盡量簡化計(jì)算機(jī)指令功能,只保留那些功能簡單、能在一個(gè)節(jié)拍內(nèi)執(zhí)行完成的指令,而把較復(fù)雜的功能用一段子程序來實(shí)現(xiàn),這種計(jì)算機(jī)系統(tǒng)就被稱為精簡指令系統(tǒng)計(jì)算機(jī),即Reduced Instruction Set Computer,簡稱RISC。 RISC技術(shù)通過簡化計(jì)算機(jī)指令功能,使指令的平均執(zhí)行周期減少,從而提高計(jì)算機(jī)的工作主頻,同時(shí)大量使用通用寄存器,來提高子程序執(zhí)行的速度。所以一般RISC計(jì)算機(jī)的速度是同等CISC計(jì)算機(jī)的3倍左右。2. SIMD2. SIMD技術(shù)技術(shù) 單指令多數(shù)據(jù)(Single Instruction Multiple Data,S
14、IMD)結(jié)構(gòu)的CPU有多個(gè)執(zhí)行部件,但都在同一個(gè)指令部件的控制下。SIMD在性能上有什么優(yōu)勢呢?以加法指令為例,單指令單數(shù)據(jù)(SISD)的CPU對加法指令譯碼后,執(zhí)行部件先訪問內(nèi)存,取得第一個(gè)操作數(shù);之后再一次訪問內(nèi)存,取得第二個(gè)操作數(shù);隨后才能進(jìn)行求和運(yùn)算。而在SIMD型CPU中,指令譯碼后幾個(gè)執(zhí)行部件同時(shí)訪問內(nèi)存,一次性獲得所有操作數(shù)進(jìn)行運(yùn)算。這個(gè)特點(diǎn)使得SIMD特別適合于多媒體應(yīng)用等數(shù)據(jù)密集型運(yùn)算。AMD公司的3D NOW!技術(shù)其實(shí)質(zhì)就是SIMD,這使K6-2處理器在音頻解碼、視頻回放、3D游戲等應(yīng)用中顯示出優(yōu)異性能。12.1.3 MMX12.1.3 MMX、SSESSE、SSE2SSE
15、2技術(shù)技術(shù) MMX技術(shù) MMX是為多媒體應(yīng)用而設(shè)計(jì)的,其實(shí),MMX的數(shù)據(jù)類型和指令系統(tǒng),不僅適合于多媒體操作,而且也適合于通信及信號處理等更寬的應(yīng)用領(lǐng)域,所以可以把它理解為多媒體與通信的擴(kuò)展(Multimedia and Modem eXtension,MMX)。 MMX是英語“多媒體指令集”的縮寫。共有57條指令,是Intel公司第一次對自1985年就定型的 X86指令集進(jìn)行的擴(kuò)展。MMX主要用于增強(qiáng)CPU對多媒體信息的處理,提高CPU處理3D圖形、視頻和音頻信息能力。MMX技術(shù)一次能處理多個(gè)數(shù)據(jù)。計(jì)算機(jī)的多媒體處理,通常是指動(dòng)畫再生、圖像加工和聲音合成等處理。在多媒體處理中,對于連續(xù)的數(shù)據(jù)
16、必須進(jìn)行多次反復(fù)的相同處理。利用傳統(tǒng)的指令集,無論是多小的數(shù)據(jù),一次也只能處理一個(gè)數(shù)據(jù),因此耗費(fèi)時(shí)間較長。為了解決這一問題,在MMX中采用了SIMD(單指令多數(shù)據(jù)技術(shù)),可對一條命令多個(gè)數(shù)據(jù)進(jìn)行同時(shí)處理,它可以一次處理64bit任意分割的數(shù)據(jù)。其次,是數(shù)據(jù)可按最大值取齊。MMX的另一個(gè)特征是在計(jì)算結(jié)果超過實(shí)際處理能力的時(shí)候也能進(jìn)行正常處理。若用傳統(tǒng)的X86指令,計(jì)算結(jié)果一旦超出了CPU處理數(shù)據(jù)的限度,數(shù)據(jù)就要被截掉,而化成較小的數(shù)。而MMX利用所謂“飽和(Saturation)”功能,圓滿地解決了這個(gè)問題。計(jì)算結(jié)果一旦超過了數(shù)據(jù)大小的限度,就能在可處理范圍內(nèi)自動(dòng)變換成最大值。 MMX技術(shù)擴(kuò)展了
17、IA的指令系統(tǒng),大大增強(qiáng)了高級媒體和通信應(yīng)用的性能。這種擴(kuò)展(包括新的寄存器、數(shù)據(jù)類型和指令)與單指令多數(shù)據(jù)(SIMD)的并行執(zhí)行方式相結(jié)合,能顯著地加速如運(yùn)動(dòng)視頻、視頻圖形組合、圖像處理、音頻合成、語音合成與壓縮、電話技術(shù)、視頻會(huì)議以及2D與3D圖形等處理。這類處理的特點(diǎn)是使用密集的算法,對局部小型實(shí)型數(shù)組進(jìn)行重復(fù)操作。 MMX技術(shù)定義了一種簡單靈活的軟件模型,它沒有新的操作模式,也沒有操作系統(tǒng)可見的狀態(tài)?,F(xiàn)有各種軟件不用修改就可以在帶有MMX技術(shù)的IA處理器上正確運(yùn)行。 MMX技術(shù)對IA(Intel Architecture)編程環(huán)境的擴(kuò)展是: (1) 8個(gè)MMX寄存器(MM0MM7)。
18、(2) 4種MMX數(shù)據(jù)類型(緊縮字節(jié)、緊縮字、緊縮雙字和4字)。 (3) MMX指令系統(tǒng)。 MMX寄存器。 MMX寄存器集由8個(gè)64位寄存器組成,如圖12.3所示。MMX指令使用寄存器名MM0MM7直接訪問MMX寄存器。這些寄存器只能用來對MMX數(shù)據(jù)類型進(jìn)行數(shù)據(jù)運(yùn)算,不能尋址存儲(chǔ)器。MMX指令中存儲(chǔ)器操作數(shù)的尋址仍使用標(biāo)準(zhǔn)的IA尋址方式和通用寄存器(EAX、EBX、ECX、EDX、EBP、ESI、EDI和ESP)來進(jìn)行。圖12.3 MMX寄存器集 盡管MMX寄存器在IA中是作為獨(dú)立寄存器來定義的,但是,它們是通過對FPU(Float Process Unit)數(shù)據(jù)寄存器堆棧(R0R7)別名而來
19、的。 MMX數(shù)據(jù)類型。 MMX技術(shù)定義了以下新的64位數(shù)據(jù)類型。 緊縮字節(jié):8個(gè)字節(jié)緊縮成一個(gè)64位;緊縮字:4個(gè)字緊縮成一個(gè)64位;緊縮雙字:2個(gè)雙字緊縮成一個(gè)64位;4字:一個(gè)64位,如圖12.4所示。 緊縮字節(jié)數(shù)據(jù)類型中字節(jié)的編號為07,第0字節(jié)在該數(shù)據(jù)類型的低有效位(位07),第7字節(jié)在高有效位(位5663)。緊縮字?jǐn)?shù)據(jù)類型中的字編號為03,第0字在該數(shù)據(jù)類型的位015,第3字在位4863。緊縮雙字?jǐn)?shù)據(jù)類型中的雙字編號為01,第0個(gè)雙字在位03l,第1個(gè)雙字在位3263。 圖12.4 數(shù)據(jù)格式和存儲(chǔ)方式 MMX指令可以用64位塊方式與存儲(chǔ)器進(jìn)行數(shù)據(jù)傳送,也可以用32位塊方式與IA通用寄
20、存器進(jìn)行數(shù)據(jù)傳送。但是,在對緊縮數(shù)據(jù)類型進(jìn)行算術(shù)或邏輯操作時(shí),MMX指令則對64位MMX寄存器中的字節(jié)、字或雙字進(jìn)行并行操作。 對緊縮數(shù)據(jù)類型的字節(jié)、字和雙字進(jìn)行操作時(shí),這些數(shù)據(jù)可以是帶符號的整型數(shù)據(jù),也可以是無符號的整型數(shù)據(jù)。 單指令多數(shù)據(jù)執(zhí)行方式。 MMX技術(shù)使用單指令多數(shù)據(jù)(SIMD)技術(shù)對緊縮在64位MMX寄存器中的字節(jié)、字或雙字實(shí)現(xiàn)算術(shù)和邏輯操作。例如,PADDSB指令將源操作數(shù)中的8個(gè)帶符號字節(jié)加到目標(biāo)操作數(shù)中的8個(gè)帶符號字節(jié)上,并將8字節(jié)的結(jié)果存儲(chǔ)到目標(biāo)操作數(shù)中。SIMD技術(shù)通過對多數(shù)據(jù)元素并行實(shí)現(xiàn)相同的操作來顯著地提高軟件性能。 MMX技術(shù)所支持的SIMD執(zhí)行方式可以直接滿足多
21、媒體、通信以及圖形應(yīng)用的需要,這些應(yīng)用經(jīng)常使用復(fù)雜算法對大量小數(shù)據(jù)類型(字節(jié)、字和雙字)數(shù)據(jù)實(shí)現(xiàn)相同操作。例如,大多數(shù)音頻數(shù)據(jù)都用16位(字)來量化,一條MMX指令可以對4個(gè)這樣的字同時(shí)進(jìn)行操作。視頻與圖形信息一般用8位(字節(jié))來表示,那么,一條MMX指令可以對8個(gè)這樣的字節(jié)同時(shí)進(jìn)行操作。 數(shù)據(jù)存放格式。 在向存儲(chǔ)器存儲(chǔ)字節(jié)、字和雙字時(shí),總是以緊縮數(shù)據(jù)類型存儲(chǔ)到連續(xù)的地址上,低有效數(shù)存儲(chǔ)在低地址區(qū)域,高有效數(shù)存儲(chǔ)在高地址區(qū)域。存儲(chǔ)器中的字節(jié)、字或雙字在排序時(shí),具有較低地址的字節(jié)總是較低的有效數(shù),具有較高地址的字節(jié)總是較高的有效數(shù)。當(dāng)考慮緊縮數(shù)據(jù)對界存儲(chǔ)時(shí),應(yīng)當(dāng)按4字節(jié)或8字節(jié)的邊界對齊。 MM
22、X寄存器中數(shù)的格式與存儲(chǔ)器中64位數(shù)的格式相同。MMX寄存器有兩種數(shù)據(jù)訪問模式:64位訪問模式與32位訪問模式。64位訪問模式用于64位存儲(chǔ)器訪問、MMX寄存器間的64位傳送、邏輯與算術(shù)運(yùn)算以及緊縮/展開指令。32位訪問模式僅用于32位存儲(chǔ)器訪問、32位傳送以及某些展開指令。 應(yīng)用舉例。 向量點(diǎn)積是對一些自然數(shù)據(jù)處理,如圖像、音頻、視頻數(shù)據(jù)等進(jìn)行處理時(shí),使用的基本算法之一。向量點(diǎn)積需要進(jìn)行大量的乘加法運(yùn)算,重復(fù)率高。采用MMX的緊縮乘加指令能有效地加速該類運(yùn)算。計(jì)算X= 。 ( )* ( )ia ib i程序如下: PXOR MM7,MM7Vloop: MOVQ MM0,EAX;取a向量 MO
23、VQ MM1,EBX ;取b向量 PMADDWD MM0,MM1;乘加 PADDD MM7,MM0 ADD EBX,8 ADD EAX,8 SUB ECX,4 JNZ Vloop MOVQ MM6,MM7;結(jié)果暫存 PSRLQ MM7,32;結(jié)果右移32位 PADDD MM7,MM6 MOVD result,MM7 ;存放32位結(jié)果2. SSE2. SSE技術(shù)技術(shù) SSE是英語“Internet Streaming SIMD Extensions因特網(wǎng)數(shù)據(jù)流單指令序列擴(kuò)展”的縮寫。SSE除保持原有的MMX指令外,又新增了70條指令,在加快浮點(diǎn)運(yùn)算的同時(shí),也改善了內(nèi)存的使用效率,使內(nèi)存速度顯得更
24、快一些。對游戲性能的改善十分顯著,按Intel的說法,SSE對下述幾個(gè)領(lǐng)域的影響特別明顯:3D幾何運(yùn)算及動(dòng)畫處理、圖形處理(如Photoshop)、視頻編輯/壓縮/解壓(如MPEG和DVD)、語音識別以及聲音壓縮和合成等。 Intel的SSE是由一組隊(duì)結(jié)構(gòu)的擴(kuò)展所組成,它被設(shè)計(jì)為用以提高先進(jìn)的媒體和通信應(yīng)用程序的性能。該擴(kuò)展(包括新的寄存器、新的數(shù)據(jù)類型和新的指令)與單指令多數(shù)據(jù)(SIMD)技術(shù)相結(jié)合,有利于加速應(yīng)用程序的運(yùn)行。這個(gè)擴(kuò)展與MMX技術(shù)相結(jié)合,將顯著地提高多媒體應(yīng)用程序的效率。典型的應(yīng)用程序是:運(yùn)動(dòng)視頻,圖形和視頻的組合,圖像處理,音頻合成,語音的識別、合成與壓縮,電話、視頻會(huì)議和
25、2D、3D圖形。對于需要有規(guī)律地訪問大量數(shù)據(jù)的應(yīng)用程序,也可以從流式SIMD擴(kuò)展的高性能預(yù)取和存儲(chǔ)方面獲得好處。 SSE定義了一種簡單靈活的軟件模式。這種新的模式引入了一種新的操作系統(tǒng)可視狀態(tài)。為了增強(qiáng)并行性,增加了一組新的寄存器?,F(xiàn)存的各種軟件,可在不做修改的情況下繼續(xù)在增加了SSE的IA處理器上正確運(yùn)行。 SSE引入了一組新的、通用的浮點(diǎn)指令。浮點(diǎn)指令對8個(gè)128位SIMD浮點(diǎn)寄存器組進(jìn)行操作。SSE指令系統(tǒng)使得程序設(shè)計(jì)人員能夠去設(shè)計(jì)這樣一類的算法,SSE指令和MMX指令兩者混合在一起的緊縮單精度浮點(diǎn)運(yùn)算和緊縮整型運(yùn)算的算法。SSE提供了一些新的指令以控制整個(gè)MMX數(shù)據(jù)類型和32位數(shù)據(jù)類型
26、的可高速緩存性,新指令能將數(shù)據(jù)流直接送存儲(chǔ)器而不污染高速緩存,還提供了能夠預(yù)取數(shù)據(jù)的新指令。 SSE對于IA編程環(huán)境而言,提供了如下的新擴(kuò)展: (1) 8個(gè)SIMD浮點(diǎn)寄存器(XMM0XMM7)。 (2) SIMD浮點(diǎn)數(shù)據(jù)類型(128位緊縮浮點(diǎn)數(shù))。 (3) SSE指令系統(tǒng)。 SIMD浮點(diǎn)寄存器和數(shù)據(jù)類型在下面介紹。 SIMD浮點(diǎn)寄存器。 IA的SSE提供了8個(gè)128位的通用寄存器,每個(gè)寄存器可以直接尋址。這些寄存器是新的,需要能使用該類寄存器的操作系統(tǒng)支持。 SIMD浮點(diǎn)寄存器保存著緊縮的128位數(shù)據(jù)。流式SIMD擴(kuò)展指令訪問SIMD浮點(diǎn)寄存器時(shí),直接使用寄存器名XMM0XMM7,如圖12.
27、5所示。SIMD浮點(diǎn)寄存器可被用以完成數(shù)據(jù)計(jì)算,但不能用來尋址存儲(chǔ)器。尋址仍用整型寄存器來實(shí)現(xiàn),并且使用標(biāo)準(zhǔn)的IA尋址方式及通用寄存器名。圖12.5 XMM寄存器 MMX寄存器被映射為浮點(diǎn)寄存器。從MMX操作轉(zhuǎn)換到浮點(diǎn)操作需要執(zhí)行EMMS指令。由于SIMD浮點(diǎn)寄存器是一個(gè)獨(dú)立的寄存器文件,因此MMX指令和浮點(diǎn)指令都能與流式SIMD擴(kuò)展指令混合在一起,而不需要執(zhí)行如EMMS指令那樣的特殊操作。 SIMD浮點(diǎn)數(shù)據(jù)類型。 IA流式SIMD擴(kuò)展的基本數(shù)據(jù)類型是緊縮單精度浮點(diǎn)操作數(shù),準(zhǔn)確地說,是4個(gè)32位單精度浮點(diǎn)(SP-FP)數(shù),如圖12.6所示。圖12.6 32位單精度浮點(diǎn)新的SIMD整型指令可以按
28、緊縮字節(jié)、緊縮字或者緊縮雙字的數(shù)據(jù)類型進(jìn)行操作。新的預(yù)取指令是在32字節(jié)或者更大的數(shù)據(jù)規(guī)?;A(chǔ)之上工作的,不管這些數(shù)據(jù)是什么類型。4個(gè)32位單精度浮點(diǎn)數(shù)編號為03,第0個(gè)數(shù)據(jù)位于寄存器的低32位之中。 SSE與存儲(chǔ)器之間的緊縮數(shù)據(jù)(單精度的浮點(diǎn)雙字)傳送,按64位的塊或者按128位的塊來進(jìn)行。但是,當(dāng)按緊縮數(shù)據(jù)類型執(zhí)行算術(shù)操作或者邏輯操作時(shí),卻按SIMD浮點(diǎn)寄存器中4個(gè)獨(dú)立的雙字并行地進(jìn)行操作。新的SIMD整型指令遵循著MMX指令的慣例,并且按MMX寄存器的數(shù)據(jù)類型,而不是按SIMD浮點(diǎn)128位寄存器的數(shù)據(jù)類型進(jìn)行操作。 SIMD的執(zhí)行方式。 SSE使用單指令多數(shù)據(jù)(SIMD)技術(shù),按照128
29、位浮點(diǎn)寄存器中的單精度浮點(diǎn)數(shù)來完成算術(shù)和邏輯操作。這種技術(shù)通過用一條指令并行地處理多個(gè)數(shù)據(jù)元素,以提高軟件的速度性能。流式SIMD擴(kuò)展支持緊縮的單精度浮點(diǎn)數(shù)據(jù)類型的操作,其SIMD整型指令支持緊縮整型數(shù)據(jù)類型(字節(jié)、字、雙字)的操作。SSE指令能在保護(hù)方式、實(shí)地址方式和虛擬8086方式下運(yùn)行。 數(shù)據(jù)格式。 SSE的緊縮128位數(shù)據(jù),編號為0127。位0為最低有效位(LSB),127為最高有效位(MSB)。當(dāng)存儲(chǔ)數(shù)據(jù)時(shí),128位的數(shù)據(jù)總是按“小端”法進(jìn)行排序,即低地址的字節(jié)為低有效字節(jié),高地址的字節(jié)為高有效字節(jié)。Pentium III處理器的SIMD浮點(diǎn)指令以32位單精度浮點(diǎn)數(shù)據(jù)為單位進(jìn)行操作。
30、在SIMD浮點(diǎn)寄存器中的值與存儲(chǔ)器中的128位數(shù)具有相同的格式。 在存儲(chǔ)器存儲(chǔ)實(shí)型數(shù)時(shí),單精度實(shí)型值按4個(gè)連續(xù)的字節(jié)存儲(chǔ)在存儲(chǔ)器中。128位的訪問方式用于128位的存儲(chǔ)器訪問、SIMD浮點(diǎn)寄存器之間的128位傳送、所有的邏輯展開/算術(shù)指令操作。32位的訪問方式用于32位的存儲(chǔ)器訪問、SIMD浮點(diǎn)寄存器之間的32位傳送以及各種算術(shù)指令操作。算術(shù)指令有128位操作的、也有32位操作的。 SIMD浮點(diǎn)控制/狀態(tài)寄存器。 控制/狀態(tài)寄存器MXCSR用來屏蔽/開放數(shù)值異常處理、設(shè)置舍入方式、設(shè)置清零方式和觀察狀態(tài)標(biāo)志。該寄存器的內(nèi)容可以用LDMXCSR和FXRSTOR指令來加載和用STMXSCRR和FX
31、SAVE指令將它存入存儲(chǔ)器。圖12.7示出了MXCSR寄存器中各個(gè)字段。位50表示是否檢測到SIMD。圖12.7 MXCSR寄存器 浮點(diǎn)數(shù)值異常。它們是“粘貼(sticky)”標(biāo)志,通過LDMXSCR指令對相應(yīng)字段寫0可以清除這些標(biāo)志。如果LDMXCSR指令清除了相應(yīng)的屏蔽位之后又對相應(yīng)的異常標(biāo)志置l,不會(huì)立即產(chǎn)生異常。只有在下一次SSE擴(kuò)展處理時(shí),出現(xiàn)了這種異常條件才會(huì)發(fā)生異常。SSE的每種異常只有一個(gè)異常標(biāo)志,因此一次緊縮數(shù)據(jù)(4個(gè)SP浮點(diǎn)數(shù))操作時(shí),不能為每個(gè)數(shù)據(jù)操作提供異常報(bào)告。在同一條指令之內(nèi)出現(xiàn)多個(gè)異常條件時(shí),則相關(guān)的異常標(biāo)志被修改并且指示著這些條件中最后一個(gè)異常條件所發(fā)生的異常。
32、當(dāng)復(fù)位時(shí),這些標(biāo)志被清除。 位127組成數(shù)值異常屏蔽。如果相應(yīng)的位置1,則該種異常被屏蔽,如果相應(yīng)的位清除,則該種異常開放。在復(fù)位時(shí),這些位全被置為l,意味著所有的數(shù)值異常被屏蔽。 位1413為舍入控制字段。舍入控制除提供定向舍入、截尾舍入之外,還控制著公用的就近舍入方式。當(dāng)復(fù)位時(shí),舍入控制被置為就近舍入。 位15(FZ)用來啟動(dòng)“清除為0(Flush To Zero)”方式。當(dāng)復(fù)位時(shí),該位被清除,則禁止“清除為0”方式。 MXCSR寄存器的其他位(位3l16和位6)定義為保留位并清除為0;試圖使用FXRSTOR或者LDMXCSR指令對保留位寫入非0值,則將引起通用保護(hù)異常。 啟動(dòng)“清除為0”
33、方式,在下溢情況下,有如下的效果: 回送0結(jié)果,且0值帶有真實(shí)結(jié)果的符號。 精度異常標(biāo)志和下溢異常標(biāo)志置為1。 在應(yīng)用程序中,下溢異常出現(xiàn)時(shí),希望能以精度的輕微損失為代價(jià)而換得應(yīng)用程序的快速運(yùn)行,因此采用“清除為0”方式。對于“清除為0”的下溢是這樣定義的:當(dāng)計(jì)算結(jié)果規(guī)格化之前,指數(shù)部分處于不可規(guī)格化范圍,則產(chǎn)生“清除為0”,而不管是否有精度損失。未屏蔽的下溢異常是早于“清除為0”方式產(chǎn)生的,這就意味著,當(dāng)下溢異常未被屏蔽時(shí),產(chǎn)生了下溢條件的SSE指令,將調(diào)用異常處理程序,而不管“清除為0”方式是否為使能。3. SSE2 技術(shù)技術(shù) Intel在PIV處理器中加入了SSE2指令集,Pentium
34、 III處理器采用的SSE指令集相比,目前Pentium 4的整個(gè)SEE2指令集共有144條,其中包括原有的68組SEE指令及新增加76組SEE2的指令。全新的SEE2指令除了將傳統(tǒng)整數(shù)MMX寄存器也擴(kuò)展成128位(128bit MMX),另外還提供了128位SIMD整數(shù)運(yùn)算操作和128位雙精密度浮點(diǎn)運(yùn)算操作。12.2 80X86/Pentium微處理器與新增指令簡介微處理器與新增指令簡介 與8086 微處理器相比,高檔微處理內(nèi)部結(jié)構(gòu)與尋址方式變化較大,不僅增加了數(shù)據(jù)總路線、地址總路線的位數(shù),而且采用了許多新技術(shù),增加了支持多媒體的指令集,使微處理器性能大大提高。12.2.1 80286微處理
35、器結(jié)構(gòu)和新增指令 1. 80286微處理器結(jié)構(gòu) 1) 80286的主要特性 1982年,Intel公司推出80286微處理器,與8086/8088相比,其速度更快,具備多任務(wù)功能,其主要性能: (1) 80286與8086/8088一樣具有軟件兼容性,在匯編源代碼一級兼容。 (2) 80286 CPU內(nèi)部的4個(gè)相互獨(dú)立的處理部件執(zhí)行部件(EU)、總線部件(BU)、指令部件(IU)和地址部件(AU)并行地進(jìn)行操作,大大提高了數(shù)據(jù)吞吐率,從而加快了處理速度。 (3) 80286的地址總線和數(shù)據(jù)信號線完全分開,不再采用分時(shí)復(fù)用的方式。 (4) 80286時(shí)鐘頻率已從早期的6MHz、8MHz、12MH
36、z提高到16MHz、20MHz、25MHz,遠(yuǎn)高于8086/8088的4.77MHz、8MHz和10MHz。 (5) 80286具有兩種基本的工作方式:即實(shí)方式和保護(hù)方式。內(nèi)外部數(shù)據(jù)總線都是16位,地址線24條,尋址范圍大幅擴(kuò)展,實(shí)模式下達(dá)到16MB,內(nèi)存虛擬地址空間達(dá)1GB。 (6) 與8086/8088 CPU相比,80286 CPU增加了一個(gè)機(jī)器狀態(tài)字寄存器MSW。此外,標(biāo)志寄存器Flags增加了兩個(gè)標(biāo)志。由于新增加內(nèi)容在程序設(shè)計(jì)中使用不多,故不再贅述。 2) 80286的內(nèi)部結(jié)構(gòu)的內(nèi)部結(jié)構(gòu) 80286的內(nèi)部結(jié)構(gòu)如圖12.8所示,80286微處理器由總線部件BU(Bus Unit)、指令
37、不見IU(instruction Unit)、執(zhí)行部件EU(Execute Unit)和地址部件AU(Address Unit)四個(gè)功能部件組成,增強(qiáng)了這些部件的并行操作能力,加快了微處理器的運(yùn)行速度。圖12.8 80286的內(nèi)部結(jié)構(gòu) 80286 CPU內(nèi)部的4個(gè)處理部件并行操作,形成了取指令、指令譯碼和指令執(zhí)行重疊進(jìn)行的流水線工作方式,提高了數(shù)據(jù)的吞吐率,加快了運(yùn)行處理速度。由于內(nèi)部具有存儲(chǔ)器管理和存儲(chǔ)器保護(hù)機(jī)構(gòu),可以適應(yīng)多用戶、多任務(wù)的需要。一個(gè)10MHz的80286比標(biāo)準(zhǔn)的5MHz的8086性能要高6倍。各個(gè)部件的主要功能簡述如下所述。 (1) 總線部件BU:地址鎖存和驅(qū)動(dòng)器講4位地址鎖
38、存并加以驅(qū)動(dòng);預(yù)取器負(fù)責(zé)向存儲(chǔ)器取指令代碼并放到6個(gè)字節(jié)的預(yù)取隊(duì)列中;協(xié)處理器借口專門負(fù)責(zé)語0287協(xié)處理器的連接;數(shù)據(jù)收發(fā)器根據(jù)指令要求負(fù)責(zé)控制數(shù)據(jù)的輸入或輸出(控制方向);6個(gè)字節(jié)的指令隊(duì)列專門存放由預(yù)取器送來的指令;總線控制產(chǎn)生有關(guān)外部控制信號送到外部的總線控制器80288,以便組合產(chǎn)生存儲(chǔ)器或I/O的讀、寫控制信號。 (2) 指令部件IU:負(fù)責(zé)從預(yù)取隊(duì)列中取代碼并進(jìn)行譯碼,放入3條指令的指令隊(duì)列中。 (3) 地址部件AU:負(fù)責(zé)物理地址的生成。實(shí)地址模式下的80286只讀尋址1MB的存儲(chǔ)空間;在保護(hù)虛地址模式下,物理地址線是24條,段地址并不直接存放在四個(gè)段寄存器中,而存放在段描述符中。
39、通過描述符的數(shù)據(jù)結(jié)構(gòu)尋找24位段基址與6位偏移地址相加得到實(shí)際的物理地址,形成真正的24位物理地址。 (4) 指令部件EU:負(fù)責(zé)從譯碼指令隊(duì)列取出已經(jīng)譯碼的指令立即執(zhí)行。執(zhí)行指令時(shí)如果需要操作數(shù),可以向AU發(fā)出相應(yīng)的地址信息。2. 80286新增指令新增指令 1) 堆棧操作指令 (1) PUSH Imm16;Imm16為16位立即數(shù): 功能:將16位立即數(shù)壓入堆棧,該指令不影響狀態(tài)標(biāo)志位。 例如: PUSH5678H PUSH0BAH PUSHOK (2) PUSHA: 依次將通用寄存器AX,CX,DX,BX,SP,BP,SI,DI的內(nèi)容壓入堆棧。 (3) POPA: 功能:依次將棧頂?shù)膬?nèi)容彈
40、至DI,SI,BP,SP,BX,DX,CX,AX(次序與PUSHA指令相反) 例如:在子程序調(diào)用中,我們往往通過PUSH指令和POP指令來保護(hù)寄存器,但現(xiàn)在可用下述指令實(shí)現(xiàn): PUSHA CALL SUB1 POPA 2) 有符號數(shù)乘法指令 8086/8088的乘法指令只有一個(gè)操作數(shù),另一個(gè)操作數(shù)是隱含的,而80286可有兩個(gè)或三個(gè)操作數(shù),使乘法指令的功能更靈活。 (1) IMUL Reg,Imm;Reg只能是16位或32位通用寄存器。功能:RegRegImm,指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。 例如: IMUL BX,0BCDH (2) IMULReg1,Reg2/Mem,Imm;R
41、eg1和Reg2只能是16位通用寄存器。 功能:Reg1Reg2Imm或Reg1MemImm,指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。 例如: IMUL DX,BX,100H IMUL BX,200H,12H IMUL CX,SI,200H 3) 移位指令 8088/8086的移位指令在移位次數(shù)大于1時(shí),移位次數(shù)必須放入CL寄存器。而80286對此進(jìn)行了修改,當(dāng)移位次數(shù)為131時(shí),可直接用立即數(shù)表示移位次數(shù)。例如: SAL AX,2 RCRBX,412.2.2 80386微處理器結(jié)構(gòu)和新增指令微處理器結(jié)構(gòu)和新增指令1 80386微處理器結(jié)構(gòu) 1) 80386的主要特性 1985年,Intel
42、公司推出80386微處理器,其內(nèi)外部數(shù)據(jù)總線都是32位(80386SX CPU外部數(shù)據(jù)線為16位),地址線32條,實(shí)際尋址范圍為4GB,虛擬存儲(chǔ)空間達(dá)64TB。其主要性能: (1) 80386 CPU的內(nèi)部由總路線接口部件(BIU)、指令部件(IU)、執(zhí)行部件(EU)以及址部件(AU)四部分組成。 (2) 時(shí)鐘頻率分別有16MHz、20MHz、25MHz、33MHz、40MHz。 (3) 不僅與8086/80286全兼容,而且向上擴(kuò)展具有全32位數(shù)據(jù)處理能力,具有先進(jìn)的存儲(chǔ)管理部件,可進(jìn)行頁式、段式和段頁式存儲(chǔ)管理。(4) 80386的工作方式在80286基礎(chǔ)上作了向上兼容擴(kuò)充,一方面它具有類
43、似的實(shí)方式和保護(hù)方式的特點(diǎn),另一方面在保護(hù)方式的特點(diǎn),另一方面在保護(hù)方式下,通過新的頁面保護(hù)機(jī)制,提供更大的虛擬存儲(chǔ)空間(64T)和實(shí)際存儲(chǔ)空間(4G)。此外,在保護(hù)方式下支持一種新的虛擬8086方式(V86),允許多個(gè)8086代碼不作修改亦可運(yùn)行。 (5) 80386以流水線方式工作,共有6級流水線,即:取指、譯碼、執(zhí)行、二級存儲(chǔ)器管理和總線訪問,以及指令的并行處理,從而提高了運(yùn)行速度。 (6) 提供了32位外部總路線接口??偩€接口支持動(dòng)態(tài)數(shù)據(jù)寬度控制,能動(dòng)態(tài)地在16位數(shù)據(jù)總路線和32位數(shù)據(jù)總路線之間進(jìn)行切換,以適應(yīng)不同位數(shù)的存儲(chǔ)器和I/O設(shè)備。 80386 CPU內(nèi)部寄存器共16個(gè),如圖1
44、2.9所示。它們是:圖12.9 32位寄存器示意圖 (1) 8個(gè)32位通用寄存器:EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP。這些通用寄存器的低16位可作為16位寄存器單獨(dú)使用,這些16位寄存器就是AX、BX、CX、DX、SI、DI、SP和BP。而AX、BX、CX和DX又分別可拆分為兩個(gè)8位寄存器:AH、AL、BH、BL、CH、CL、DH和DL。這些32位寄存器在名稱與功能上同其對應(yīng)的16位寄存器相同。 (2) 6個(gè)16位段寄存器:CS、DS、SS、ES、FS、GS。與ES相似,F(xiàn)S和GS都是附加的段寄存器。 (3) 兩個(gè)32位專用寄存器:指令指針寄存器EIP和標(biāo)志寄存器F
45、lags。其中EIP的低16位為IP,它們都是指令指針寄存器,其功能是存放指令在代碼段中的偏移量。32位Flags的低16位與16位Flags完全相同,高16位中增加了8個(gè)標(biāo)志位。由于新增加的標(biāo)志位與本書內(nèi)容基本無關(guān),故不再介紹。 2) 80386的內(nèi)部結(jié)構(gòu)的內(nèi)部結(jié)構(gòu) 80386 CPU的內(nèi)部結(jié)構(gòu)如圖12.10所示,由總線接口部件、指令預(yù)取部件、指令譯碼部件、控制部件、數(shù)據(jù)部件、保護(hù)測試部件、分段部件和分頁部件等8個(gè)功能部件組成??刂撇考?、數(shù)據(jù)部件和保護(hù)測試部件共同組成執(zhí)行部件,分段不見和分頁部件合在一起稱為存儲(chǔ)器管理部件。主要部件的功能分析如下所述。圖12.10 80386的內(nèi)部結(jié)構(gòu) (1)
46、 總線接口部件BU:提供中央處理部件和系統(tǒng)之間的高速接口,負(fù)責(zé)CPU的外部總線與內(nèi)部部件之間的信息交換。此外,BU產(chǎn)生一些CPU總線周期所需要的信號,包括地址、數(shù)據(jù)、控制信號等,用來與存儲(chǔ)器和輸入/輸出部件通信。 (2) 指令預(yù)取部件:負(fù)責(zé)預(yù)先從存儲(chǔ)器中取出指令,并存放在16字節(jié)的指令隊(duì)列中。它還管理一個(gè)線性地址指針和一個(gè)預(yù)取界限,這兩項(xiàng)內(nèi)容是從分段部件獲得的,分別作為預(yù)取指令指針和檢查是否違反分段界限。 (3) 指令譯碼部件:負(fù)責(zé)對指令進(jìn)行譯碼,可以完成從指令到微指令的轉(zhuǎn)換,譯碼后的指令放在譯碼器的指令隊(duì)列中,供執(zhí)行部件使用。 (4) 執(zhí)行部件:負(fù)責(zé)直接執(zhí)行指令。其中控制部件用于控制ROM,
47、在其中存有微代碼。譯碼器給控制部件提供微代碼的入口點(diǎn)(起始地址),控制部件按此微代碼執(zhí)行相應(yīng)的操作。數(shù)據(jù)部件包括寄存器組和算術(shù)/邏輯部件,負(fù)責(zé)進(jìn)行算術(shù)運(yùn)算和邏輯運(yùn)算。 (5) 存儲(chǔ)器管理部件MMU:由分段部件和分頁部件組成。分段部件將邏輯地址按執(zhí)行部件的要求變換成線性地址,實(shí)現(xiàn)有效地址的計(jì)算。分頁部件提供了對物理地址空間的管理,將物理地址送給總線接口部件,執(zhí)行存儲(chǔ)器或I/O存取。2. 80386新增指令新增指令 80386可對32位數(shù)據(jù)直接操作。其內(nèi)部寄存器也是32位。 80386有實(shí)地址模式、保護(hù)虛地址模式和虛擬8086模式三種工作方式,在DOS環(huán)境中只能工作于實(shí)地址模式。80386 CPU
48、具備以前CPU的各種尋址方式,同時(shí)80386增加了一種32位的內(nèi)存尋址方式。當(dāng)采用32位偏移量尋址存儲(chǔ)單元時(shí),其偏移地址由3部分構(gòu)成: 一個(gè)32位的基址寄存器,如EAX、EBX、ECX、EDX、ESI、EDI、EBP和ESP; 一個(gè)可以乘上1、2、4或8的32位變址寄存器,如EAX、EBX、ECX、EDX、ESI、EDI、EBP(除ESP); 一個(gè)32位的偏移量??梢姡芳拇嫫骺梢允?個(gè)通用寄存器中的任一個(gè),而變址寄存器可以是除ESP之外的任一個(gè)通用寄存器。其偏移地址計(jì)算公式如下: EA=32位基址寄存器+32位變址寄存器(1、2、3或8)+32位偏移量 由于32位尋址方式能使用所有的通用寄
49、存器,因而偏移地址中的寄存器組合與其他尋址方式就有所區(qū)別。主要有以下幾點(diǎn): (1) 32位偏移地址中,基址寄存器在前,變址寄存器在后。如EBX+ESI中EBX為基址寄存器,而ESI為變址寄存器;而在ESI+EBX中則相反。 (2) 默認(rèn)段寄存器的選擇取決于基址寄存器。如果基址寄存器是EBP或ESP,則默認(rèn)段寄存器為SS,否則默認(rèn)段寄存器為DS。 (3) 指令中如果使用段前綴的方式,則段前綴優(yōu)先。 下面是使用32位尋址方式的指令舉例: MOV EAX,345678H;默認(rèn)段寄存器為DS MOV EBX,ES:EAX;默認(rèn)段寄存器為ES MOV EBX,EBP+ESI;默認(rèn)段寄存器為SS MOV
50、EAX+100,ESI;默認(rèn)段寄存器為DS MOV ECX,GS:EAX*2+100H;默認(rèn)段寄存器為GS MOV EDX,FS:EAX+EBX*4+1000H;默認(rèn)段寄存器為FS 1) 數(shù)據(jù)傳送與填充指令數(shù)據(jù)傳送與填充指令 (1) MOVSX Reg,Reg/Mem 功能:將位數(shù)較少的源操作數(shù)傳送到位數(shù)較多的目的操作數(shù)中。目的操作可以是16位或32位寄存器;源操作數(shù)可以是寄存器或存儲(chǔ)器操作數(shù),其位數(shù)應(yīng)小于或等于目的操作數(shù)的位數(shù)。當(dāng)源操作數(shù)的位數(shù)少于目的操作數(shù)時(shí),目的操作數(shù)的高位用源操作數(shù)的符號位填充。該指令也稱為符號填充指令,不影響標(biāo)志位,適用于有符號數(shù)的傳送。例如: MOVSX CX,AL
51、 (2) MOVZX Reg,Reg/Mem 功能:與MOVSX功能基本相同,區(qū)別在于當(dāng)源操作數(shù)的位數(shù)少于目的操作數(shù)位數(shù)時(shí),目的操作數(shù)的高位用“0”填充。該指令也稱為0填充指令,不影響標(biāo)志位,適用于無符號數(shù)的傳送。例如: MOVZX AX,BL 例:已知CL=81H,執(zhí)行下列指令后AX和BX的值分別是多少? MOVSX AX,CL MOVZX BX,CL 解:由指令的功能可知,指令執(zhí)行完畢后,AX=0FF81H, BX=0081H。 2) 堆棧操作指令堆棧操作指令 (1) PUSH Imm32;Imm32為32位立即數(shù)。 功能:將32位立即數(shù)壓入堆棧。該指令執(zhí)行后SP的值將減4。 (2) PU
52、SHAD 功能:將所有通用寄存器EAX、ECX、EDX、EBX、ESP、EBP、ESI、EDI的內(nèi)容依次壓入堆棧。執(zhí)行該指令后,ESP值減32。 (3) POPAD 將當(dāng)前棧頂內(nèi)容依次彈出至EDI、ESI、EBP、ESP、EBX、EDX、ECX、EAX,本指令與PUSHAD功能相反,需對稱使用。 (4) PUSHFD 功能:將32位標(biāo)志寄存器EFlags的內(nèi)容壓入堆棧。 (5) POPFD 功能:將當(dāng)前棧頂?shù)?字節(jié)內(nèi)容彈出至EFlags寄存器。 以上堆棧操作指令除POPFD以外,均不影響狀態(tài)標(biāo)志位。 3) 取段寄存器指令取段寄存器指令 (1) LFS Reg,Mem 功能:將源操作數(shù)所指存儲(chǔ)單
53、元的4字節(jié)或6字節(jié)內(nèi)容傳送到指定的寄存器及段寄存器FS。 當(dāng)Reg為16位寄存器時(shí),將4字節(jié)的存儲(chǔ)器操作數(shù)中的低兩字節(jié)送指定Reg,高兩字節(jié)送段寄存器FS;當(dāng)Reg為32位寄存器時(shí),將6字節(jié)的存儲(chǔ)器操作數(shù)中的低4節(jié)送指定Reg,高兩字節(jié)送段寄存器FS。該指令不影響狀態(tài)標(biāo)志位。 例如 LFS AX,BUFF (2) LGS Reg,Mem功能:與LFS指令基本相同,唯一區(qū)別在于,該指令所涉及的段寄存器為GS。 (3) LSS Reg,Mem功能:與LFS功能基本相同,唯一區(qū)別在于,該指令所涉及的段寄存器為SS。 4) 有符號數(shù)乘法指令有符號數(shù)乘法指令 格式:IMUL Reg1,Reg2/Mem;
54、Reg1和Reg2只能是16位或32位通用寄存器 功能:Reg1Reg1Reg2或Reg1Reg1Mem。指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。若乘積溢出,溢出部分將丟失,且將OF及CF置1,否則將OF及CF置0。 5) 符號擴(kuò)展指令符號擴(kuò)展指令 (1) CWDE 功能:將AX中16位有符號數(shù)的符號位擴(kuò)展到EAX的高16位中,即把AX的16位有符號數(shù)擴(kuò)展為32位后,送EAX。該指令不影響標(biāo)志位。 (2) CDQ 功能:將EAX中32位有符號數(shù)的符號位擴(kuò)展到EDX寄存器,使之成為64位有符號數(shù)EDX:EAX。 6) 移位指令移位指令 80386中增加了一組新的移位指令,它們可以把指定的一組位
55、左移或右移到一個(gè)操作數(shù)中去。 (1) SHLD Reg/Mem,Reg,CL/Imm 功能:將第一操作數(shù)(16位或32位通用寄存器或存儲(chǔ)器單元)左移若干位(左移位數(shù)由8位立即數(shù)Imm或CL指定),空出位用第二操作數(shù)(與第一操作數(shù)位數(shù)相同的通用寄存器)高位部分填充,但第二操作數(shù)的內(nèi)容不變,標(biāo)志位CF中保留第一操作數(shù)最后的移出位。受影響的標(biāo)志位有CF、OF、PF、SF和ZF。移位過程如圖12.11(a)所示。例如: MOV AX,1234H MOV DX,5678H SHLD AX,DX,2 SHLD AX,DX,7 (2) SHRD Reg/Mem,Reg,CL/Imm功能:將第一操作數(shù)(16位
56、或32位通用寄存器或存儲(chǔ)器單元)右移若干位(右移位數(shù)由CL或8位立即數(shù)指定),空出位用第二操作數(shù)(與第一操作數(shù)長度相同的通用寄存器)低位部分填充,第二操作數(shù)內(nèi)容不變,CF標(biāo)志位中保留第一操作數(shù)最后的移出位。受影響的標(biāo)志位有CF、OF、PF、SF和ZF。移位過程如圖12.11(b)所示。 第一操作數(shù) CF 第二操作數(shù) 最高位 最高位 最低位 最低位 (a) SHLD指令操作示意圖 CF 第一操作數(shù) 第二操作數(shù) 最高位 最高位 最低位 最低位 (b) SHRD指令操作示意圖圖12.11 移位指令操作示意圖例如: MOV AX,0ABCDH MOV BX,5678H SHRD AX,BX,2 7)
57、位操作指令 (1) 位掃描指令。 BSF Reg,Reg/Mem 功能:對第二操作數(shù)(16位或32位通用寄存器或存儲(chǔ)器)從最低位到最高位進(jìn)行掃描,將首先掃描到的“1”的位號送第一操作數(shù),且使ZF置1,否則ZF置0。 BSR Reg,Reg/Mem 功能:與BSF指令功能基本相同,唯一區(qū)別在于,該指令是從最高位到最低位進(jìn)行掃描。例如: MOV AX,5678H BSR CX,AX BSF CX,AX (2) 位檢測指令。 BT Reg/Mem,Reg/Mem 功能:第一操作數(shù)(16位或32位通用寄存器或存儲(chǔ)單元)指定要測試的內(nèi)容,第二操作數(shù)(與第一操作數(shù)同長度的通用寄存器或8位立即數(shù))指定要測試
58、的位,將被測內(nèi)容指定測試位的值送至CF。 例如:設(shè)BX=1234H,分別執(zhí)行下列指令后,CF和BX的值如下: BT BX,6;CF=0,BX=1274H BTC Reg/Mem,Reg/Mem 該指令在BT功能的基礎(chǔ)上,將被測試位取反。 BTC Reg/Mem,Reg/Mem 該指令在BT指令功能的基礎(chǔ)上,將被測位清0。 BTC Reg/Mem,Reg/Mem 該指令在BT指令功能基礎(chǔ)上,將被測位置1。 例如: MOV AX 5678H BT AX,6 BTC AX,6 BTR AX,6 BTS AX,6 位掃描指令通常用于檢查寄存器或存儲(chǔ)單元是否為0,而位檢測指令用于對指定位進(jìn)行測試,因而可
59、根據(jù)該位的值來對程序流程進(jìn)行控制。 8) 條件設(shè)置字節(jié)指令 條件設(shè)置字節(jié)指令是80386及其以后CPU特有的一組指令,用于測試指定的標(biāo)志位所處的狀態(tài),并根據(jù)測試結(jié)果,將指定的一個(gè)8位寄存器或內(nèi)存單元置1或置0。它們與條件轉(zhuǎn)移指令中的標(biāo)志位測試有一定的相似性,但它們不是轉(zhuǎn)移,而是根據(jù)測試結(jié)果將字節(jié)操作數(shù)置1或置0。 條件設(shè)置字節(jié)指令格式如下: SETnn Reg/Mem 其中nn表示測試條件,是指令助記符的一部分,用于指定要測試的標(biāo)志位。操作數(shù)則只能是8位寄存器或一個(gè)字節(jié)存儲(chǔ)單元。該指令的執(zhí)行不影響任何標(biāo)志位。該組指令助記符具體如下:SETZ/SETE;Reg/Mem =ZFSETNZ/SETN
60、E;Reg/Mem = NOT ZFSETS;Reg/Mem =SFSETNS;Reg/Mem = NOT SFSETO;Reg/Mem =OFSETNO;Reg/Mem = NOT OFSETP/SETPE;Reg/Mem =PFSETNP/SETPO;Reg/Mem = NOT PFSETC/SETB/SETNAE;Reg/Mem =CFSETNC/SETNB/SETAE;Reg/Mem = NOT CFSETNA/SETBE;Reg/Mem =CF OR ZFSETA/SETNBE;Reg/Mem = NOT (CF OR ZF)SETL/SETNGE;Reg/Mem =SF XOR O
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版石灰石供應(yīng)合同模板
- 二零二五年度應(yīng)急管理及救援裝備租賃合同3篇
- 2025年度人工智能專利池共享與許可合同3篇
- 2025年度城市公共交通設(shè)施建設(shè)合同規(guī)范3篇
- 二零二四年商業(yè)地產(chǎn)項(xiàng)目新型業(yè)態(tài)招商代理服務(wù)合同樣本3篇
- 年度芳香除臭化學(xué)品:空氣清新劑產(chǎn)業(yè)分析報(bào)告
- 2025年新型材料現(xiàn)貨購銷合同標(biāo)準(zhǔn)范本3篇
- 2024-2025學(xué)年高中歷史第二單元古希臘和古羅馬的政治制度單元總結(jié)學(xué)案含解析岳麓版必修1
- 2025年度校園配送服務(wù)食品安全快速檢測質(zhì)量管理體系建設(shè)合同3篇
- 2025年度人工智能算法工程師保密協(xié)議及知識產(chǎn)權(quán)保護(hù)合同3篇
- 寺廟祈?;顒?dòng)方案(共6篇)
- 2025年病案編碼員資格證試題庫(含答案)
- 企業(yè)財(cái)務(wù)三年戰(zhàn)略規(guī)劃
- 提高膿毒性休克患者1h集束化措施落實(shí)率
- 山東省濟(jì)南市天橋區(qū)2024-2025學(xué)年八年級數(shù)學(xué)上學(xué)期期中考試試題
- 主播mcn合同模板
- 新疆2024年中考數(shù)學(xué)試卷(含答案)
- 2024測繪個(gè)人年終工作總結(jié)
- DB11 637-2015 房屋結(jié)構(gòu)綜合安全性鑒定標(biāo)準(zhǔn)
- 制造業(yè)生產(chǎn)流程作業(yè)指導(dǎo)書
- DB34∕T 4444-2023 企業(yè)信息化系統(tǒng)上云評估服務(wù)規(guī)范
評論
0/150
提交評論