導航:首頁 > 源碼編譯 > 編譯器內建匯編

編譯器內建匯編

發布時間:2024-09-16 21:11:26

A. 寫編譯器必須要會匯編語言嗎

這種事情從理論層面來說:不一定要與匯編語言有什麼瓜葛。你完全可以讓你的編譯器直接編譯成機器碼。大部分C/C++編譯器(不是所有的)之所以先編譯成匯編語言,是為了解構。從C到匯編的「翻譯」相對容易(都算是抽象語言,有語義的),同時匯編語言的編譯器效率很高,可以生成質量非常高的機器碼。所以兩者結合,可以突出各自的優勢,減少復雜度。
但是如果有必要,當然也可以直接編寫產生機器碼的編譯器,實際上Java/C#這樣的半編譯語言和Js這樣的腳本語言,都沒有先轉換成匯編的這一步。前者是因為強大的虛擬機技術,直接把位元組碼轉換成機器碼執行了,後者是靈活的解釋器,實時把代碼轉換成機器碼執行,而完全沒有「編譯」這一步(當然如果深究的話,出於性能考慮,很多高性能的解釋器也會提前「預編譯」一部分代碼,但這是具體實現,不是宏觀概念)。

B. 如何在C語言中嵌入匯編

在 Visual C++ 中使用內聯匯編- -

使用內聯匯編可以在 C/C++ 代碼中嵌入匯編語言指令,而且不需要額外的匯編和連接步驟。在 Visual C++ 中,內聯匯編是內置的編譯器,因此不需要配置諸如 MASM 一類的獨立匯編工具。這里,我們就以 Visual Studio .NET 2003 為背景,介紹在 Visual C++ 中使用內聯匯的相關知識(如果是早期的版本,可能會有些許出入)。

內聯匯編代碼可以使用 C/C++ 變數和函數,因此它能非常容易地整合到 C/C++ 代碼中。它能做一些對於單獨使用 C/C++ 來說非常笨重或不可能完成的任務。

一、 優點
使用內聯匯編可以在 C/C++ 代碼中嵌入匯編語言指令,而且不需要額外的匯編和連接步驟。在 Visual C++ 中,內聯匯編是內置的編譯器,因此不需要配置諸如 MASM 一類的獨立匯編工具。這里,我們就以 Visual Studio .NET 2003 為背景,介紹在 Visual C++ 中使用內聯匯的相關知識(如果是早期的版本,可能會有些許出入)。

內聯匯編代碼可以使用 C/C++ 變數和函數,因此它能非常容易地整合到 C/C++ 代碼中。它能做一些對於單獨使用 C/C++ 來說非常笨重或不可能完成的任務。

內聯匯編的用途包括:

使用匯編語言編寫特定的函數;
編寫對速度要求非常較高的代碼;
在設備驅動程序中直接訪問硬體;
編寫 naked 函數的初始化和結束代碼。

二、 關鍵字

使用內聯匯編要用到 __asm 關鍵字,它可以出現在任何允許 C/C++ 語句出現的地方。我們來看一些例子:

簡單的 __asm 塊:
__asm
{
MOV AL, 2
MOV DX, 0xD007
OUT AL, DX
}

在每條匯編指令之前加 __asm 關鍵字:
__asm MOV AL, 2
__asm MOV DX, 0xD007
__asm OUT AL, DX

因為 __asm 關鍵字是語句分隔符,所以可以把多條匯編指令放在同一行:
__asm MOV AL, 2 __asm MOV DX, 0xD007 __asm OUT AL, DX

顯然,第一種方法與 C/C++ 的風格很一致,並且把匯編代碼和 C/C++ 代碼清楚地分開,還避免了重復輸入 __asm 關鍵字,因此推薦使用第一種方法。

不像在 C/C++ 中的"{ }",__asm 塊的"{ }"不會影響 C/C++ 變數的作用范圍。同時,__asm 塊可以嵌套,而且嵌套也不會影響變數的作用范圍。

為了與低版本的 Visual C++ 兼容,_asm 和 __asm 具有相同的意義。另外,Visual C++ 支持標准 C++ 的 asm 關鍵字,但是它不會生成任何指令,它的作用僅限於使編譯器不會出現編譯錯誤。要使用內聯匯編,必須使用 __asm 而不是 asm 關鍵字。

三、 匯編語言

1. 指令集

內聯匯編支持 Intel Pentium 4 和 AMD Athlon 的所有指令。更多其它處理器的指令可以通過 _EMIT 偽指令來創建(_EMIT 偽指令說明見下文)。

2. MASM 表達式

在內聯匯編代碼中,可以使用所有的 MASM 表達式(MASM 表達式是指用來計算一個數值或一個地址的操作符和操作數的組合)。

3. 數據指示符和操作符

雖然 __asm 塊中允許使用 C/C++ 的數據類型和對象,但它不能使用 MASM 指示符和操作符來定義數據對象。這里特別指出,__asm 塊中不允許 MASM 中的定義指示符(DB、DW、DD、DQ、DT 和 DF),也不允許使用 DUP 和 THIS 操作符。MASM 中的結構和記錄也不再有效,內聯匯編不接受 STRUC、RECORD、WIDTH 或者 MASK。

4. EVEN 和 ALIGN 指示符

盡管內聯匯編不支持大多數 MASM 指示符,但它支持 EVEN 和 ALIGN。當需要的時候,這些指示符在匯編代碼裡面加入 NOP 指令(空操作)使標號對齊到特定邊界。這樣可以使某些處理器取指令時具有更高的效率。

5. MASM 宏指示符

內聯匯編不是宏匯編,不能使用 MASM 宏指示符(MACRO、REPT、IRC、IRP 和 ENDM)和宏操作符(<>、!、&、% 和 .TYPE)。

6. 段

必須使用寄存器而不是名稱來指明段(段名稱"_TEXT"是無效的)。並且,段跨越必須顯式地說明,如 ES:[EBX]。

7. 類型和變數大小

在內聯匯編中,可以用 LENGTH、SIZE 和 TYPE 來獲取 C/C++ 變數和類型的大大小。
* LENGTH 操作符用來取得 C/C++ 中數組的元素個數(如果不是一個數組,則結果為 1)。
* SIZE 操作符可以獲取 C/C++ 變數的大小(一個變數的大小是 LENGTH 和 TYPE 的乘積)。
* TYPE 操作符可以返回 C/C++ 類型和變數的大小(如果變數是一個數組,它得到的是數組中單個元素的大小)。

例如,程序中定義了一個 8 維的整數型變數:

int iArray[8];

下面是 C 和匯編表達式中得到的 iArray 及其元素的相關值:

__asm C Size

LENGTH iArray sizeof(iArray)/sizeof(iArray[0]) 8
SIZE iArray sizeof(iArray) 32
TYPE iArray sizeof(iArray[0]) 4

8. 注釋

內聯匯編中可以使用匯編語言的注釋,即";"。例如:

__asm MOV EAX, OFFSET pbBuff ; Load address of pbBuff

因為 C/C++ 宏將會展開到一個邏輯行中,為了避免在宏中使用匯編語言注釋帶來的混亂,內聯匯編也允許使用 C/C++ 風格的注釋。

9. _EMIT 偽指令

_EMIT 偽指令相當於 MASM 中的 DB,但是 _EMIT 一次只能在當前代碼段(.text 段)中定義一個位元組。例如:

__asm
{
JMP _CodeLabel

_EMIT 0x00 ; 定義混合在代碼段的數據
_EMIT 0x01

_CodeLabel: ; 這里是代碼
_EMIT 0x90 ; NOP指令
}

10. 寄存器使用

一般來說,不能假定某個寄存器在 __asm 塊開始的時候有已知的值。寄存器的值將不能保證會從 __asm 塊保留到另外一個 __asm 塊中。

如果一個函數聲明為 __fastcall 調用方式,則其參數將通過寄存器而不是堆棧來傳遞。這將會使 __asm 塊產生問題,因為函數無法被告知哪個參數在哪個寄存器中。如果函數接收了 EAX 中的參數並立即儲存一個值到 EAX 中的話,原來的參數將丟失掉。另外,在所有聲明為 __fastcall 的函數中,ECX 寄存器是必須一直保留的。為了避免以上的沖突,包含 __asm 塊的函數不要聲明為 __fastcall 調用方式。

提示:如果使用 EAX、EBX、ECX、EDX、ESI 和 EDI 寄存器,你不需要保存它。但如果你用到了 DS、SS、SP、BP 和標志寄存器,那就應該用 PUSH 保存這些寄存器。
提示:如果程序中改變了用於 STD 和 CLD 的方向標志,必須將其恢復到原來的值。

四、 使用 C/C++ 元素

1. 可用的 C/C++ 元素

C/C++ 與匯編語言可以混合使用,在內聯匯編中可以使用 C/C++ 變數以及很多其它的 C/C++ 元素,包括:

符號,包括標號、變數和函數名;
常量,包括符號常量和枚舉型成員;
宏定義和預處理指示符;
注釋,包括"/**/"和"//";
類型名,包括所有 MASM 中合法的類型;
typedef 名稱,通常使用 PTR 和 TYPE 操作符,或者使用指定的的結構或枚舉成員。
在內聯匯編中,可以使用 C/C++ 或匯編語言的基數計數法。例如,0x100 和 100H 是相等的。

2. 操作符使用

內聯匯編中不能使用諸如"<<"一類的 C/C++ 操作符。但是,C/C++ 和 MASM 共有的操作符(比如"*"和"[]"操作符),都被認為是匯編語言的操作符,是可以使用的。舉個例子:

int iArray[10];

__asm MOV iArray[6], BX ; Store BX at iArray + 6 (Not scaled)
iArray[6] = 0; // Store 0 at iArray+12 (Scaled)

提示:在內聯匯編中,可以使用 TYPE 操作符使其與 C/C++ 一致。比如,下面兩條語句是一樣的:
__asm MOV iArray[6 * TYPE int], 0 ; Store 0 at iArray + 12
iArray[6] = 0; // Store 0 at iArray + 12

3. C/C++ 符號使用

在 __asm 塊中可以引用所有在作用范圍內的 C/C++ 符號,包括變數名稱、函數名稱和標號。但是不能訪問 C++ 類的成員函數。

下面是在內聯匯編中使用 C/C++ 符號的一些限制:

每條匯編語句只能包含一個 C/C++ 符號。在一條匯編指令中,多個符號只能出現在 LENGTH、TYPE 或 SIZE 表達式中。
在 __asm 塊中引用函數必須先聲明。否則,編譯器將不能區別 __asm 塊中的函數名和標號。
在 __asm 塊中不能使用對於 MASM 來說是保留字的 C/C++ 符號(不區分大小寫)。MASM 保留字包含指令名稱(如 PUSH)和寄存器名稱(如 ESI)等。
在 __asm 塊中不能識別結構和聯合標簽。
4. 訪問 C/C++ 中的數據

內聯匯編的一個非常大的方便之處是它可以使用名稱來引用 C/C++ 變數。例如,如果 C/C++ 變數 iVar 在作用范圍內:

__asm MOV EAX, iVar ; Stores the value of iVar in EAX

如果 C/C++ 中的類、結構或者枚舉成員具有唯一的名稱,則在 __asm 塊中可以只通過成員名稱來訪問(省略"."操作符之前的變數名或 typedef 名稱)。然而,如果成員不是唯一的,你必須在"."操作符之前加上變數名或 typedef 名稱。例如,下面的兩個結構都具有 SameName 這個成員變數:

struct FIRST_TYPE
{
char *pszWeasel;
int SameName;
};

struct SECOND_TYPE
{
int iWonton;
long SameName;
};

如果按下面方式聲明變數:

struct FIRST_TYPE ftTest;
struct SECOND_TYPE stTemp;

那麼,所有引用 SameName 成員的地方都必須使用變數名,因為 SameName 不是唯一的。另外,由於上面的 pszWeasel 變數具有唯一的名稱,你可以僅僅使用它的成員名稱來引用它:

__asm
{
MOV EBX, OFFSET ftTest
MOV ECX, [EBX]ftTest.SameName ; 必須使用"ftTest"
MOV ESI, [EBX]. pszWeasel ; 可以省略"ftTest"
}

提示:省略變數名僅僅是為了書寫代碼方便,生成的匯編指令還是一樣的。
5. 用內聯匯編寫函數

如果用內聯匯編寫函數的話,要傳遞參數和返回一個值都是非常容易的。看下面的例子,比較一下用獨立匯編和內聯匯編寫的函數:

; PowerAsm.asm
; Compute the power of an integer

PUBLIC GetPowerAsm
_TEXT SEGMENT WORD PUBLIC 'CODE'
GetPowerAsm PROC
PUSH EBP ; Save EBP
MOV EBP, ESP ; Move ESP into EBP so we can refer
; to arguments on the stack
MOV EAX, [EBP+4] ; Get first argument
MOV ECX, [EBP+6] ; Get second argument
SHL EAX, CL ; EAX = EAX * (2 ^ CL)
POP EBP ; Restore EBP
RET ; Return with sum in EAX
GetPowerAsm ENDP
_TEXT ENDS
END

C/C++ 函數一般用堆棧來傳遞參數,所以上面的函數中需要通過堆棧位置來訪問它的參數(在 MASM 或其它一些匯編工具中,也允許通過名稱來訪問堆棧參數和局部堆棧變數)。

下面的程序是使用內聯匯編寫的:

// PowerC.c

#include

int GetPowerC(int iNum, int iPower);

int main()
{
printf("3 times 2 to the power of 5 is %d\n", GetPowerC( 3, 5));
}

int GetPowerC(int iNum, int iPower)
{
__asm
{
MOV EAX, iNum ; Get first argument
MOV ECX, iPower ; Get second argument
SHL EAX, CL ; EAX = EAX * (2 to the power of CL)
}
// Return with result in EAX
}

使用內聯匯編寫的 GetPowerC 函數可以通過參數名稱來引用它的參數。由於 GetPowerC 函數沒有執行 C 的 return 語句,所以編譯器會給出一個警告信息,我們可以通過 #pragma warning 禁止生成這個警告。

內聯匯編的其中一個用途是編寫 naked 函數的初始化和結束代碼。對於一般的函數,編譯器會自動幫我們生成函數的初始化(構建參數指針和分配局部變數等)和結束代碼(平衡堆棧和返回一個值等)。使用內聯匯編,我們可以自己編寫乾乾凈凈的函數。當然,此時我們必須自己動手做一些有關函數初始化和掃尾的工作。例如:

void __declspec(naked) MyNakedFunction()
{
// Naked functions must provide their own prolog.
__asm
{
PUSH EBP
MOV ESP, EBP
SUB ESP, __LOCAL_SIZE
}

.
.
.

// And we must provide epilog.
__asm
{
POP EBP
RET
}
}

6. 調用 C/C++ 函數

內聯匯編中調用聲明為 __cdecl 方式(默認)的 C/C++ 函數必須由調用者清除參數堆棧,下面是一個調用 C/C++ 函數例子:

#include

char szFormat[] = "%s %s\n";
char szHello[] = "Hello";
char szWorld[] = " world";

void main()
{
__asm
{
MOV EAX, OFFSET szWorld
PUSH EAX
MOV EAX, OFFSET szHello
PUSH EAX
MOV EAX, OFFSET szFormat
PUSH EAX
CALL printf

// 壓入了 3 個參數在堆棧中,調用函數之後要調整堆棧
ADD ESP, 12
}
}

提示:參數是按從右往左的順序壓入堆棧的。
如果調用 __stdcall 方式的函數,則不需要自己清除堆棧。因為這種函數的返回指令是 RET n,會自動清除堆棧。大多數 Windows API 函數均為 __stdcall 調用方式(僅除 wsprintf 等幾個之外),下面是一個調用 MessageBox 函數的例子:

#include

TCHAR g_tszAppName[] = TEXT("API Test");

void main()
{
TCHAR tszHello[] = TEXT("Hello, world!");

__asm
{
PUSH MB_OK OR MB_ICONINFORMATION
PUSH OFFSET g_tszAppName ; 全局變數用 OFFSET
LEA EAX, tszHello ; 局部變數用 LEA
PUSH EAX
PUSH 0
CALL DWORD PTR [MessageBox] ; 注意這里不是 CALL MessageBox,而是調用重定位過的函數地址
}
}

提示:可以不受限制地訪問 C++ 成員變數,但是不能訪問 C++ 的成員函數。
7. 定義 __asm 塊為 C/C++ 宏

使用 C/C++ 宏可以方便地把匯編代碼插入到源代碼中。但是這其中需要額外地注意,因為宏將會擴展到一個邏輯行中。
為了不會出現問題,請按以下規則編寫宏:

使用花括弧把 __asm 塊包圍住;
把 __asm 關鍵字放在每條匯編指令之前;
使用經典 C 風格的注釋("/* comment */"),不要使用匯編風格的注釋("; comment")或單行的 C/C++ 注釋("// comment");
舉個例子,下面定義了一個簡單的宏:

#define PORTIO __asm \
/* Port output */ \
{ \
__asm MOV AL, 2 \
__asm MOV DX, 0xD007 \
__asm OUT DX, AL \
}

乍一看來,後面的三個 __asm 關鍵字好像是多餘的。其實它們是需要的,因為宏將被擴展到一個單行中:

__asm /* Port output */ { __asm MOV AL, 2 __asm MOV DX, 0xD007 __asm OUT DX, AL }

從擴展後的代碼中可以看出,第三個和第四個 __asm 關鍵字是必須的(作為語句分隔符)。在 __asm 塊中,只有 __asm 關鍵字和換行符會被認為是語句分隔符,又因為定義為宏的一個語句塊會被認為是一個邏輯行,所以必須在每條指令之前使用 __asm 關鍵字。

括弧也是需要的,如果省略了它,編譯器將不知道匯編代碼在哪裡結束,__asm 塊後面的 C/C++ 語句看起來會被認為是匯編指令。

同樣是由於宏展開的原因,匯編風格的注釋("; comment")和單行的 C/C++ 注釋("// commen")也可能會出現錯誤。為了避免這些錯誤,在定義 __asm 塊為宏時請使用經典 C 風格的注釋("/* comment */")。

和 C/C++ 宏一樣 __asm 塊寫的宏也可以擁有參數。和 C/C++ 宏不一樣的是,__asm 宏不能返回一個值,因此,不能使用這種宏作為 C/C++ 表達式。

不要不加選擇地調用這種類型的宏。比如,在聲明為 __fastcall 的函數中調用匯編語言宏可能會導致不可預料的結果(請參看前文的說明)。

8. 轉跳

可以在 C/C++ 裡面使用 goto 轉跳到 __asm 塊中的標號處,也可以在 __asm 塊中轉跳到 __asm 塊裡面或外面的標號處。__asm 塊內的標號是不區分大小寫的(指令、指示符等也是不區分大小寫的)。例如:

void MyFunction()
{
goto C_Dest; /* 正確 */
goto c_dest; /* 錯誤 */

goto A_Dest; /* 正確 */
goto a_dest; /* 正確 */

__asm
{
JMP C_Dest ; 正確
JMP c_dest ; 錯誤

JMP A_Dest ; 正確
JMP a_dest ; 正確

a_dest: ; __asm 標號
}

C_Dest: /* C/C++ 標號 */
return;
}

不要使用函數名稱當作標號,否則將轉跳到函數中執行,而不是標號處。例如,由於 exit 是 C/C++ 的函數,下面的轉跳將不會到 exit 標號處:

; 錯誤:使用函數名作為標號
JNE exit
.
.
.
exit:
.
.
.

美元符號"$"用於指定當前指令位置,常用於條件跳轉中,例如:

JNE $+5 ; 下面這條指令的長度是 5 個位元組
JMP _Label
NOP ; $+5,轉跳到了這里
.
.
.
_Label:
.
.
.

五、在 Visual C++ 工程中使用獨立匯編

內聯匯編代碼不易於移植,如果你的程序打算在不同類型的機器(比如 x86 和 Alpha)上運行,你可能需要在不同的模塊中使用特定的機器代碼。這時候你可以使用 MASM(Microsoft Macro Assembler),因為 MASM 支持更多方便的宏指令和數據指示符。

這里簡單介紹一下在 Visual Studio .NET 2003 中調用 MASM 編譯獨立匯編文件的步驟。

在 Visual C++ 工程中,添加按 MASM 的要求編寫的 .asm 文件。在解決方案資源管理器中,右擊這個文件,選擇"屬性"菜單項,在屬性對話框中,點擊"自定義生成步驟",設置如下項目:

命令行:ML.exe /nologo /c /coff "-Fo$(IntDir)\$(InputName).obj" "$(InputPath)"
輸出:$(IntDir)\$(InputName).obj

如果要生成調試信息,可以在命令行中加入"/Zi"參數,還可以根據需要生成 .lst 和 .sbr 文件。

如果要在匯編文件中調用 Windows API,可以從網上下載 MASM32 包(包含了 MASM 匯編工具、非常完整的 Windows API 頭文件/庫文件、實用宏以及大量的 Win32 匯編例子等)。相應地,應該在命令行中加入"/I X:\MASM32\INCLUDE"參數指定 Windows API 匯編頭文件(.inc)的路徑。MASM32 的主頁是:http://www.masm32.com,裡面可以下載最新版本的 MASM32 包。

C. C語言能幹什麼

c語言學會了能乾的事情有:
1、做嵌入式開發;
2、寫漂亮燃旅的界面;
3、做伺服器開發;
4、可以寫游戲;
5、可以寫驅動程凱段序;
6、可以寫外皮孫凳掛;
7、可以做視頻圖片流媒體處理;
8、可做網頁和爬蟲相關的編程
9、可以進行黑客編程等等。
C語言是一種計算機程序設計語言。它既具有高級語言的特點,又具有匯編語言的特點。它由美國貝爾研究所的D.M.Ritchie於1972年推出。1978後,C語言已先後被移植到大、中、小及微型機上。它可以作為工作系統設計語言,編寫系統應用程序,也可以作為應用程序設計語言,編寫不依賴計算機硬體的應用程序。

D. 編譯器為什麼會生成匯編語言而不是機器語言

1)其中有一個好處是方便優化,因為,編譯器也是工具,也是機器,畢竟是機器生成的程序,不可以非常 完美的,而匯編是機器指令的助記符,一個匯編指令就對應一條機器指令(特殊指令除外)調試起來肯定會比 機器指令方便的方便,這樣優化起來也方便。
2)高級語言只需要編譯成匯編代碼就可以了,匯編代碼到機器碼的轉換是由硬體實現即可,有必要用軟體實 現這樣分層可以有效地減弱編譯器編寫的復雜性,提高了效率.就像網路通訊的實現需要分成很多層一樣,主要 目的就是為了從人腦可分析的粒度來減弱復雜性.
3)如果把高級語言的源代碼直接編譯成機器碼的話,那要做高級語言到機器碼之間的映射,如果這樣做的 話,每個寫編譯器的都必須熟練機器碼。這個不是在做重復勞動么。

E. 編譯器是將高級語言編譯成匯編語言嗎

一般的
編譯器
,是先將
高級語言
轉換成匯編語言(
中間代碼
),然後在匯編的基礎上優化生成OBJ
目標代碼
,最後Link成可執行文件

閱讀全文

與編譯器內建匯編相關的資料

熱點內容
生存為什麼不能使用命令方塊 瀏覽:204
java與sqlserver資料庫連接 瀏覽:21
鐵路解壓視頻全過程 瀏覽:442
主備核心交換機如何連接伺服器 瀏覽:704
白金卡哪個app最靠譜 瀏覽:666
本田汽車空調壓縮機保險絲 瀏覽:155
康佳led47r5500pdf通病 瀏覽:821
cad圓相切命令 瀏覽:69
bmp文件夾打開 瀏覽:502
u盤裝系統文件下載到哪個文件夾 瀏覽:21
es系統封裝教程程序員大本營 瀏覽:523
程序員聚餐喝什麼酒好 瀏覽:608
編譯程序生成安裝文件 瀏覽:955
linux查看usb設備 瀏覽:284
安卓怎麼禁止app充值 瀏覽:559
動盪對加密貨幣的影響 瀏覽:358
國家反詐app哪裡看注冊時間 瀏覽:563
打孔式文件夾怎麼裝視頻 瀏覽:29
php怎麼學比較好 瀏覽:381
python中關於函數調用 瀏覽:362