어셈블리 프로그래밍 04

TonyHan·2021년 3월 23일
0
post-thumbnail

IA-32 Processor Architecture

어셈블리 프로그램을 위해 register+용도가 필요하다.

Mode of Operation

  • protected Mode
    메모리의 일부분(segment)이 있을 때 나에게 할당 된 메모리 밖에 읽기, 쓰기 모드 불가능
  • Real-Address Mode
    메모리 어디에서든 읽고 쓰기 가능
    현재는 DOSBOx로만 사용가능하고 Win10에서는 실행 불가능
  • Virtual-8086 Mode (IA-32 processor에서 불가능)
    protected에서 Window 명령 프롬프트
    Win64에서는 Virtual-8086 mode를 지원 안함
  • System Management Mode(SMM)
    공장에서 모드를 만들때 사용하는 모드

Addressable Memory

protected mode : 4GB space, 32-bit address
Real-address and Virtual-8086 mode : 1MB, 20-bit address

General-Purpose Registers(Inside the CPU)

어셈블리 프로그램을 작성하려면 CPU 내의 사용할 수 있는 register들을 먼저 알아야 한다.
사용 가능한 register set은 CPU 종류 마다 다르다.

산술 연산 레지스터

EAX(Accumulation)

  • 산술연산에 사용되는 레지스터이다.(상수/변수 값의 저장 용도)
  • 함수의 return 값 지정한다.

EBX(Base Register)

  • 간접 번지지정에 사용된다.
  • 산수 / 변수를 저장한다.

ECX(Counter Register)

  • 반복(Loop)에서 반복 Count 역할을 수행
    REP(반복 레지스터)에 얼마나 반복할 것인지를 ECX 레지스터에 저장한다.

EDX(Data Register)

  • EAX를 보조하는 역할을 수행한다.
  • 4byte * 4byte를 연산하면 EAX에 담기지 않을 수 있다 → EDX(상위 bit), EAX(하위 bit)를 이용하여 8byte에 저장한다.
  • 나누기를 진행할 경우 몫은 EAX 나머지는 EDX에 저장이 된다

인덱스 레지스터

ESI(Source Index)

  • 복사나 비교를 할 경우 출발지 주소를 저장하는 레지스터이다.

EDI(Destination Index)

  • 복사나 비교를 할 경우 목적지 주소를 저장하는 레지스터이다.
  • stos, movs를 사용할때 마다 1씩 증가한다.

포인터 레지스터

ESP(Stack Pointer)

  • Stack Pointer의 가장 최근에 저장된 공간의 주소를 저장하는 레지스터이다.
  • 스택이 쌓일때 마다 ESP 값이 1씩 증가한다.

EBP(Base Pointer)

  • Stack Pointer의 기준점(바닥 부분)을 저장하는 레지스터이다.
  • EBP 및에는 Return값이 존재한다.

EIP(Instruction Pointer)

  • 다음 명령어의 위치를 저장하는 레지스터이다.
  • PC (Program Counter) 라고도 불린다.
  • 다음 명령어의 위치를 저장하는 레지스터이다.

Accessing Parts of Registers

  • EAX레지스터를 예를 들면 EAX, AX, AH, AL은 모두 다른 레지스터가 아닌 EAX레지스터에서 분할된 레지스터의 이름이다.
  • 알파벳 EAX 중 16bit를 통해 AX레지스터로 접근이 가능하고 AX를 2개로 나누면 AX(AccumulationHigh), AL(Accumulation Low)값으로 나누어지게 되는데 이 두 레지스터가 각각 4byte씩 할당된다.
    (효율적으로 레지스터를 활용하기 위해 분할한 것이다.)

Index and Base Registers

  • ESP : Stack Pointer
    Stack and Queue

  • Stack in CPU
    ESP register는 stack을 구현하는데 사용된다.
    PUSH, POP 이라는 instruction이 있다.

Variables in C and Assembly

Assembly Program


어셈에서 변수를 잡으면 항상 global이다.

local 변수는 run time stack에 할당된다.

정리하면 Assembly가 변수를 선언하면
1. register
2. global
3. local
위의 순서로 변수를 사용하게 된다.

Some Specialized Register Usage

  • General-Purpose Registers
    • EAX - Accumulator
      • 예전부터 CPU에는 accumulator라고 불리는 register가 있었다.

        초록색 부분이 accumulator이다.
      • 그래서 정수 리스트를 더하는 과정에서 중간 결과는 보통 accumulator에 저장한다.
      • EAX에 저장하는 instruction이 다른 register에 저장 하는 것 보다 op-code 크기가 작은 경우가 많다.

        가급적 EAX가 더 작아서 더 많이 쓸려고 노력해야 한다.

        아무 레지스터나 써도 되지만 용도를 알고사용하는게 보다 빠르다.

Segment Registers

6개의 레지스터는 각 세그먼트의(프로그램의 기본단위) 시작위치를 가리킨다. 특히 이건 real-address mode에서 중요하게 작용한다.

1. 코드 세그먼트 (CS)는 현재 사용 중인 프로그램의 코드가 저장된 세그먼트의 주소를 가리키고
2. 데이터 세그먼트 (DS)는 현재 프로그램이 사용 중인 데이터가 저장된 세그먼트의 주소를 가리키며
3. 스택 세그먼트 (SS)는 현재 프로그램에서 사용 중인 스택이 저장된 세그먼트의 주소를 가리키고
4. 확장 세그먼트(EXTRA segment) (ES)는 프로그래머에 의해 결정된다.
5. FS 와 GS 라는 사용처가 정해지지 않은 두 개의 세그먼트 레지스터가 추가되었다.

  • Real-address mode
    Code Segment -> 메모리에서 가지고와야 하는 Instruction 위치는 CS:IP가 조합하여 PC 역활을 한다. next instruction의 address를 가지고 있다.
    Stack Segment
    Data Segment

  • Protected mode
    Segment register은 segment의 시작 주소를 갖고 있는 SDT(Segment descriptor table)의 각 entry를 가리킨다.
    우리는 flat memory(code+data+stack = 4G segment)를 사용할 예정

EIP : instruction pointer(다음 실행할 instruction 위치 저장)
EFLAGS : status and control flags (각 bit에 의미를 부여한다.)

Status Flags(EFLAG register)

EAX, EBX, ECX, EDX,...(용도를 알고 이름을 외워야 한다. 용도에 무관하게 사용가능하지만 프로그램 사이즈가 커지고 스피드가 느려진다)

  • EFLAG register에 할당된 status flag bit를 보인다.

    Carry는 unsigned arithmetic 그 결과가 벗어날때, Overflow는 signed arithmetic 그 결과가 벗어날때 EFLAG를 1로 set한다.

예를 들어 unsigned 연산은 Carry, Zero flag를 사용한다. signed 연산은 Sign, Zero, Overflow를 사용한다.

Auxiliary Carry는 10진수 연산용으로 사용했었다. 요즘에는 잘 안쓴다. 레지스터가 있으면 하위 4bit간 연산의 결과가 나왔을때 Carry가 올라가게 되는데 이걸 aux carry라고 부른다.

Parity는 연산후 하위 8bit의 1의 갯수가 짝수이면 1로 set된다.

셋팅이 된 것들은 프로그래머가 알아서 이용해야 한다.

  • 조건문에서

    예를 들어 k == 0 이라고 할때 우선 k-0을 실행한다. 만약 결과값이 0이면 zero flag를 set한다. 그럼 zeroflag를 보는 것이다. if zeroflag == 0 인지를 체크한다.

그래서 zeroflag == 0 이면 A 블록을 실행한다. 즉, 연산 결과에 따라 관련 flag을 1로 세팅하고, 이 flag값을 체크하여 필요한 판단을 할 수 있게 한다.

  • Auxiliary Carry : 10진 연산에 필요

  • Parity : LSB에서 1의 개수가 짝수이면 set(통신용)
    1의 갯수가 홀수가 되도록 MSB를 셋팅 오류가 없으면 패리티가 0이고 오류가 있으면 패리티가 1이다.

    이건 odd parity이고 even parity가 존재한다.

Floating-Point, MMX, XMM Registers


이런게 있다 정도만 알고 넘어가자

64-bit MMX 레지스터
128-bit XMM 레지스터 for single-instruction multiple-data(SIMD) operation

IA-32 Memory Management

Real-address mode

  • 1 MB RAM maximum addressable.
  • Application programs can access any area of memory.
  • Single tasking.
  • Supported by MS-DOS OS, DOS mode of Win95 and 98.
    (DOS : Disk Operating System)

Segmented Memory

16bit 가지고 20bit를 만들고 싶은 경우 4bit가 부족하다. z80에서 쓸때는 64k 이기도 했다. 64k를 유지하기 위해서 프로그램 하나는 64k 이상이 될 수 없다. 이때 이런것을 segment라고 부른다. 이때 64k 이기 때문에 16bit address로 가능하다. 16bit를 20bit로 늘리기 위해서 메모리 시작 위치를 16의 배수로 설정한다.

  • Segment register (CS, DS, SS등)에 이러한 시작 위치를 저장한다.
  • Segment의 최대 크기는 최대 64Mbytes이며 이를 참조하는데 16bits가 필요하다. (이 주소를 offset이라고 한다.)
  • 결론적으로 CS(16) : IP (16) => 20bit address를 segment주소 + offset으로 만들어낸다. 이때 CS는 사실상 맨 뒤에 4bit사 0으로 채워지니 20bit 라고 생각해야한다.

Calculating Linear Addresses (Physical Address)

  • Given a segment address, multiply it by 16 (add a hexadecimal zero), and add it to the offset

  • CS:IP, SS:SP, DS:SI 등으로 이 조합을 표시한다.

  • Example 1: Convert 08F1:0100(segment:offset) to a linear address.

  • Example 2: Convert 028F:0030 to a linear address.


    항상 CPU에서 만들어서 보내기 떄문에 메모리에 저장할 필요 없다.

  • Example 3: What segment addresses correspond to the linear
    address 28F30h?

    Not unique but no problem since the direction of address signal is from the CPU to memory only

Protected Mode

  • 4 GB addressable RAM (00000000 to FFFFFFFFh). : 4GB 메모리

  • Each program assigned a memory partition which is protected from other programs. Designed for multitasking.

  • Supported by Linux & MS-Windows : Linux나 MS-Windows에서 지원

  • Segment Descriptor Table(SDT) : 사용중인 segment list에 대한 정보 저장.(logical 단위 segment)

  • Program structure

    • code, data, and stack segments.
    • CS, DS, SS point to segment descriptor entries (각각 code,
      data, stack segments). : CS, DS, SS가 세그먼트의 위치를 가리킨다.
    • Global Descriptor Table (GDT) : SDT를 가지고 있다.
      • A data structure used by Intel x86-family processors in order to define the characteristics of the segments used during program execution.
      • Includes the base address, the size, and access privileges like executability and writability. : base add, size, 쓰기불가 읽기불가등을 가지고 있다.
  • MASM Programs use the Microsoft flat memory model : 우리가 사용시에는 flat 메모리 모드를 사용

  • Flat Segment Model(code data stack = 1 seg)

    • Single entry in global descriptor table (GDT).
    • All segments mapped to entire 32-bit address space

  • Multi-Segment Model

    • Each program has a local descriptor table (LDT) : GDT가 LDT를 가지리키고 LDT가 각 Segment 들을 가리키게된다.
      • GDT has the reference to the LDT
      • Holds descriptor for each segment used by the program
        여담으로 GDT 내부의 FLAT 메모리는 Segment 하나만을 가리킨다

  • Paging

    • Supported directly by the CPU
    • Divides each segment into 4096-byte blocks called pages. : 4KB 단위로 나뉘어져 았다. Segment는 logical partition인 반면 얘는 물리적으로 4kb로 나뉘었다.
    • Sum of all programs can be larger than physical memory.
    • Part of running program is in memory, part is on disk.
    • Virtual memory manager (VMM): OS utility that manages the loading and unloading of pages.
    • Page fault: issued by when a page must be loaded from disk.

64-Bit x86-64 Processors

  • Features
    • A 64-bit extension of the x86 instruction set. : x86에 64bit를 적용한 모델
      • Intel 64 and AMD64 processor families.
    • Backward-compatible with the x86 instruction set. x86과 호환됨 하지만 거꾸로는 안됨
    • Addresses are 64 bits long, allowing for a virtual address space of size 2^64 bytes (current implementation supports only the lowest 48 bits, i.e. 256 terabytes of RAM). : 주소는 64bit(2^64 bytes의 메모리를 사용할 수 있다) 하지만 이것도 너무 커서 256terabyte RAM만 사용할 수 있도록 함
    • Can use 64-bit general-purpose registers. : 64bit 레지스터를 사용할 수 있다.
    • Uses eight more general-purpose registers than the x86. : general-purpose register을 8but 추가
    • When running in native 64-bit mode, these processors do not
      support 16-bit real mode or virtual-8086 mode. : native 64-bit mode 사용시 16-bit real mode or virtual-8086 mode를 허용하지 않음

64-Bit Operation Modes

  • Compatibility mode

    • can run existing 16-bit and 32-bit applications. : 이미 주어진 16bit, 32bit를 돌릴 수 있는 모드이다.
    • MS 64-bit Windows supports only 32-bit apps in this mode. : MS 64-bit는 32-bit만 허용
    • To run in compatibility mode (1)
      • 프로그램이 실행되지 않거나 결과가 깨질 때 시도.
      • 실행 파일 -> 속성 -> 호환 모드 -> 운영 체제 선택 (컬러, 화면 크기 등도 조정 가능).
  • 64-bit mode

    • Processor runs applications that use the 64-bit linear address
      space (Windows 64 uses this). : 64-bit 선형 주소를 사용하는 모드
  • Compatibility mode와 64-bit 모드를 합쳐 long mode라고 한다. : Compatibility mode + 64-bit = long mode

  • Long mode에 대비해서 legacy mode가 있다(신경 쓰지 x)

Basic Execution Environment

  • Addresses can be 64 bits (48 bits, in practice) : 48bit이지만 64bit를 사용가능
  • Registers
    • Sixteen 64-bit general purpose registers. : 레지스터도 64bit general-purpose가 존재
    • Eight 80-bit floating-point registers. : 8개의 80bit floating-point register
    • 64-bit status flags register names named RFLAGS.(EFLAGS->RFLAGS)
      • EFLAGS is replaced by a 64-bit RFLAGS (no difference).
    • 64-bit instruction pointer named RIP. (EIP->RIP)
      • EIP is replace by 64-bit RIP

Available Registers in x64 Assembly

  • In MASM(MicrosoftAsmembly), R8B, R9B,…, R15B을 사용 instead of postfix L (Intel style).
  • AL, AX, EAX are all a part of RAX (AH is also usable).
  • R8L, R8W, R8D are all a part of R8 (R8H is not usable).
  • An instruction cannot reference a high byte (AH, BH, CH, DH) and one of the new byte registers at the same time (such as R11B) (mov AH, R11B is illegal).

CISC and RISC

  • CISC – complex instruction set computer
    • Large instruction set
    • High-level operations
    • Requires microcode interpreter : microcode는 instruction을 실행하기 위한 HW적 interpreter
  • RISC – reduced instruction set computer
    • Simple, atomic instructions : 꼭 필요한 instruction 채택, memory addressing에서 cisc는 방법이 많다. risc는 방법이 적다.
    • Small instruction set(instruction 갯수가 적음) -> 컴파일러 기술로 극복
    • Directly executed by hardware
    • HW가 간단하여 speed up, low price.
    • Examples:
      • ARM (Advanced RISC Machines)
      • DEC Alpha (now Compaq)

Components of an IA-32 Microcomputer

Memory

  • ROM : read-only memory
  • EPROM : erasable programmable read-only memory
  • Dynamic RAM (DRAM) : inexpensive; must be refreshed constantly (see Intel platform memory for Intel processors).
  • Static RAM (SRAM) : expensive; used for cache memory; no refresh required
  • Video RAM (VRAM) : dual ported; optimized for constant video refresh
  • CMOS RAM : System setup information
    • Complimentary metal-oxide semiconductor

Levels of Input-Output

  • Level 3: Call a library function (C++, Java)

    • Easy to do; abstracted from hardware; details hidden
    • Slowest performance
  • Level 2: Call an operating system function

    • Specific to one OS; device-independent
    • Medium performance
  • Level 1: Call a BIOS (basic input-output system) function : 이건 못쓴다고 생각해야 한다.(못쓰게 막아놓았다)

    • May produce different results on different systems
    • Knowledge of hardware required
    • Usually good performance
  • Level 0: Communicate directly with the hardware

    • May not be allowed by some operating systems
  • Displaying a String of Characters

  • ASM Programming levels(can do I/O at any level).

Basic Elements of Assembly Language

  • Microsoft Syntax Notation
    • […] : optional.
    • {…|…|…} : a choice of one of the enclosed elements separated by | character.
    • Elements in italics : items which have known definitions or
      descriptions. : 설명 할때는 이탤릭체
  • Integer Constants
    • [{+|-}] digits [radix] : 부호 숫자와 진법 default는 10진법
    • 26, -26, 26d(십진수), 11010011b(이진수), 42q(8진수), 42o(8진수), 1Ah(16진수), 0A3h(16진수)
    • h : hexadecimal, q/o : octal, d : decimal, b : binary, r : encoded real, t : decimal(alt), y : binary(alt).
    • 대문자도 무방하다: H, D, B, R 등. : 어셈블리에서는 대소문자를 구분안한다
    • Hexadecimal beginning with letter: 0A5h(16진수의 경우 알파벳으로 시작하는 수 0A5h)

Integer Expressions

  • Assembler calculate the expressions.
  • Operators and precedence levels: Examples:
  • Note
    • 위 operator들은 CPU가 아닌 어셈블러가 인식한다.
    • 즉, Assemble하기 위한 directive 등에 사용된다.

Real Number Constants


이런게 있지만 이번에는 잘 안다룰 예정

Character and String Constants

  • 'A', "x"

  • 'A Baby', "A Baby"

  • '10010010' and 10010010b are different data. : bit수(크기)가 다르다. 앞에있는 것은 8bytes char이다. 반면 뒤에 있는 것은 8bit 2진수이다.

  • Embedded quotes

    • "It isn't a book" : '가 필요한 경우
    • 'Say "Goodnight," Kim' : "가 필요한 경우
  • Identifiers

    • Names of variables, constants, procedures and labels. : 변수 이름, 상수이름, procedure, label 이름
    • 1~247 characters, including digits. Case insensitive (by default). : 247char까지 가능 대소문자 구분안함
  • First character must be a letter, _, @, or $. : 첫번째 char는 다음과 같이 가능하다

  • Reserved words(A.2) can’t be used as identifiers : 어셈블리가 사용하는 고유의 단어(변수나 상수를 simbol로 사용불가)

    • Instruction mnemonics, directives, type attributes, operators,
      predefined symbols.
  • Directives(see pp.623, A.5) : 어셈블리가 이해하는 명령

    • Commands understood by the assembler. Case insensitive.
    • Not part of the Intel instruction set. : instruction set이 아니다.
    • Used to declare code, data areas, select memory model, declare procedures, etc.
    • Examples: .data(데이터가 시작되는 곳), .code(프로그램이 시작되는 곳, name PROC(함수의 시작), etc.
    • Different assembler may have different directives. : assembler가 다르면 directive가 다르다

Instructions

Assembly Prgram

  • Directive + Instruction

  • Assembled into machine code by assembler.

  • Executed at runtime by the CPU. : CPU가 실행하는 명령

  • Member of the Intel IA-32 instruction set.

  • Standard instruction format:(microsoft assembler instruction의 형식)

  • Labels

    • Marks the address (offset) of code and data. : 변수 또는 위치
    • Code label : followed by colon (example: L1: ) : 어디로 가라는 Label
    • Data label : not followed by colon (example: myArray ) : 데이터에 붙이는 Label, variable name
  • Standard instruction format:

  • Instruction Mnemonics : 어떤 기능인지를 보기 좋게 적어 놓은 것들

    • Examples: MOV, ADD, SUB, MUL, INC, DEC
  • Operands : data or address

    • Constant : 상수값 : immediate operand
    • Constant expression (어셈블러가 계산 -> constant) : immediate operand
    • Register : 레지스터(EAX, ... ) : register operands
    • Memory (data label) : 메모리 (data label : 변수 혹은 주소) : memory operands(1. direct, 2. direct offset, 3. indirect ...)
  • Constants and constant expressions are often called immediate
    operands(data).

  • Comments : begin with semicolon ( ; ). : Addrmbly Program은 이해하기 어렵기 때문에 주석은 필수이다.

    • Good programs: programs with well written comments.
    • For debugging, revision, documentation, etc.
  • Multiline comments

    • begin with COMMENT directive and a programmer-chosen character
    • end with the same programmer-chosen character
    • Example:

Instruction Format Examples

  • Suggestion
    • 어셈블리 instruction 기억을 위해 상상력을 발휘하자셈블리 instruction 기억을 위해 상상력을 발휘하자

Example: Adding and Subtracting Integers

이 프로그램을 대충 해석해 보자면 eax에 10000h를 넣고 eax 40000h를 더하고 20000h를 뺀다음 DunpRegs를 호출해라. exit는 프로세스를 종료해라와 동일하다


대충 위와 같은 물건이 출력될 것이다.

Coding Styles : develop your own.

  • Some approaches to capitalization : 타인이 이해하기 쉬운 코드
    • Capitalize nothing, or everything. : 대문자화하기
    • Capitalize all reserved words, including instruction mnemonics and register names.
    • Capitalize only directives and operators
  • Other suggestions
    • Descriptive identifier names.
    • Blank lines between procedures.
  • Indentation and spacing
    • Code and data labels – no indentation.
    • Executable instructions – indent 4-5 spaces.
    • Comments: begin at column 40-45, aligned vertically.
    • 1-3 spaces between instruction and its operands.
      • Example: mov ax,bx <- 이런식으로 넉넉하게 보일 수 있도록 작성
    • 1-2 blank lines between procedures.

Alternative Version of Addsub

앞에서 Irvine32.inc가 들어가서 깔끔한 코드를 볼 수 있었다.
이번에는 다른 버전의 코드를 보도록 하자

INVOKE는 Parameter Passing을 하게 해준다.

A Proram Template

(미리 만들어 놓아도 된다)

profile
예술가

0개의 댓글

관련 채용 정보