Автор: Пользователь скрыл имя, 10 Марта 2013 в 15:44, курс лекций
Один из основных принципов машины фон Неймана — то, что и программы, и данные хранятся в одной и той же памяти. Сохраняемая в памяти программа представляет собой некоторые коды, которые могут рассматриваться как данные. Возможно, с точки зрения программиста программа — активный компонент, она выполняет некоторые действия. Но с точки зрения процессора команды программы — это данные, которые процессор читает и интерпретирует. С другой стороны программа — это данные с точки зрения обслуживающих программ, например, с точки зрения компилятора, который на входе получает одни данные — программу на языке высокого уровня (ЯВУ), а на выходе выдает другие данные — программу в машинных кодах.
Текст исходного оператора нужен только для печати листинга, Ассемблер на 2-м проходе использует только первые 4 поля записи. Первое поле позволяет исключить строки, целиком состоящие из комментария. Второе поле позволяет избежать подсчета адресов, третье — поиска мнемоники в таблицах. Основная работа 2-го прохода состоит в разборе поля операндов и генерации объектного кода.
Некоторые общие соображения, касающиеся этой работы. Объектный код команды состоит из поля кода операции и одного или нескольких полей операндов. Код операции, как правило, имеет размер 1 байт, количество, формат и семантика полей операндом определяется для каждого типа команд данной аппаратной платформы. В общем случае операндом команды может быть:
u регистр;
u непосредственный операнд;
u адресное выражение.
Виды адресных выражений зависят от способов адресации вычислительной системы, некоторые (возможно, наиболее типовые) способы адресации:
u абсолютный адрес;
u [базовый регистр]+смещение (здесь и далее квадратные скобки означают «содержимое того, что взято в скобки»);
u [базовый регистр]+[индексный регистр]+смещение;
u имя+смещение;
u литерал.
Адресное выражение моет содержать арифметические операции, соображения, касающиеся арифметики в этом случае — те же, что и в адресной арифметике языка C.
Имена в адресных выражениях должны заменяться на значения. Замена абсолютных имен (определенных в директиве EQU) очень проста — значение имени из таблицы символов просто подставляется вместо имени. Перемещаемые имена (метки и имена переменных) превращаются Ассемблером в адресное выражение вида [базовый регистр]+смещение. В таблице символов значения этих имен определены как смещение соответствующих ячеек памяти относительно начала программы. При трансляции имен необходимо, чтобы:
u Ассемблер «знал», какой регистр он должен использовать в качестве базового;
u Ассемблер «знал», какое значение содержится в базовом регистре;
u в базовом регистре действительно содержалось это значение.
Первые два требования обеспечиваются директивами, третье — машинными командами. Ответственность за то, чтобы при обеспечении этих требований директивы согласовывались с командами, лежит на программисте. Эти требования по-разному реализуются в разных вычислительных системах. Приведем два примера.
В Intel Ассемблер использует в качестве базовых сегментные регистры (DS при трансляции имен переменных, CS при трансляции меток). Для простой программы, состоящей из одной секции,
Загрузчик перед
выполнением заносит во все сегментные
регистры сегментный адрес начала программы
и Ассемблер считает все
Сложная программа может состоять из нескольких секций, и в сегментном регистре может содержаться адрес той или иной секции, причем содержимое сегментного регистра может меняться в ходе выполнения программы. Загрузка в сегментный регистр адреса секции выполняется машинными командами:
MOV AX,секция
MOV сегментный_регистр,AX
Для того, чтобы
Ассемблер знал, что адрес секции
находится в сегментном_
ASSUME сегментный_регистр:секция
Далее при трансляции имен Ассемблер превращает имена в адресные выражения вида
[сегментный_регистр]+смещение в секции
Отмена использования сегментного регистра задается директивой:
ASSUME сегментный_регистр:NOTHING
Обратим внимание на то, что при трансляции команды
MOV AX,секция
в поле операнда заносится относительный адрес секции, при выполнении же здесь должен быть ее абсолютный адрес. Поэтому поля операндов такого типа должны быть модифицированы Загрузчиком после размещения программы в оперативной памяти.
Более гибкая система базовой адресации применяется в S/360, S/370, S/390. В качестве базового может быть использован любой регистр общего назначения. Директива:
USING относительный_адрес,регистр
сообщает Ассемблеру, что он может использовать регистр в качестве базового, и в регистре содержится адрес — 1-й операнд. Чаще всего относительный_адрес кодируется как * (обозначение текущего значения счетчика адреса), это означает, что в регистре содержится адрес первой команды, следующей за директивой USING. Занесение адреса в базовый регистр выполняется машинной командой BALR. Обычный контекст определения базового регистра:
BALR регистр,0
USING *,регистр
С такими операндами команда BALR заносит в регистр адрес следующей за собой команды.
Зная смещение именованной ячейки относительно начала программы и смещение относительно начала же программы содержимого базового регистра, Ассемблер легко может вычислить смещение именованной ячейки относительно содержимого базового регистра.
В отличие от предыдущего примера, в этом случае не требуется модификации при загрузке, так как команда BALR заносит в регистр абсолютный адрес.
Директива
DROP регистр
отменяет использование регистра в качестве базового.
В качестве базовых могут быть назначены несколько регистров, Ассемблер сам выбирает, какой из них использовать в каждом случае.
Выше мы говорили, что Ассемблер «знает» базовый регистр и его содержимое. Это «знание» хранится в таблице базовых регистров. Обычно таблица содержит строки для всех регистров, которые могут быть базовыми и признак, используется ли регистр в таком качестве. Формат строки таблицы:
Алгоритм выполнения 2-го прохода представлен на рисунке. Мы исходили из того, что 2-й проход использует промежуточный файл, сформированный 1-м проходом. Если же 2-й проход использует исходный модуль, то алгоритм должен быть расширен лексическим разбором оператора, распознаванием мнемоники и подсчетом адресов — так же, как и в 1-м проходе.
F Блок1: Начало 2-го прохода ассемблирования.
F Блок2: Начальные установки:
u создание пустой таблицы базовых регистров;
u открытие промежуточного файла исходного модуля;
u установка в FASLE признака окончания
F Блок3: Признак окончания TRUE?
F Блок4: Считывание следующей записи промежуточного файла.
F Блок5: Если запись промежуточного файла описывает комментарий, переход на печать строки листинга.
F Блок6: Выясняется, содержит оператор команду или директиву
F Блок7: Если оператор содержит команду, формируется байт кода операции (код выбирается из таблицы команд) в объектном коде.
F Блок8: Выделение следующего элемента из списка операндов с удалением его из списка и с проверкой, не обнаружен ли при выделении конец списка операндов?
F Блок9: Если конец не обнаружен, обрабатывается выделенный операнд. Проверяется, не превысило ли число операндов требуемого для данного типа команды (выбирается из таблицы команд)
F Блок10: Если число операндов превышает требуемое — формирование сообщения об ошибке
F Блок11: Если число операндов правильное, распознается и проверяется тип операнда.
F Блок12: Если тип операнда не распознан или недопустим для данной команды — формирование сообщения об ошибке.
F Блок13: Есть ли в команде имя?
F Блок14: Если в команде есть имя, оно ищется в таблице символов.
F Блок15: Если имя в таблице символов не найдено — формирование сообщения об ошибке.
F Блок16: Если найдено имя в таблице символов, оно переводится в «база-смещение»
F Блок17: Если имени в команде нет, выполняется разбор и интерпретация операнда с проверкой правильности его кодирования.
F Блок18: Если обнаружены ошибки в кодировании операнда — формирование сообщения об ошибке.
F Блок19: Формируется код поля операнда и заносится в объектный код команды и обрабатывается следующий элемент списка операндов.
F Блок20: Если обнаружен конец списка операндов, проверяется, не меньше ли число операндов требуемого для данного типа команды. Если число операндов соответствует требуемого, управление переходит на вывод объектного кода.
F Блок21: Если число операндов меньше требуемого — формирование сообщения об ошибке
F Блок22: Если обрабатываемый оператор является директивой, алгоритм разветвляется, в зависимости от того, какая это директива. При обработке любой директивы производится разбор и анализ ее операндов и (не показано на схеме алгоритма) возможно формирование сообщения об ошибке.
F Блок23: Обработка директивы типа DD включает в себя:
u выделение элементов списка операндов;
u для каждого элемента — распознавание типа и значения константы;
u генерация объектного кода константы;
u обработка возможных коэффициентов повторения.
F Блок24: Обработка директивы типа BSS может вестись точно так же, как и DD за исключением того, что вместо кода константы генерируются некоторые «пустые» коды. Однако, эти коды не нужны в объектном модуле, они могут не генерироваться, в этом случае должны предприниматься некоторые действия, формирующие «разрыв» в объектных кодах.
F Блок25: Обработка директивы типа USING (ASSUME) включает в себя занесение в соответствующую строку таблицы базовых регистров значения операнда-адреса и установку для данного регистра признака использования.
F Блок26: Обработка директивы типа USING (ASSUME) включает в себя занесение в соответствующую строку таблицы базовых регистров значения операнда-адреса и установку для данного регистра признака использования.
F Блок27: Обработка директивы END устанавливает признак окончания в TRUE. При обработке этой директивы в объектный модуль также может заносится стартовый адрес программы — параметр директивы.
F Блок28: Обработка прочих директив ведется по своим алгоритмам.
F Блок29: После окончания обработки команды или директивы сформированный объектный код выводится в файл объектного модуля.
F Блок30: Печать строки листинга. На эту точку также управление передается при выявлении ошибок. При наличии ошибки сообщение об ошибке печатается после строки листинга. Управление затем передается на считывание следующей записи промежуточного файла.
F Блок31: После того, как установлен признак окончания работы формируются и выводятся в объектный модуль коды литерального пула, таблицы связываний и перемещений.
F Блок32: Закрываются файлы, освобождается выделенная память.
F Блок33: Работа Ассемблера завершается.
При рассмотрении алгоритма мы принимали во внимание только генерацию объектных кодов, соответствующих командам и константам. Мы не рассматривали то, какова общая структура объектного модуля.
4
Некоторые дополнительные директивы
OGR
Установка адреса
Операндом директивы
является числовая константа или
выражение, вычисляемое при
В абсолютных программах
директива применяется для
START/
SECT
Начало модуля или программной секции. Операндом директивы является имя секции. Этой директивой устанавливается в 0 счетчик адресов программы. Программа может состоять из нескольких программных секций, в каждой секции счет адресов ведется от 0. При обработке этой директивы на 1-м проходе Ассемблер создает таблицу программных секций.
На 1-м проходе Ассемблер составляет список секций, и только в конце 1-го прохода определяет их длины и относительные адреса в программе. На 2-м проходе Ассемблер использует таблицу секций при трансляции адресов.
4
Директивы связывания
ENT
Входная точка
Операндом этой директивы является список имен входных точек программного модуля — тех точек, на которые может передаваться управление извне модуля или тех данных, к которым могут быть обращения извне.
EXT
Внешняя точка
Операндом этой директивы является список имен, к которым есть обращение в модуле, но сами эти имена определены в других модулях.
Эти директивы обрабатываются на 2-м проходе, и на их основе строятся таблицы связываний и перемещений.
4
Одно- и многопроходный Ассемблер
Мы показали, что в двухпроходном Ассемблере на 1-м проходе осуществляется определение имен, а на втором — генерация кода.
Можно ли построить однопроходный Ассемблер? Трудность состоит в том, что в программе имя может появиться в поле операнда команды прежде, чем это имя появится в поле метки/имени, и Ассемблер не может преобразовать это имя в адресное выражение, та как еще на знает его значение. Как решить эту проблему?
Запретить ссылки вперед. Имя должно появляться в поле операнда только после того, как оно было определено как метка при команде или данных или через директиву EQU. В этом случае построить Ассемблер легко, но накладываются ограничения, стесняющие действия программиста.
Если объектный модуль сохраняется в объектной памяти, то Ассемблер может отложить формирование кода для операнда — неопределенного имени и вернуться к нему, когда имя будет определено. При появлении в поле операнда команды неопределенного имени поле операнда не формируется (заполняется нулями). Таблица символов расширяется полями: признаком определенного/неопределенного имени, и указателем на список адресов в объектном модуле, по которым требуется модификация поля операнда.
При появлении имени в поле операнда Ассемблер ищет имя в таблице символов. Если имя найдено и помечено как определенное, Ассемблер транслирует его в адресное выражение, как и при 2-проходном режиме. Если имя не найдено, Ассемблер заносит имя в таблицу символов, помечает его неопределенным и создает первый элемент связанного с именем списка, в который заносит адрес в объектном модуле операнда данной команды. Если имя найдено, но помечено как определенное, Ассемблер добавляет в список, связанный с данным именем, адрес в объектном модуле операнда данной команды.