Автор: Пользователь скрыл имя, 27 Октября 2013 в 23:14, курс лекций
Алгоритм - это точное предписание, определяющее вычислительный процесс, ведущий от варьируемых начальных данных к искомому результату.
ЭВМ в настоящее время приходится не только считывать и выполнять определенные алгоритмы, но и хранить значительные объемы информации, к которой нужно быстро обращаться. Эта информация в некотором смысле представляет собой абстракцию того или иного фрагмента реального мира и состоит из определенного множества данных, относящихся к какой-либо проблеме.
адреслевого = 2*j адресправого = 2*j+1
Главным недостатком статического способа представления двоичного дерева является то, что массив имеет фиксированную длину. Размер массива выбирается исходя из максимально возможного количества уровней двоичного дерева, и чем менее полным является дерево, тем менее рационально используется память. Кроме того, недостатком являются большие накладные расходы при изменении структуры дерева (например, при обмене местами двух поддеревьев).
1.3.4.5. Основные операции
Реализация операций будет рассматриваться для двоичных деревьев, представленных как динамическая структура.
В качестве основных операций с двоичными деревьями рассмотрим операцию прямого обхода двоичного дерева в рекурсивной и нерекурсивной форме. Реализация обратного и симметричного обходов аналогична. Операции добавления, поиска и удаления вершин дерева зависят от принятого порядка вершин, поэтому будут представлены в 2.3.4.1, посвященном упорядоченным деревьям.
procedure PreOrder BinTree(Node: PTree);
{Рекурсивный обход двоичного дерева в прямом порядке} begin
writeln(NodeA.Data);
if NodeA.Left <> nil then PreOrder_BinTree(NodeA.Left); if NodeA.Right <> nil then PreOrder_BinTree(NodeA.Right); end;
В процедуре, реализующей нерекурсивный обход двоичного дерева, используется стек, хранящий путь от корня дерева до предка текущей вершины. Описание этого стека и операции с ним аналогичны тем, что приведены в 1.2.9 с одним уточнением - элементы стека хранят указатели на вершины дерева.
Процедура работает в двух режимах. В первом режиме осуществляется обход по направлению к левым потомкам до тех пор, пока не встретится лист, при этом выполняется печать значений вершин, и занесение указателей на них в стек. Во втором режиме осуществляется возврат по пройденному пути с поочередным извлечением указателей из стека до тех пор, пока не встретится вершина, имеющая еще не напечатанного правого потомка. Тогда процедура переходит в первый режим и исследует новый путь, начиная с этого потомка:
procedure NR PreOrder BinTree(Tree: PTree);
{Нерекурсивный обход двоичного дерева в прямом порядке} var
Node: Ptree; {Указатель на текущую вершину}
S: ATypeElement; {Стек указателей вершин}
begin
{Инициализация} ClearStack(S); Node := Tree; while true do
if Node <> nil then begin writeln(NodeA.Data); PushStack(Node, S);
{Исследование левого потомка вершины Node} Node := NodeA.Left; end else begin
{Завершено исследование пути, содержащегося в стеке} if EmptyStack(S) then return; {Исследование правого потомка вершины Node}
PopStack(Node, S);
Node := NodeA.Right; end;
end;
1.4. Файлы
Файл - это поименованная область во внешней памяти.
Ранее, при обсуждении структур данных, предполагалось, что объем данных позволяет обходиться исключительно основной (оперативной) памятью. Существуют задачи, в которых объем используемых данных намного превышает возможности основной памяти. В большинстве вычислительных систем предусмотрены устройства внешней памяти (диски, ленты), на которых можно хранить огромные объемы данных.
Во многих языках программирования предусмотрен файловый тип данных, предназначенный для представления данных, хранящихся во внешней памяти. Даже если в языке программирования файловый тип не определен, в операционной системе понятие файла, несомненно, поддерживается.
Операционная система делит внешнюю память на блоки одинакового размера. Размер блока зависит от конкретного типа операционной системы. Файлы хранятся в виде определенной последовательности блоков; каждый такой блок содержит целое число записей файла.
Базовыми операциями, выполняемыми по отношению к файлам, является перенос одного блока из внешней памяти в буфер и перенос одного блока из буфера во внешнюю память. Буфер находится в основной памяти, и его размер соответствует размеру блока.
При осуществлении чтения из файла указатель считывания указывает на одну из записей в блоке, который в данный момент находится в буфере. Когда этот указатель должен переместиться на запись, отсутствующую в буфере, происходит чтение очередного блока из внешней памяти в буфер.
Аналогично, при осуществлении записи в файл фактически происходит внесение записей в буфер файла непосредственно за записями, которые уже находятся там. Если очередная запись не помещается в буфере, содержимое буфера переносится в свободный блок внешней памяти, который присоединяется к концу списка блоков данного файла. После этого буфер становится свободным для помещения в него очередной порции записей.
Рассматривая операции с файлами, в первом приближении можно считать, что файлы - это просто совокупности записей, над которыми можно выполнять операции, которые уже обсуждались выше. Однако имеются две важные особенности.
Природа устройств внешней памяти такова, что время, необходимое для поиска блока и чтения его в основную память, достаточно велико в сравнении со временем, которое требуется для относительно быстрой обработки данных, содержащихся в этом блоке. Процесс записи блока из буфера в определенное место внешней памяти занимает примерно столько же времени.
Оценивая эффективность структур данных и работы алгоритмов, в которых используются данные, хранящиеся в виде файлов, приходится в первую очередь учитывать количество обращений к блокам, т. е. сколько раз производится считывание в основную память или запись блока во внешнюю память. Предполагается, что размер блока фиксирован в операционной системе, поэтому нет возможности ускорить работу алгоритма, увеличив размер блока и сократив тем самым количество обращений к блокам.
Еще одной особенностью хранения данных во внешней памяти является наличие так называемых закрепленных записей. Иногда, например, в базах данных, используют указатели на записи, представляющие собой пару «физический адрес блока - смещение записи в блоке». Следствием применения подобных указателей является то, что записи, на которые имеются эти указатели, нельзя перемещать, поскольку не исключено, что какой-то неизвестный указатель после перемещений записи будет содержать неправильный адрес записи.
1.4.1. Организация
Существуют несколько способов организации данных в виде файлов:
Рассмотрим кратко первые три способа использования (B-деревья рассмотрим более подробно далее).
При простой (и наименее эффективной) организации данных в виде последовательных файлов используются такие примитивы чтения и записи файлов, которые встречаются во многих языках программирования (например, read() и write() в языке Паскаль). В этом случае записи могут храниться в любом порядке.
Поиск записи осуществляется путем полного просмотра файла. Вставку в файл можно выполнять путем присоединения соответствующей записи в конец файла. В случае изменения записи необходимо осуществить поиск требуемой записи, а затем внести в нее изменения.
При удалении записи тоже необходимо найти удаляемую запись, а затем определенным вариантом удалить. Один из вариантов - сдвинуть все записи, следовавшие за удаленной записью, на одну позицию вперед (осуществляя при сдвиге перенос записей между блоками). Однако такой подход не годится, если записи являются закрепленными, поскольку указатель на i-ю запись в файле после выполнения такой операции будет указывать на (г+1)-ю запись. В этом случае необходимо определенным образом помечать уделенные записи, но не смещать оставшиеся на место удаленных (и не должны вставлять на их место новые записи). Существуют два способа помечать удаленные записи:
Очевидным недостатком последовательного файла является то, что операции с такими файлами выполняются медленно. Выполнение каждой операции требует, чтобы осуществлялось чтение всего файла. Однако существуют способы организации файлов, позволяющие обращаться к записи, считывая в основную память лишь небольшую часть файла. Такие способы предусматривают наличие у каждой записи файла так называемого ключа, т. е. поля (или совокупности полей), которое уникальным образом идентифицирует каждую запись. К сожалению, при отсутствии ключей, ускорения операций добиться не удается.
Хеширование - широко распространенный метод обеспечения быстрого доступа к информации, хранящейся во внешней памяти. Основная идея этого метода подобна методу цепочек, который рассматривается в 2.3.2. Только здесь, вместо записей таблицы организуется связный список блоков. Заголовок i-го блока содержит указатель на физический адрес (i+1)-ro блока. Записи, хранящиеся в одном блоке, связывать друг с другом с помощью указателей не требуется. Сама таблица представляет собой таблицу указателей на блоки.
Такая структура оказывается вполне эффективной, если в выполняемой операции указывается значение ключа. В этом случае среднее количество обращений к блокам равно n/bk, где n - количество записей; b - количество записей в блоке; k - длина таблицы. Это в среднем в k раз меньше, чем в случае последовательного файла.
Чтобы вставить запись с ключом (запись с таким ключом отсутствует, так как значение ключа уникально), вычисляется хеш-функция по ключу, т. е. определяется строка таблицы указателей и просматривается соответствующая цепочка блоков. Для каждого блока осуществляется попытка вставки новой записи (при наличии свободного места в блоке). Если не удалось вставить ни в один блок цепочки, то у файловой системы запрашивается новый блок, который добавляется в конец цепочки и в него вставляется новая запись.
Чтобы удалить запись, также вычисляется строка таблицы указателей и находится запись в соответствующей цепочке блоков, а затем запись помечается как удаленная. Способы пометки записи здесь те же, что и в последовательных файлах. Если записи не являются закрепленными, то можно заменять удаляемую запись на последнюю запись в последнем блоке текущей цепочки. Если в результате такой замены последний блок стал пустым, то его можно вернуть файловой системе для повторного использования.
Еще одним распространенным способом эффективной организации файла записей, называемым индексированным файлом, является поддержание файла в отсортированном (по значению ключа) порядке. Чтобы облегчить процедуру поиска, можно создать второй файл, называемый разреженным индексом, который состоит из пар (x, b), где x - значение ключа, а b - физический адрес блока, в котором значение ключа первой записи равняется x. Этот индексный файл отсортирован по значению ключей.
Рис. 18. Разреженный индекс
Чтобы отыскать запись с заданным ключом x, необходимо сначала просмотреть индексный файл, отыскивая в нем пару (x, b), а затем находят запись в блоке с физическим адресом b. Разработано несколько стратегий просмотра индексного файла. Простейшей из них является линейный поиск, более эффективным является двоичный поиск. Эти методы рассматриваются в 2.3.1. Для поиска записи необходимо считать один блок основного файла, и в зависимости от стратегии просмотра индексного файла просмотреть от n (при линейном поиске) до l0g2(n + 1) (при двоичном поиске) блоков индексного файла, где n -общее количество блоков индексного файла.
Чтобы создать индексированный файл, записи сортируются по значениям их ключей, а затем распределяются по блокам в возрастающем порядке ключей. В каждый блок можно разместить столько записей, сколько в него помещается, но можно оставить место под записи, которые могут вставляться туда впоследствии (это уменьшает вероятность переполнения и, следовательно, обращение к смежным блокам). После распределения записей по блокам создается индексный файл. В нем также можно оставить место для новых индексов.
Чтобы вставить новую запись, с помощью индексного файла находят соответствующий блок основного файла. Если новая запись умещается в найденный блок, то она вставляется в него в правильной последовательности. Если новая запись становится первой записью в блоке, то необходима корректировка индексного файла.
Если новая запись не умещается в найденный блок, то возможно применение нескольких стратегий. Простейшая из них заключается в том, чтобы перейти на следующий блок и узнать, можно ли последнюю запись найденного блока переместить в начало следующего. Если можно, то осуществляем перенос (освобождая место в найденном блоке), вставляем новую запись на подходящее место в найденный блок, корректируем индексный файл. Если следующий блок заполнен полностью или найденный блок является последним, то у файловой системы запрашиваем новый блок, помещаем его за найденным блоком, в новый блок вставляем новую запись и корректируем индексный файл.
Еще одним способом организации файла с использованием индексов является сохранение произвольного порядка записей в файле и создание другого файла, с помощью которого можно отыскивать требуемые записи. Этот файл называется плотным индексом. Плотный индекс состоит из пар (x, p), где p - указатель на запись с ключом x в основном файле. Эти пары отсортированы по значениям ключа. Поиск записи осуществляется подобно поиску с использованием разреженного индекса (рис. 18).
Если требуется вставить новую запись, отыскивают последний блок основного файла и туда вставляют новую запись. Если последний блок полностью заполнен, то запрашивают новый блок у файловой системы. Одновременно вставляют указатель на соответствующую запись в файле плотного индекса. Чтобы удалить запись, в ней просто устанавливают бит удаления и удаляют соответствующий указатель в плотном индексе.
1.4.2. B-деревья
1.4.2.1. Представление файлов B-деревьями
Как мы уже видели, очень эффективным является хранение множества данных в виде дерева. Поэтому в качестве типового способа организации внешней памяти стало B-дерево, которое обеспечивает при своем обслуживании относительно небольшое количество обращений к внешней памяти (рис. 19).
B-дерево представляет собой дерево поиска степени m, характеризующееся следующими свойствами:
В каждой вершине будем хранить не более NumberOfItems записей. Также необходимо будет хранить текущее количество записей в вершине. Для удобства возврата назад к корню дерева будем запоминать для каждой вершины указатель на ее предка.