Методы генерации текстов

Автор: Пользователь скрыл имя, 26 Февраля 2012 в 00:09, реферат

Описание работы

Корпусная лингвистика – одна из наиболее востребованных отраслей прикладного языкознания. Бурное развитие корпусной лингвистики обусловлено необходимостью создания ресурсов, обеспечивающих доступ к языковому материалу, качественно обработанному и репрезентативному.

Работа содержит 1 файл

Методы генерации текстов.docx

— 72.07 Кб (Скачать)

В последнее время также появляются автоматизированные системы "доперевода" или "перевода изменений". Их возникновение  связано с тем, что большинство  технических текстов (описания, инструкции) не являются целиком новыми (как  и явления, продукты, механизмы и  т.п., ими описываемые), а содержат в себе лишь некоторые изменения, связанные, например, с усовершенствованием  конструкции. Система "доперевода" извлекает из памяти знакомые предложения, а новые куски предлагает переводчику. Заметим, что такой человеко-машинный способ генерации новых текстов  также помогает согласованности  в стиле и терминологии при  переходе от одной версии к другой.

Развитием систем подобного вида можно  считать канадскую (Канада - двуязычная страна, постоянно сталкивающаяся с  проблемой перевода на государственном  уровне) систему генерации прогнозов  погоды Forecast Generator (FOG). Можно считать, что в ней перевод полностью  заменен генерацией текстов. В памяти системы хранится 20 миллионов слов и словосочетаний, связанных с  прогнозами погоды, что позволяет  генерировать как английский, так  и французский вариант непосредственно  из базы данных. Конечно, успешная работа этой системы в значительной мере объясняется ограниченной природой текстов: сообщения о погоде являются классическим примером подъязыка. Ограниченность словаря, грамматики и семантики  дает возможность достичь отличных результатов сравнительно простыми методами.

Генерация текста.

С необходимостью генерации  хотя бы простейших фраз разработчики практических систем столкнулись еще  на заре их создания. Генератор текста — компьютерная программа, способная генерировать последовательности символов, внешне похожие на текст, но при этом, как правило, лишённые смысла (в связи с чем генераторы текста иногда называют «генераторами бреда», «генераторами шизофазии»). Тексты, созданные с помощью генераторов, являются правильными с точки зрения большинства языковых норм. Даже в столь примитивно организованной (в плане дружественности пользовательского интерфейса) среде, как DOS, при попытке сгенерировать стандартное сообщение о количестве скопированных файлов мы сталкиваемся с проблемой построения фразы: в зависимости от этого количества необходимо использовать разные слова (в английской версии file в случае одного файла и files, если больше; в русской - и того хуже: могут встретиться варианты файл, файла и файлов, причем правила, в каком случае какой из них использовать, достаточно сложны).

По степени сложности  и выразительности существующие методы генерации сообщений принято  подразделять на 4 класса (часто используются комбинации методов). Рассмотрим их на примере генерации сообщений  о копировании файлов.

1) Canned-based methods

Неизменяющийся шаблон - просто печать строки символов без  каких-либо изменений.

Для генерации сообщений  создаются таблицы шаблонов, которые  будут выдаваться в зависимости  от ситуации. В нашем варианте при  копировании одного файла будет  напечатана первая строка таблицы:

1 file copied,

а в случае, например, трех - третья:

3 files copied

2) Template-based methods

Изменяющийся шаблон - бесконтекстная вставка слов в образец-строку (именно этот метод используется в MS-DOS):

Шаблон: ‹Число› file(s) copied

может быть использован для  генерации сообщений:

0 file(s) copied,

1 file(s) copied,

2 file(s) copied

3) Phrase-based methods

Контекстная вставка.

В зависимости от вида сообщения (контекста) шаблон может быть несколько  изменен. Скажем, система может распознавать, с каким окончанием писать слово file в зависимости от их количества.

Шаблон: ‹Числ‹Определение›  ‹file/files при =1, ›1›

‹Глагол: время - прош.›

может использоваться для  генерации сообщений:

1 file copied,

2 marked files copied,

2 marked files deleted

4) Feature-based methods

Синтез сообщения на основе набора свойств (грамматических признаков).

Это наиболее сложный метод, он требует привлечения обширных лингвистических знаний, но, в то же время, он и наиболее привлекателен. Предложение определяется набором  характеристик составляющих его  слов (например, наличие/отсутствие отрицания, настоящее/прошедшее время) и правилами  их сочетаемости.

Шаблон: ‹Числ‹Определение›  ‹file/files при =1, ›1›

‹Глагол: время - любое›

позволяет генерировать сообщения:

1 file should be copied,

1 file was copied,

2 marked files were copied

Понятно, что генерация  логически связных, целостных текстов  является гораздо более сложной  задачей: к правилам построения предложений  добавляются правила их сочетаемости, правила развития сюжета, соблюдения стиля и т.п. Ввиду невозможности  их полной формализации задачу генерации  полноценных художественных текстов  можно считать на настоящий момент неразрешимой. Однако для некоторых  специализированных технических текстов  эти правила строго оговорены  некоторыми стандартами, немногочисленны  и поэтому поддаются формализации. Примером таких текстов могут  служить различные инструкции, техническая  документация, тем более задача ее автоматической генерации давно  назрела.

На данном уровне развития компьютерных технологий генераторы текста имеют небольшое практическое применение и используются в основном для  развлечения и в экспериментальных  целях.

Кроме того генераторы текстов  достаточно широко используются при  поисковой оптимизации web-сайтов, для  генерации названий, описаний, а  иногда и содержимого целых сайтов. Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного  отбора по критерию уникальности. Производится данный отбор при помощи специализированного  программного обеспечения, имеющего различный  алгоритм проверки.

Также генераторы текстов  успешно используются для выявления  низкого качества (а иногда и полного  отсутствия) рецензирования в научных  журналах. Особенно известна в этом плане программа SCIgen.

На Западе уже давно  разработка документации превратилась в особую подотрасль разработки любых  достаточно сложных систем (в том  числе программного обеспечения). Сопроводительная техническая документация весьма разнообразна: руководство пользователя, руководство  для менеджера (администратора) системы, руководство по монтажу (инсталляции) и первичному запуску, руководство  по эксплуатации, руководство по интегрированию системы с другими устройствами (программами), проектные материалы  и т.д. Однако часто пользователь не получает своевременно и в полном объеме необходимый ему материал, соответствующий используемой им версии системы. Это можно объяснить  двумя причинами. Во-первых (субъективная причина), подготовка документации - это  дополнительная работа, требующая дополнительного  времени и дополнительных навыков (разработчику трудно изложить требуемое  на понятном рядовому пользователю языке, остальным же надо сначала детально изучить систему). Во-вторых (объективная  причина), документация устаревает по ходу модернизации системы.

Поиски решения этих проблем  привели в свое время к появлению  новой профессии "технического писателя". Однако понятно, что привлечение  дополнительных работников ведет к  удорожанию продукта. Поэтому в последние  годы появились практические системы, осуществляющие помощь в разработке документации, вплоть до ее автоматической генерации. Форма и содержание документации часто выбирается не столько из соображений  удобства и полезности для пользователя, сколько из соображений простоты ее создания.

Документация, как правило, содержит графическую и текстовую  части. Графическую часть проще  сформировать, однако без текстовой  не обойтись: в ней описывается  семантика продукта (назначение, технические  данные, ограничения, детализация работы в разных режимах). Очевидно, что  качественная система должна генерировать текст, правильный с точки зрения грамматики и синтаксиса естественного  языка. Поскольку предметная область  точно определена, а техническая  документация составляется по определенным строго заданным правилам, степень  формализации в постановке данной задачи существенно выше, чем в задаче машинного перевода, что позволяет надеяться на более высокие результаты.

Автоматическая Генерация  на Естественном Языке очень слабо  представлена в отечественной науке  последних лет. В настоящее время письменный ЕЯ текст широко распространен как средство коммуникации пользователя с компьютерными системами. Большая часть программных приложений, которые выдают тексты на ЕЯ, работает с ЕЯ информацией как со строкой символов. Они манипулируют готовыми предложениями и словосочетаниями как строительными блоками будущего текста. Это - шаблонные технологии. Шаблонные технологии относительно просты и надежны и находят широкое промышленное применение. Главная особенность этих технологий состоит в том, что содержание будущего текста представлено в них в виде фрагментов текста.

Другой вид систем работает с содержанием будущего текста, представленном в виде данных нетекстовой природы (БД, баз знаний, семантических и  формальных языков). В этом случае для создания текста  системе необходимы знания структуры содержания и знания об устройстве генерируемого  текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами.

Это - Лингвистически Мотивированные (ЛМ) технологии. В настоящее время  они еще находятся в стадии исследования. ЛМ технологии связаны  с изучением жанровых и коммуникативных  характеристик текстов, риторических приемов организации содержания текста, языковых средств выражения  связности текста (лингвистика текста), формализацией грамматики и лексических  описаний.

Мотивации выборов языковых средств выражения знаний в ЛМ технологиях подобны мотивациям движений летящей птицы. Они не могут  быть буквально повторены автоматической системой. Поэтому, хотя ЛМ технологии опираются на определенные соответствия неязыковых знаний и языковых средств, они также активно используют и шаблонные технологии для решения  конкретных проблем.

Генерация на естественном языке (ГЕЯ) как научное направление  занимается созданием компьютерных систем, производящих тексты на естественном языке (ЕЯ) из некоторого нелингвистического (нетекстового) представления информации. Первые системы в доступном в  Интернете каталоге систем ГЕЯ (The John Bateman and Michael Zock's list of Natural Language Generation Systems), содержащем краткую  информацию о всех известных авторам каталога системах ГЕЯ относятся к 63-65 гг. Всего каталог содержит данные по более чем 340 системам автоматической генерации текстов с начала исследований по настоящее время.

ГЕЯ активно развивается  за рубежом начиная с 90ых годов, прежде всего в США, Канаде и странах  Западной Европы - в Великобритании, Германии, Голландии и др., а также  в Австралии. В настоящее время ГЕЯ представляет собой динамичное направление АОТ. В Ассоциации по компьютерной лингвистике ACL создана группа по интересам, объединяющая ученых и коллективы, работающие в области ГЕЯ –Special Interest Group on GENeration (SIGGEN). Раз в два года под эгидой SIGGEN проводятся научные конференции INLG, посвященные ГЕЯ.

ЛМ  системы предназначены для создания текстов, имеющих относительно свободное содержание, которое не может быть заранее задано в виде готовых фрагментов текста. Источником содержания являются данные, представленные в виде БД, БЗ, или в виде выражений на формализованных языках, например, SQL. Тип входных данных не всегда предсказывает тип выходного текста, поэтому  тип текста определяется из-вне. Часто ЛМ система создает тексты одного типа, но в разных ПО,  или в одной ПО, но на разных языках.

Несмотря на сложность  ЛМ систем, они имеют важные преимущества по сравнению с использованием ручного  труда и шаблонными системами. Эти  преимущества обсуждались в ряде работ, например, в (Reiter, 1995). К ним  относятся: сопровождаемость, лучшее качество создаваемых текстов, многоязыковой выход и гарантированное соответствие стандартам.

Шаблонная система использует готовые реплики или комбинирует  готовые фрагменты текста таким  образом, что они занимают заданные позиции в дискурсе или стереотипном тексте. Самые простые шаблонные  системы просто вставляют фрагменты  текста в шаблоны без их дополнительной обработки, например, реплика системы: «Не могу найти my1.txt, my2.txt файл(ы)!»..

Более сложные шаблонные  системы дополнительно проводят ограниченную лингвистическую и  риторическую обработку результата - позволяют задавать отдельные грамматические параметры текста или комбинировать  шаблонные высказывания в связный  текст, используя определенные лексические  и грамматические знания о ЕЯ. К  последнему типу относятся, в частности, системы, помогающие менеджерам писать деловые характеристики на сотрудников. Например, система Employee Appraiser (производитель Austin-Haynes), Performance Now (производитель KnowledgePoint). Такие системы предоставляют пользователю набор оценочных тем, таких как Общение, которые, в свою очередь, разбиваются на более специфичные подтемы, например, Устный обмен идеями. Выбирая свойство, подходящее для характеристики данного работника, менеджер автоматически выбирает и конкретный готовый абзац или предложение, которое система сама вставляет в результирующий текст. При этом система может использовать сведения о поле сотрудника (для грамматического согласования прилагательных и глаголов с именами), указать, в каком лице должен быть составлен текст деловой характеристики (лицо глаголов), осуществлять простейшее планирование текста и предложений. Например, объединить всю информацию об отдельной высокоуровневой теме (такой, как Общение) в отдельный абзац, используя сочинительные конструкции и местоимения (агрегация предложений), а также вставку слов-коннекторов в начале предложения. В следующем примере на рис.1 подчеркнуты слова, вставленные системой для создания связности текста:

Информация о работе Методы генерации текстов