Автор: Пользователь скрыл имя, 26 Января 2013 в 12:59, реферат
Під терміном "комп'ютерна лінгвістика" (computational linguistics) зазвичай розуміється широка область використання комп'ютерних інструментів - програм, комп'ютерних технологій організації та обробки даних - для моделювання функціонування мови в тих чи інших умовах, ситуаціях, проблемних областях, а також сфера застосування комп'ютерних моделей мови не тільки в лінгвістиці, а й у суміжних з нею дисциплінах. Власне, т
1. Комп'ютерна лінгвістика як прикладна лінгвістична дисципліна
2. Когнітивний інструментарій комп'ютерної лінгвістики
3. Деякі напрямки комп'ютерної лінгвістики
4. Гіпертекстові технології подання тексту
Вивчення вже нагромадилося досвіду експлуатації комп'ютерних систем, які вимагали забезпечення взаємодії з ЕОМ природною мовою, дозволило дослідникам по-новому поглянути на функції і структуру природної комунікації. У центр уваги потрапили питання, які раніше були на периферії теорії діалогу, дискурс-аналізу та теорії комунікації. Що забезпечує природність спілкування? Які умови зв'язності бесіди? Коли спілкування виявляється успішним? У яких випадках виникають комунікативні невдачі і чи можна їх уникнути? Які стратегії спілкування використовують учасники комунікативної взаємодії при досягненні своїх комунікативних цілей? Це далеко не вичерпний список теоретичних проблем, котрі виникли у зв'язку з функціонуванням комп'ютерних моделей спілкування.
Однією з найбільш цікавих комп'ютерних моделей діалогу, що викликала жваві теоретичні дискусії, була програма Джозефа Вейценбаум "Еліза", перший варіант якої з'явився в 1966 р. Спочатку "Еліза" створювалася як іграшка, як навчальний зразок програми-імітатора, метою якої є не моделювання мислення в точному сенсі, а моделювання мовної поведінки. Програма підтримувала розмову зі співрозмовником у реальному масштабі часу, однак при її розробці були використані обмежені програмістські ресурси, лінгвістичний аналіз і синтез також були зведені до мінімуму. Проте програма функціонувала настільки успішно, що фактично спростувала відомий тест Тьюринга на створення штучного інтелекту. Як відомо, Тьюринг замість софістіцірованного обговорення філософського питання про те, чи може машина мислити, запропонував ігрову завдання наступного типу. Нехай є три учасники: чоловік Л, жінка В і запитувач С. запитують не знає, хто чоловік, а хто - жінка. Ставлячи питання учасникам гри, С повинен спробувати визначити, хто є чоловіком, а хто - жінкою, при цьому учасник намагається містифікувати запитувача, видаючи йому не помилкову, але спотворену інформацію, а учасник В - навпаки, прагне допомогти С. Зрозуміло, що спілкування відбувається не безпосередньо, а через телетайп або за допомогою записок, віддрукованих на друкарській машинці. Що станеться, якщо в якості А виступатиме система ШІ? Чи буде запитувач помилятися так само часто? [Turing 1950, р.434]. Простіший варіант цього тесту зводиться до того, що кілька учасників розмовляють з деяким іншим учасником X. Проблема побудови штучного інтелекту вирішена, якщо більшість учасників не зможе встановити, з ким вони розмовляють - з людиною або машиною.
Програма "Еліза" була використана групою дослідників на чолі з М. Макгайром для вивчення структури діалогу та особливостей природномовної комунікації [McGuire 1971]. У проводився експерименті з "Елізою" розмовляли протягом години 24 випробовуваних. Спілкування відбувалося за допомогою телетайпу. За час бесіди кожен учасник ввів від 10 до 65 реплік і отримав на них відповіді. Після закінчення 15 учасників (62%) були впевнені, що їм відповів чоловік, 5 піддослідних (21%) виявили певні коливання і лише четверо учасників (17%) були абсолютно впевнені, що спілкувалися з ЕОМ. З лінгвістичної точки зору алгоритми програми "Еліза" включають мінімум лінгвістичної інформації. По-перше, це комплекс ключових слів, які актуалізації деякі стійкі комунікативні формули (шаблони), по-друге, здатність відносно нескладно трансформувати попереднє висловлювання.
Цікаво, що істотна тематична обмеженість комунікації і значна кількість помилок і неточностей у відповіді (близько 19% неточних або випадають з контексту реплік "Елізи" у згадуваному експерименті М. Макгайра), не завадили випробуваним визнати партнера по комунікації людиною. Справа тут зовсім не в патологічної дурості піддослідних. Це прояв найважливішою особливості комунікації на природній мові: природномовної дискурс дуже терпимо по відношенню до збоїв і помилок - він надмірний і помехоустойчів. Репліки "Елізи", випадали з нормального спілкування, випробовувані легко пояснювали звичайними збоями в розумінні своєї попередньої репліки, не цілком нормальними умовами спілкування, жартівливим настроєм партнера. Стійкість природного дискурсу пояснюється також здібностями людини до інтерпретації мовних дій: людина, що приймає роль учасника діалогу, веде себе відповідним чином. Маючи установку на спілкування, він повинен намагатися включити в комунікацію все те, що за формою нагадує мовленнєвий акт, репліку. Іншими словами, він схильний наділяти сенсом те, що часто сенсу не має. У цьому випадку випробовувані самі породжують сенс діалогу, самі забезпечують його зв'язність, самі приписують партнеру комунікативні інтенції.
Другий важливий висновок експерименту: випробувані досить швидко ухвалювали рішення про те, хто перед ними - комп'ютер або человек.22 учасника з 24 усвідомили для себе ситуацію не більше, ніж за п'ять обмінів репліками, і далі не змінювали свого рішення. Визначення ролей у комунікації відноситься до метарівні спілкування, оскільки це становить одну з передумов успішної комунікації, що оберігає спілкування від численних комунікативних невдач.
Зрозуміло, що визначення ролей учасників багато в чому визначає вибір стратегії комунікативної поведінки. Дійсно, краще відразу визначити, з ким ми розмовляємо по телефону - з давнім другом або чиновником податкової інспекції. З'ясування того, ким є співрозмовник - машиною або людиною, також відноситься до метарівні спілкування, і випробувані намагалися встановити рольові характеристики партнера як можна раніше.
Це властивість природномовної комунікації можна назвати принципом пріоритету метакоммунікатівних параметрів ситуації спілкування.
Третє важливе слідство з експерименту М. Макгайра пов'язано з існуванням різних типів комунікативної взаємодії між людьми. Успішне взаємодія між людиною і програмою типу "Еліза" можливо тільки в ситуації, коли відбувається так зване "асоціативне спілкування", при якому репліки діалогу пов'язані не стільки логічними відносинами типу "причина-наслідок", "посилка-висновок", а асоціаціями. Асоціативне спілкування не має конкретної спрямованості; саме підтримання розмови може служити її виправданням. Співрозмовники не переслідують мети вирішити якусь проблему або виробити єдину точку зору на якесь питання. У класифікації Р. Якобсона для комунікації такого типу запропонований термін "фатіческое спілкування" [Якобсон 1975]. Зауважимо, що бесіда лікаря-психіатра з пацієнтом по формі також має вигляд фатической спілкування, хоча і переслідує цілком певну мету збору даних про захворювання пацієнта і наступному вербальному і невербальному впливі на його психіку для досягнення лікувального ефекту. "Еліза" не змогла б успішно імітувати спілкування в комунікативній ситуації, названої М. Макгайром "рішення завдань", оскільки вона не здатна зрозуміти проблемну ситуацію, тобто побудувати модель світу дискурсу, визначити альтернативи виходу з проблеми, вибрати одну з альтернатив і т. д. Одна з типових стратегій "відходу від нерозуміння", реалізована в програмі "Еліза" - зміна теми бесіди. Очевидно, що така стратегія ведення бесіди навряд чи приведе до успіху при спільному пошуку вирішення проблеми.
Нарешті, четвертий висновок можна сформулювати як неуніверсальність правил комунікативної взаємодії. Він стосується самих закономірностей спілкування на природній мові. Кожен тип комунікації обслуговується своїм набором відносно простих правил, що забезпечують зв'язність дискурсу, його осмисленість для учасників. Типологія видів спілкування задається відповідними наборами правил. З експериментів М. Макгайра з програмою "Еліза" випливає, що крім асоціативного (= фатической) способу спілкування, виділяється ще "рішення задач", "задавання питань" і "уточнення розуміння". З лінгвістичної точки зору ці типи, швидше за все, неоднорідні, перетинаються і навіть знаходяться на різних рівнях дискурсу. Так, "уточнення розуміння" відноситься до метарівні комунікації, "задавання питань" може бути частиною стратегії "рішення задач" і "уточнення розуміння" і т.д. Істотно, що комп'ютерний експеримент з програмою, що моделює поведінку учасника комунікації, дозволяє експериментально підтвердити або спростувати багато положень теорії діалогу, розроблені як у лінгвістиці, так і в суміжних дисциплінах - в дискурс-аналізі, теорії комунікації, психології та соціології спілкування.
Моделювання структури сюжету. Вивчення структури сюжету відноситься до проблематики структурного літературознавства (у широкому сенсі), психології творчості та культурології. Наявні комп'ютерні програми моделювання сюжету грунтуються на трьох базових формалізму подання сюжету - морфологічному та синтаксичному напрямках подання сюжету, а також на когнітивному підході.
"Морфологія" сюжету. Ідеї про морфологічному пристрої структури сюжету сходять до відомих робіт В.Я. Проппа про російську чарівній казці [Пропп 1928; Пропп 1986]. Пропп зауважив, що при великій кількості персонажів і подій чарівної казки кількість функцій персонажів обмежено: "Постійними, стійкими елементами казки служать функції дійових осіб, незалежно від того, ким і як вони виконуються. Вони утворюють основні складові частини казки" [Пропп 1928, с. 31]. До числа базових відносяться, наприклад, такі функції:
відлучення персонажа казки з будинку;
заборона герою на дію;
порушення заборони;
отримання шкідником інформації про жертву;
обман жертви шкідником;
мимовільне пособництво жертви вредителю і т.д.
Ідеї Проппа лягли в основу комп'ютерної програми TALE, що моделює породження сюжету казки. В основу алгоритму програми TALE покладена послідовність функцій персонажів казки. Фактично функції Проппа задавали безліч типізованих ситуацій, впорядкованих на основі аналізу емпіричного матеріалу. Можливості зчеплення різних ситуацій в правилах породження визначалися типовою послідовністю функцій - у тому вигляді, в якому це вдається встановити з текстів казок. У програмі типові послідовності функцій описувалися як типові сценарії зустрічей персонажів.
Надалі система була ускладнена за рахунок введення моделі світу казки, географія якого складається із звичайного світу, проміжного (середнього) світу та іншого світу [Гаазе-Рапопорт, Поспєлов, Семенова 1984]. Кожен світ складається з локусів, пов'язаних між собою певними відносинами. Відносини пов'язують не тільки локуси всередині кожного світу, але і локуси різних світів. Звичайний світ складається з наступних локусів: місце проживання героя (локус 1), місце отримання завдання (локус Г), місце дарування чарівних предметів, що допомагають виконати завдання. Перший локус і локус штрих часто збігаються (пор. казки про падчерки і злий Мачусі). До звичайного світу відносяться також локуси 3 (їх може бути багато), в яких долаються перешкоди за допомогою чарівних предметів. Кількість перешкод, як правило, збігається з кількістю чарівних предметів. Після подолання перешкод герой опиняється в проміжному світі, вартовим якого є Баба-Яга. Середній світ відокремлює світ героїв від світу антигероїв. Функції Баби-Яги різняться - вона може виступати як дарувальниця інформації або чергового чарівного засобу, а може виступати на боці антигероїв (наприклад, при акценті на людожерської поведінці Баби-Яги). Інший світ включає місце проживання антигероя (локус 5), місце битви між героєм і антигероєм (локус 6) і, нарешті, локус 7 - місце нагороди чи мети, якої домагається герой. Локуси пов'язані відносинами переходу, які представляють можливі послідовності розгортання сюжету.
Модифікована версія програми TALE має наступну блок-схему [Гаазе-Рапопорт, Поспєлов, Семенова 1984, с.52]:
Блок-схема програми TALE
Робота програми починається з першого блоку, в якому вибирається тип сюжету казки та її персонажі. Тут же формується експозиція казки (setting). У другому блоці зберігаються описи, пов'язані з персонажами, а в четвертому - постійні характеристики персонажів. Описи даються під фреймоподобних структурах представлення знань. За допомогою другого і третього блоків формуються мотиви і вчинки персонажів. Третій блок задає послідовність руху персонажів по локусами. В останньому (шостому) блоці відбувається збірка породжених фрагментів казки.
Блок-схема модифікованого варіанту програми TALE показує, що чисто "морфологічного" підходу до структури сюжету казки явно недостатньо. "Морфеми" казкового сюжету повинні не тільки певним чином поєднуватися між собою, а й мати специфічні обмеження на сполучуваність. Фіксація одного типового порядку проходження функцій персонажів чарівної казки істотно обмежує наявні можливості сполучуваності. Більш адекватне вирішення цієї проблеми дає синтаксичний підхід до структури сюжету.
"Синтаксис" сюжету. Теоретичну основу синтаксичного підходу до сюжету тексту склали "сюжетні граматики" (story grammars). Сюжетні граматики з'явилися в середині 70-х рр.. в результаті переносу ідей генеративної граматики Н. Хомського на опис макроструктури тексту. Якщо найважливішими складовими синтаксичної структури в породжує граматиці були дієслівні та іменні групи, то в більшості сюжетних граматик в якості базових виділялися експозиція (setting), подія і епізод. У теорії сюжетних граматик широко обговорювалися умови мінімальності: обмеження, що визначали статус послідовності з елементів сюжету як нормальний сюжет. Виявилося, однак, що суто лінгвістичними методами це зробити неможливо. Багато обмеження носять соціокультурний характер. Сюжетні граматики, істотно розрізняючись набором категорій в дереві породження, допускали вельми обмежений набір правил модифікації наративної структури. У переважній більшості випадків ці правила запозичені з тієї ж граматики. Потенціал варіювання структури сюжету забезпечується в першу чергу трансформаціями пересування та опущення. Наприклад, текст зізнання злочинця, що фіксує реальну послідовність розгортання подій у злочині, можна за допомогою перестановок і опущень перетворити в детективний сюжет: {злочинець → задум → знаряддя вбивства → місце → вбивство → виявлення трупа → пошуки злочинця} → {виявлення трупа → виявлення знаряддя вбивства → пошуки злочинця}.
Використання сюжетних граматик в комп'ютерному моделюванні виявилося не зовсім вдалим. Синтактична компонент сюжету, описуваний граматиками, відображає чисто зовнішні особливості тексту. Не вдається виявити операціональні критерії виділення різних складових сюжету.
Основний висновок дискусії про недоліки сюжетних граматик звівся до необхідності опису сюжету в рамках структури доцільної діяльності, тобто із залученням категорій "мета", "проблема", "план" і т.д. Іншими словами, метамови, що враховує тільки зовнішні особливості сюжету, явно недостатньо. Необхідно звернення до когнітивних станів персонажів.
Когнітивний підхід до сюжету. На початку 80-х рр.. однієї з учениць Р. Шенка - В. Ленерт - у рамках робіт зі створення комп'ютерного генератора сюжетів був запропонований оригінальний формалізм афективних сюжетних одиниць (АСЕ - Affective Plot Units), що виявився потужним засобом представлення структури сюжету [Lehnert 1982]. При тому, що він був спочатку розроблений для системи ШІ, цей формалізм використовувався в чисто теоретичних дослідженнях. Сутність підходу Ленерт полягала в тому, що сюжет описувався як послідовна зміна когнітивно-емоційних (афективних) станів персонажів. Тим самим у центрі уваги формалізму Ленерт стоять не зовнішні компоненти сюжету - експозиція, подія, епізод, мораль - а його змістовні характеристики. У цьому відношенні формалізм Ленерт почасти виявляється поверненням до ідей Проппа.
Кожна афективна сюжетна одиниця являє собою бінарне відношення, що зв'язує деякі події, оцінювані персонажами позитивно (+) або негативно (-), і когнітивно-емоційні стани персонажів (у різних комбінаціях - подія & стан; подія & подія і т.д.). Бінарне відношення не є однорідним. Усього виділяється п'ять типів бінарних відносин, спеціфіціруемих в кожній афективної сюжетної одиниці. Бінарне відношення може бути мотивацією (позначення - т), актуалізацією (а), припиненням однієї дії іншим (t), еквівалентністю (е), а також афективної каузальною зв'язком між персонажами. Кожна афективна сюжетна одиниця отримує назву, наприклад, УСПІХ, НЕВДАЧА, завзятість, ПРОБЛЕМА і т.д.
4. Гіпертекстові технології подання тексту
Феномен гіпертексту можна обговорювати з кількох точок зору. З одного боку, це особливий спосіб представлення, організації тексту, з іншого - новий вид тексту, протиставлений за багатьма своїми властивостями звичайного тексту, сформованому в гутенберговской традиції друкарства. І, нарешті, це новий спосіб, інструмент та нова технологія розуміння тексту.
Теоретичні підстави гіпертексту. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної епохи, протиставила ері друкарства. Лінійність листи, зовні відбиває лінійність мови, виявляється фундаментальною категорією, що обмежує мислення людини та розуміння тексту. Світ сенсу нелинеен, тому стиснення змістової інформації в лінійному мовному відрізку вимагає використання спеціальних "комунікативних упаковок" - членування на тему і рему, поділ плану змісту висловлювання на експліцитні (затвердження, пропозиція, фокус) та імпліцитні (пресупозиція, наслідок, імплікатура дискурсу) шари . Відмова від лінійності тексту і в процесі його уявлення читачеві (читання і розуміння), і в процесі синтезу, на думку теоретиків, сприяв би "звільнення" мислення і навіть виникнення його нових форм.
Информация о работе Комп`ютерна лінгвістика як прикладна лінгвістична дисципліна