Автор: Пользователь скрыл имя, 04 Марта 2013 в 15:19, курсовая работа
Целью данной курсовой работы является поиск ответа на следующие вопросы: Что такое электронный словарь? Просто современная удобная оболочка “бумажного” словаря или же начало нового этапа в развитии лексикографии?
Для достижения данной цели были поставлены следующие задачи:
- Изучить особенности электронного словаря;
- Рассмотреть различные виды классификаций электронных словарей;
- Исследовать проблему словарной статьи электронного словаря;
- Определить роль термина как основы современного электронного словаря;
- Выявить преимущества электронного словаря по сравнению с бумажным.
ВВЕДЕНИЕ 3
1. СУЩНОСТЬ ЭЛЕКТРОННОГО СЛОВАРЯ И ЕГО ВИДЫ 6
1.1 Электронный словарь и его использование 6
1.2 Системы поиска 11
1.3 Основа электронного словаря 13
1.4 Классификация электронных словарей 16
2. АНАЛИЗ ПРАКТИКИ СОСТАВЛЕНИЯ ДВУЯЗЫЧНЫХ ЭЛЕКТРОННЫХ СЛОВАРЕЙ 19
2.1 Электронные словари "МультиЛекс" 19
2.2 Электронные словари "Lingvo" 21
2.3 Проблема словарной статьи в электронном словаре 22
2.4 Термин как основа современного двуязычного электронного словаря 28
ЗАКЛЮЧЕНИЕ 37
БИБЛИОГРАФИЯ 39
Эти факты красноречиво свидетельствуют об актуальности создания поисковых систем с кросс-языковыми возможностями.
Такие системы пока не получили в Интернете распространения. Компания ПРОМТ выпустила первую систему машинного перевода для Интернета под названием WebTranSite, снабженную средством перевода запросов на поиск с английского, немецкого и французского языков на русский и обратно. Однако качество перевода не удовлетворяет взыскательных пользователей. То же самое можно сказать и о системе перевода SYSTRAN (Systran, USA) на сервере Altavista, которая, правда, обладает большими возможностями в смысле количества задействованных языков.
Для поиска в базах данных в мире популярна разработка компании Convera Technologies - программный продукт RetrievalWare (RW), в котором реализована функция кросс-языкового поиска. Пользователь может формировать запросы на одном из 14 языков (русском, английском, немецком, французском, испанском, арабском, китайском, японском и т.д.), а получать в ответ документы на других языках. Однако сами разработчики утверждают, что использовать эту дорогостоящую систему только для работы с Internet-ресурсами нецелесообразно. Поэтому основные клиенты Convera - крупные банки, государственные организации, СМИ, исследовательские центры и т.д.
Из наших отечественных разработок следует отметить систему поиска информации в русскоязычных реферативных базах данных по запросам на английском языке, которая уже несколько лет функционирует в ВИНИТИ РАН. Для перевода запросов с английского языка на русский используется система ERTRANS, затем русскоязычные переводы формализуются с помощью логических операторов и исключается малоинформативная лексика для использования их в ИПС «Сокол».
Также в работе Саломатиной Н.В. и Гусева В.Д. «Автоматизация формирования индикаторных словарей и возможности их использования» [18] описывается оригинальный подход к решению проблемы поиска, связанный с индикаторными словарями и индикаторным методом извлечения информации.
Однако проблема поиска не входит в круг вопросов курсового исследования и требует отдельного рассмотрения.
Существующая в настоящее время практика разработки многоязычных машинных словарей опирается на традиционные книжные словари и тезаурусы, которые сначала с помощью технологий сканирования и распознавания текстов переводятся в электронную форму, а затем автоматически записываются в требуемом формате. По такому методу созданы все известные словари, например Lingvo, MultiLex, Eckado и т.д. Некоторые многоязычные словари (например, во ВНИИКИ Госстандарта) создавались вручную на основе справочников, пособий, толковых словарей, энциклопедий и т.д., а затем записывались в электронной форме.
Однако если использовать только лексику, содержащуюся в традиционных книжных словарях, то получить хорошее покрытие текстов невозможно, так как словари всегда отстают от реальных текстов.
Оригинальный способ решения этой проблемы предлагался компанией Мultitran в проекте multitran.ru - ведение словарей с помощью Интернет в режиме on-line.
Н.Н. Абрамова и Е.И. Глобус [2] видят путь решения в том, чтобы при разработке машинных многоязычных словарей наряду с обработкой существующих традиционных словарей составлять словари по реальным текстам, естественно, используя автоматизированные методы.
Идея составления двуязычных словарей на основе билингв (или параллельных текстов) впервые была высказана профессором Белоноговым Г.Г. [4] и реализована его учениками. В настоящее время в компьютерной лингвистике активно развивается направление по исследованию многоязычных корпусов текстов.
В 90-х годах прошлого века в ВИНИТИ был составлен русско-английский словарь на основе массива текстов заголовков научно-технических документов на английском языке и их переводов на русский язык. Словарь составлялся с использованием средств автоматизации во всех основных операциях, таких как выделение пар русских и английских заголовков и их нумерация, морфологический анализ русских словосочетаний, построение поисковых образов словосочетаний (ПОС) и сортировка словосочетаний по ПОС-ам, удаление дублирующихся пар заголовков. Переводные соответствия между русскими и английскими словосочетаниями устанавливались с помощью дистрибутивно-статистического метода. В основе этого метода лежит гипотеза о том, что «если два предложения (на русском и английских языках) являются переводами друг друга, то для каждого слова и/или словосочетания одного из предложений с высокой вероятностью найдется эквивалентное ему по смыслу словосочетание или слово из другого предложения, и при этом переводы слов, входящих в состав русского словосочетания, будут располагаться в английских предложениях компактно».
Сначала
по всему массиву русских
Попыток
автоматического составления
Наиболее остро стоит вопрос о многозначности слов и словосочетаний. Известно, что в двуязычных словарях в силу объективных языковых факторов (существование синонимии слов и словосочетаний, грамматических конструкций, синонимичных аббревиатур для выражения одного и того же понятия) не всегда достигается взаимно-однозначное соответствие русских и иноязычных словосочетаний. В многоязычных словарях роль этих факторов усиливается за счет включения новых языков, в каждом из которых имеются эти явления. Поэтому при составлении словарей нужно либо изначально выявлять синонимию в исходных параллельных текстах с помощью многоязычного тезауруса, приводя все синонимы к заглавному дескриптору, либо выявлять многозначность слов и словосочетаний в процессе анализа текстов.
За последние
десятилетия значительно
НАПРАВЛЕНИЯ ЛЕКСИКОГРАФИЧЕСКОЙ РАБОТЫ
Общая лексикография Частная лексикография
учебная научно- компьютерная ассоциативная авторская диалекто- …
(двуязыч-
техническая
ная) (термино-
логическая)
Рис. 1
Приведенный на рис. 1 перечень остается открытым, поскольку с течением времени и появлением новых средств лексикографирования могут оформиться и другие направления работы в этой области, в том числе и прогнозируемая нами разработка единой системы электронных ресурсов, раскрывающая специфику слов-коррелятов в разных лингвокультурах за счет добавления к словарям результатов экспериментальных исследований различных видов.
Универсальной классификации словарей не существует в силу того, что один и тот же словарь может быть отнесен к разным типам в зависимости от выбранного критерия классификации (см. таблицу).
Таблица. Основные критерии классификации и типы словарей
Критерии классификации |
Типы словарей | |
1 |
Количество словарных статей |
Большие, краткие, малые |
2 |
Количество языков |
Одноязычные (учебные, энциклопедические, лингвострановедческие, толковые, этимологические, ономастические, иностранных слов), переводные |
3 |
Охват лексики |
Специальные, толковые, энциклопедические, орфографические, орфоэпические, тезаурусы |
4 |
Оформление информации |
Бумажные, компьютерные |
5 |
Функциональная направленность |
Функциолнально-отраслевые (тезаурусы, терминологические, тематические), функционально-языковые (словари сочетаемости), функционально-образные (фразеологические, словари крылатых слов) |
6 |
Порядок подачи лексического материала |
Алфавитные, обратные, гнездовые |
7 |
Культурологическая направленно |
Ономастические, страноведческие, словари литературной нормы |
8 |
Количество лингвистической |
Лингвистические и энциклопедические словари |
9 |
Назначение |
Учебные, информационно-поисковые, справочники |
10 |
Отношение к синхронии и диахронии |
Исторические, неисторические, этимологические |
11 |
Отношение к языковой норме |
Нормативные, ненормативные |
12 |
Тип языкового общения |
Общие, областные и т.п. |
13 |
Источник информации о слове |
Полученные через анализ устной речи, письменной речи, обращение к носителям языка и культуры |
14 |
Виды деятельности пользователя словарем |
Словари, ориентированные на научно-исследовательскую деятельность лингвиста (любой вид словаря и любое количество словарей); словари, ориентированные на практическую деятельность пользователя словарем (выбор словаря/словарей в зависимости от цели, ситуации и т.д.) |
В зависимости от используемых источников информации о слове можно выделить следующие типы словарей (рис.2):
Компьютерная лексикография является особым направлением в практической лексикографии со своими собственными подходами не только к отображению, но и к содержанию словаря. В. Селегей [19] полагает, что электронный словарь - это особый лексикографический объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, не востребованные по разным причинам в бумажных словарях.
Самыми
популярными и постоянно
Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: "В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников". Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с "естественным монополистом" рынка российских словарей, издательством "Русский язык". С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму.
За основу словаря «МультиЛекс» взят "Новый большой англо-русский словарь" под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.
Конечно,
словарь Апресяна - выдающееся достижение
лексикографии, но подход МедиаЛингва
имеет и недостатки. Первое, традиционные
словари довольно серьезно отстают
от языковой реальности. Обычно это
не менее десяти лет. А электронные
словари можно пополнять чуть ли не ежедневно.
Второе, словари, содержащие сотни тысяч
словарных статей, какими бы квалифицированными
лексикографами они не составлялись, всегда
содержат ошибки и неточности, не говоря
уже о возникновении дополнительных значений
слов. Жесткая привязка к бумажному прототипу
не дает возможности исправлять и дополнять
электронный, тем более изменять структуру
построения словарной статьи.
По другому
и, вероятно, более перспективному пути
пошла компания Abbyy.
Конечно, и в их большом электронном словаре
LingvoX3 есть переведенные в цифровой вид
лицензированные бумажные словари - это
политехнический, юридический, экономический,
финансовый, медицинский и - что очень
своевременно - динамично пополняемый
компьютерный словарь. Но основу
Lingvo, по словам руководителя лингвистического
отдела фирмы Владимира
Селегея [19], составляет электронный словарь
собственной разработки. Каждая новая
версия Lingvo дополняется актуальной лексикой,
и в ней исправляются найденные ошибки
и неточности. Таким образом, благодаря
лексикографическим исследованиям англо-русский
словарь фирмы Abbyy близок к языковой практике.
Удачной
находкой Abbyy выглядит приглашение
всем желающим размещать на их Интернет-узле
словари собственного изготовления http://www.lingvoda.ru/index.
Рублева О.С. в своей работе «Слово в электронном словаре (с позиций пользователя электронными ресурсами)» [14] рассмотрела 42 электронных словаря русского языка и 37 электронных словарей английского языка и существующие типологии словарей такого рода, что позволило ему предложить собственную типологию словарей на электронной основе (см. схему на рис. 3).
Рис. 3
Особое значение имеет выбор слова для анализа словарных статей в словарях различных типов. Для этого в своем исследовании Рублева О.С. [14] составила анкету и предложила ее пятидесяти испытуемым – сотрудниками двух коммерческих компаний. В результате было получено 50 анкет, на основе которых выбрано именование нравственного качества «порядочность» как получившего самую высокую суммарную оценку по шкале от 0 до 100.
Ход дальнейшего исследования включал семь последовательно выполняемых этапов, схематично представленных на рис. 4.
Рис. 4
Информация о работе Принципы составления двуязычных словарей электронного формата