Введение к работе
Актуальность темы исследования определяется потребностью совершенствования процедур разрешения многозначности в алгоритмической обработке информации на иностранном языке, необходимостью настройки соответствующих систем на конкретную предметную область и важностью изучения особенностей использования общеупотребительной лексики в новых предметных областях в прикладных целях
Распознавание значений многозначной лексики в контексте ее реального употребления представляет собой одну из наиболее серьезных проблем в системах алгоритмической обработки текстов. Одним из наиболее эффективных средств ее решения выступает контекстологический словарь (КС). Идея использования контекстологического словаря в алгоритмическом переводе текстов была выдвинута, разработана и опробована на практике Ю Н. Марчуком [1976].
Несмотря на конструктивность и эффективность использования КС в алгоритмической обработке текстов, он не получил широкого распространения в первую очередь потому, что его составление сопряжено с обработкой значительных объемов лингвистической информации, ее глубокой систематизацией и обязательной формализацией Однако развитие методов корпусной лингвистики открывает в этом отношении новые перспективы в использовании КС в алгоритмизации разрешения лексической многозначности
Исходными гипотезами исследования выступают предположения о том, что, во-первых, многозначная общеупотребительная лексика может приобретать в новых предметных областях терминологизированный характер, во-вторых, что в функционировании многозначной общеупотребительной лексики в смежных предметных областях экономики есть как сходные, так и отличительные черты, и, в-третьих, что КС может стать эффективным инструментом раз-
работки методики интегрального исследования особенностей функционирования многозначной общеупотребительной лексики в текстах смежной (экономической) тематики
Соответственно, целью исследования является использование методов корпусной лингвистики в разработке методики интегрального исследования закономерностей и особенностей функционирования многозначной общеупотребительной лексики в текстах смежной (экономической) тематики, центральным компонентом которой выступает контекстологический словарь В соответствии с целью исследования были поставлены следующие конкретные задачи.
Проанализировать роль корпусной лингвистики в современных лингвистических исследованиях, в составлении контекстологических словарей и изучении синхронного состояния многозначной лексики, а также определить роль КС в алгоритмической обработке текста
Сформировать материал исследования - представительный корпус экономических текстов новых предметных областей - контрактов и соглашений на английском языке, и разбить его на темы с тем, чтобы они образовали смежные предметные области «Credit», «Business» и «Trade»
Отобрать в качестве объекта исследования набор ключевых понятий -многозначных общеупотребительных слов, существительных и глаголов, которые способны воплощать характерные для данной предметной области понятия
Разработать на основе принципов составления КС методику формального разрешения многозначности общеупотребительной лексики в специальных текстах и описания особенностей ее функционирования в новых смежных областях экономики.
На основе полученных результатов охарактеризовать роль и функции КС в алгоритмической обработке специальных текстов
Объектом исследования является многозначная общеупотребительная лексика (12 единиц) и контексты ее использования в корпусе текстов, свыше 900 единиц Предметом исследования являются принципы использования КС
в разрешении многозначности общеупотребительной лексики и выявлении
закономерностей и особенностей ее функционирования в текстах на
английском языке, относящихся к новым для российской экономики смежным
предметным областям Материалом исследования послужил корпус
современных американских экономических текстов контрактов и соглашений,
относящихся к наиболее важным для становления современной российской
экономики новым областям знания, общим объемом 995 тыс
словоупотреблений
В диссертации использовались следующие методы исследования.
корпусный, алгоритмический, дистрибутивный, статистический, контекстологический, комбинаторный, компонентный, сопоставительный, трансформационный, семантический и лексикографический
Основные результаты исследования:
1 Разработанная в диссертации методика интегрального исследования особенностей функционирования многозначной общеупотребительной лексики в текстах смежной (экономической) тематики на основе контекстологического словаря позволяет- 1) уточнять и систематизировать контекстологические принципы разрешения многозначности общеупотребительной лексики в (специальном) тексте, 2) выявлять и систематизировать закономерности и особенности ее употребления в трех новых для российской экономики смежных предметных областях, 3) охарактеризовать общие и отличительные черты языка самих исследованных смежных предметных областей экономики, 4) описать и обосновать роль и функции КС в алгоритмической обработке специального текста, 5) сделать выводы относительно перспектив применения КС в алгоритмических и других прикладных разработках- дидактических, методических, лексикографических и др
2 Наиболее показательными формальными способами разрешения многозначности общеупотребительной лексики в контексте выступают (1) исходная
сентенциальная формула, отражающая семантико-синтаксические особенности употребления многозначного слова в данном значении, (2) лексико-граммати-ческая модель, отражающая типичные синтагматические контексты его употребления; (3) семантические/ тематические классы слов, с которыми типично сочетается данное многозначное слово в данном значении
3 Многозначная общеупотребительная лексика в специальном тексте
служит для выражения важных общедисциплинарных и междисциплинарных
понятий, для организации и развертывания текста, а также для упорядочения
терминологической лексики. При этом она чаще всего используется не во всех
своих словарных значениях, в основном сохраняет свои основные значения,
отражает происходящие изменения в организации ее словарных значений и/
или ее «тонкую настройку» на конкретную предметную область
В специальном тексте происходит терминологизация значений многозначной общеупотребительной лексики Причем в экономическом тексте значения общеупотребительной лексики могут приобретать не только экономический, но и ярко выраженный юридический характер, а самой важной ее чертой оказывается ее сочетаемость с целыми классами тематически маркированных понятий и терминов, которые в содержательном отношении обозначают центральные для данной предметной области категории явлений и объектов
4 Из трех исследованных массивов текстов, относящихся к смежным об
ластям экономики, предметная область «Credit» более всего ориентирована на
юридические отношения, «Business» - на финансовые отношения, a «Trade» -
на экономические При этом во всех трех смежных предметных областях
наблюдается тенденция использования многозначной общеупотребительной
лексики в юридически маркированных значениях, что свидетельствует об
общей четкой ориентации экономических текстов на английском языке на
следование букве закона и договора
5. КС, как инструмент, разработанный для использования в прикладных целях, отличается наглядностью, эксплицитностью и формализованностью, и
потому может получить широкое применение при решении большого круга новых прикладных задач. К ним относится не только совершенствование алгоритмической обработки текста и ее интеграция в новые компьютерные технологии, но и целый комплекс дидактических и программных приложений Это разработка дидактических и компьютерных программ «активного типа» по обучению иностранному языку и переводу, составление комбинаторных и толково-комбинаторных словарей, тезаурусов-онтологий, учебных пособий и справочников «активного типа» словарей сочетаемости, терминологизирован-ньгх понятий, словосочетаний и т д
6. КС открывает новые перспективы в изучении специальных текстов и особенностей функционирования в них многозначной лексики не только в прикладных, но и теоретических целях Они предопределяются, в первую очередь, развитием корпусной лингвистики Она предоставляет принципиально новые возможности в составлении КС, позволяет повысить его качество и эффективность в описании активной и специальной лексики, и тем самым способствовать его интеграции в разнообразные программные продукты и исследовательские технологии
Научная новизна исследования заключается в изучении новых для российской экономики предметных областей, терминология которых на русском языке еще не устоялась, и которые испытывают поэтому потребность в лексикографических и алгоритмических описаниях словарях различных типов, в формальных процедурах перевода на русский язык и др Разработанная в диссертации методика интегрального "исследования особенностей функционирования многозначной общеупотребительной лексики в текстах смежной (экономической) тематики на основе КС, в этом отношении позволяет 1) выделять новые значения у многозначной лексики, 2) распознавать и уточнять значения многозначной лексики в специальном тексте, 3) фиксировать несвободную/ устойчивую сочетаемость многозначной лексики, причем в каждом из значений, 4) выявлять взаимосвязь между толкованием многозначной лексики, ее сочетаемостью и лексико-грам-
матическими моделями ее употребления, 5) изучать синхронное состояние многозначной общеупотребительной лексики в новых для российской экономики смежных предметных областях
Теоретическая, значимость диссертации состоит в разработке принципов исследования синхронного состояния многозначной общеупотребительной лексики. Они заключаются в интегральном представлении семантической, лексикографической, контекстологической и статистической информации о многозначной общеупотребительной лексике и ее использовании в специальном тексте и позволяют уточнять формальные процедуры разрешения ее многозначности в контексте, описывать особенности в ее функционировании в конкретной предметной области, выявлять лингвистические особенности языка самой предметной области и изучать синхронное состояние многозначной общеупотребительной лексики в новых предметных областях
Практическая значимость работы определяется возможностью использования результатов проведенного исследования в таких прикладных направлениях, как. 1) разработка лингвистического обеспечения систем компьютерной обработки документов и систем класса «искусственный интеллект», особенно машинного перевода, 2) алгоритмическая обработка специальной информации на естественном языке тематическая обработка специальных текстов и построение тематических словников, реляционных баз данных, процессоров по извлечению предметных знаний и т п; 3) методика преподавания специального перевода и перевода контрактов и соглашений с английского языка на русский, 4) лексикографическая практика составление словарей нового, активного типа частотных словарей словосочетаний и словарей терминологических словосочетаний конкретной предметной области, комбинаторных и толково-комбинаторных словарей, тезаурусов-онтологий, учебных пособий и справочников «активного типа»; 5) чтение лекций по корпусной лингвистике и автоматической обработке текстов
Апробация работы. Основные положения диссертации обсуждались на различных Международных и региональных научных конференциях на X Международной Юбилейной научной конференции студентов, аспирантов и молодых ученых "Ломоносов-2003", посвященной 250-летию МГУ (Москва, 15-18 апреля 2003 г), на научных конференциях в МГОУ (Москва 17 апреля 2003 г, 16 апреля 2004 г; 18 апреля 2005 г) Основные положения работы изложены в 6 публикациях
Структура диссертации. Работа состоит из введения, двух глав, заключения, библиографии и двух приложений Во введении обосновывается актуальность темы диссертации, ее научная новизна, теоретическая и практическая значимость, определяются цели и задачи исследования, формулируется объект, предмет, материал, методы и результаты исследования В главе 1 - «Корпусная лингвистика, контекстологический словарь и современные проблемы обработки информации на естественном языке» анализируется роль корпусной лингвистики в современных лингвистических исследованиях и выявляются ее возможности в составлении КС и изучении синхронного состояния многозначной лексики, определяется роль КС в алгоритмической обработке текста и излагаются принципы построения методики интегрального исследования особенностей функционирования многозначной общеупотребительной лексики в текстах смежной (экономической) тематики на основе КС В главе 2 - «Контекстологический словарь и разрешение лексической многозначности на примере англоязычных контрактов (договоров) и соглашений» приводятся полученные на основе разработанной методики сводные таблицы, содержащие комплексные данные о функционировании многозначной общеупотребительной лексики в исследованных массивах, и производится их анализ и обобщение Текст диссертации иллюстрируется рисунками (12) и таблицами (54) В заключении сформулированы основные результаты исследования. В приложении 1 даются образцы контрактов (договоров) и соглашений, на материале которых проводилось исследование, с выделенными ключевыми словами, в приложении