Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда Кириллов Михаил Анатольевич

Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда
<
Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Кириллов Михаил Анатольевич. Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда : диссертация ... кандидата филологических наук : 10.02.04.- Иваново, 2002.- 292 с.: ил. РГБ ОД, 61 02-10/1055-8

Содержание к диссертации

Введение

ГЛАВА I Основы статистической лексикографии 20

1.1. Корпусная лингвистика, компьютер и естественные языки 25

1.1.1. Автоматический грамматический разбор и машинный перевод.

1.1.2. Компьютерные словари 3 6

1.2. Применение статистических методов исследования в лингвистике.

1.2.1. Определение частотного словаря 53

1.2.2. Сферы применения и трудности составления частотных словарей

1.2.3. Общие принципы построения ЧС на ЭВМ 62

1.2.4. Классификация частотных словарей g 69

Выводы по главе I 76

ГЛАВА II Применение лингвостатистики в авторской и учебной лексикографии

2.1. Частотный словарь и художественный текст. 78

2.1.1. Применение ЧС для изучения стиля текстов и идиолектов .

2.1.2. Современное состояние писательской лексикографии 82

2.2. Некоторые теоретические вопросы построения авторских ЧС

2.2.1. О специфических особенностях составления ЧС писателей

2.2.2. Специфика применения компьютерных писательских 92 ЧС

2.2.3. О некоторых методах статистического текстологического анализа художественных произведений

2.3. Основные принципы составления учебных ЧС 106

2.3.1. Частотные словари в учебной лексикографии 106

2.3.2.К проблеме отбора источников для составления ЧС 112

Выводы по главе II 117

ГЛАВА III Составления частотных словарей коротких рассказов. Ф.С.Фицджеральда .

3.1 К проблеме выбора источника. 127

3.2 Цели и задачи статистического исследования рассказов Ф.С .Фицджеральда

3.3 Особенности ввода текста 130

3.4 Описание программы

3.5 О возможностях использования программного обеспечения

3.6 Описание результатов исследования 142

3.7 Анализ частотного словаря коротких рассказов Фицджеральда (фрагменты)

Выводы по главе III 150

Заключение 152

Список использованной литературы 156

Список использованных словарей 186

Полезные адреса в сети internet

Компьютерные словари

Статистическая лингвистика - отрасль прикладной лингвистики, которая пытается найти систему в любом большом отрезке коммуникации. Важность статистической лингвистики стала очевидной в 40-х годах ХХв. В то время многие научные работы в сфере информатики и теории вероятности рассматривали язык как средство передачи и хранения информации (Muller, 1972; Altmann, 1972, 1-9; Alexejev/Kalinin/Piotrovski, 1973; Hofinann/Piotrovski, 1979; Hays, 1974). Кроме того, было показано, что язык выполняет функцию кода. Следовательно, толкование языка как функционального кода со специфическими статистическими характеристиками открыло путь в лингвистику математическим методам.

В частности, методы статистической лингвистики основываются на следующих операциях: представление частоты употребления отдельных текстовых элементов; демонстрация статистических правил организации специального текста; определение вероятности встречаемости различных элементов/отношений в специальном тексте; демонстрация регулирующих принципов языка в специальных текстах (Baumann, 1994, 6).

Несмотря на некоторую утрированность разделения лингвистов на "диванных" (приходящих к научным результатам в итоге дол-гих и бесцельных размышлений) и "корпусных" (делающих теорети 21 ческие обобщения на основе переработки огромного количества практического материала) (Паршин, 1996, 35), специалистов в области статистической лексикографии можно смело отнести к "корпусным" лингвистам в чистой форме. Проводя подсчеты и анализ повторяющихся лингвистических явлений, ученые неизбежно сталкиваются со стереотипизацией языка.

В последние годы, с тех пор как проект Cobuild продемонстрировал преимущества компьютерного анализа значительных масс реальных текстовых данных, использование компьютерных корпусов текстов как источника составления словарей стало более распространено. Одно из многих последствий применения корпусной методологии заключается в том, что изучение явления стереотипизации может быть намного более точным и показательным, чем оно бы было без базовых данных (Clear, 1993, 273).

Поскольку составители словарей, также как и грамматисты, и преподаватели языка, оказываются в положении арбитра, авторитета в вопросах употребления, они вольно или невольно вносят вклад в развитие лингвистической стандартизации. Этот процесс также иногда называют "кодификацией" (Hartmann, 1983, 5).

Одна из основных задач лексикографа - записать и описать новые слова, приходящие в язык. В современном английском количество совершенно новых отдельных словоформ, входящих в язык будет невелико относительно количества комбинаций (сложных слов и фраз), которые становятся стереотипными и признаются новыми формами. В этом случае существует необходимость в компьютерном оборудовании чтобы предпринять попытку выделить новые стерео-типизированные комбинации слов из большого корпуса и привлечь к ранее неизвестным (непризнанным) формам внимание лексикографа (Clear, 1993, 275).

При выполнении какой-либо компьютерной статистической обработки корпуса текстов существует методологическая сложность оценки достоверности конкретной компьютерной техники: как мы можем знать достоверен ли машинный анализ? С одной стороны, можно сравнить выходные данные автоматического анализа с результатами аналогичной работы, выполненной "вручную", на материале того же корпуса текстов. Формальное тестирование и сравнение требует больших затрат человеческого труда. Более того, вопрос о достоверности такой проверки успешности автоматического анализа является спорным, поскольку она проводится именно на основе такого количества данных, которое предоставляет корпус текстов, и не предназначеного для ручного анализа. А именно такое количество текстовых данных предлагает новое видение лингвистического моделирования (Clear, 1993, 282; Siliakus, 1983, 422).

Применение ЧС для изучения стиля текстов и идиолектов

В 1992 году Дж.Синклер заложил основание для следующего поколения программного обеспечения в корпусной лингвистике и установил общие направления для стандартов программного обеспечения. Они, кроме всего прочего, включают следующие требования: (а) анализ должен быть сведен к тому, что машина может сделать без вмешательства человека; (б) анализ должен производиться в реальное время; (в) операции должны быть разработаны так, чтобы справиться с любым количеством текстового материала.

Эти требования привели Дж.Синклера к тому, чтобы предложить следующее: при переходе к обработке длинных текстов может быть целесообразным изменить приоритет всецелевого исчерпывающего грамматического разбора на ряд простых операций. Каждая из них могла бы внести вклад в существующую стратегию грамматического разбора, и в то же время, каждая могла бы представить ценнную информацию для исследования и для

Исследователи и разработчики программ в области автоматического распознавания речи, почерка, машинного перевода и извлечения информации давно знали, что они могли бы достичь многого при наличии действенной системы грамматического разбора. Система грамматического разбора разграничивает части заданного предложения, помечает каждую часть, определяет часть речи каждого слова в предложении и, возможно, предоставляет дополнительную информацию (Johanssen/Hofland, 1987; Garvin, 1974; Eeg-Olofsson, 1987).

Системы разбора, созданные к настоящему времени, далеки от совершенства. Они могут выполнять структурный разбор с точностью максимум в 60%. По мнению некоторых ученых, область компьютерного анализа английского языка находится в кризисе, поскольку несмотря на многие годы усилий высококвалифицированных профессионалов положение дел остается в лучшем случае на примитивном уровне (Altmann, 1972, 7; Cooper, 1973, 88). Обнадеживающие факторы связывают с возникновением статистического подхода, которое означало переход от развития грамматики на основе теории к развитию на основе частоты. Часто грамматические конструкции, теоретически интересные для разбора, оказываются очень малоупотребительными. Развитие компьютерных методов исследования означает появление возможности для среднего ученого, или даже простого студента, оперировать огромными массивами текста без особых усилий (Meyer/Callewaert, 1992; Olsen, 1989, Sinclair, 1992).

Существует множество критериев для применения статистического анализа текста - получение представления о выборе слов, частоте типов конструкций, частоте длины фразы и т.д. Актуальность использования статистических методов в грамматическом разборе заключается в том, что предшествующие результаты разбора были неудовлетворительными. В то же время огромное количество машиночитаемых текстов доступно исследователям, а компьютерная техника позволяет легко и сравнительно недорого обрабатывать огромные массивы текстов. Идея развития грамматики на основе использования частотных данных заключается в том, чтобы эффективно организовать этот процесс чтобы увеличить процент правильно разобранных предложений для любого подходящего исходного корпуса текстов (Вlack/Garside/Leech, 1993, 1-9).

Однако высшей формой автоматической переработки текста руководитель группы "Статистика речи" Р.Г.Пиотровский считает МП (Пиотровский, 1975, 269). Первые эксперименты по переводу текстов с помощью ЭВМ были проведены в 1959 г. в Нью-Йорке. С тех пор методика машинного перевода претерпела множество изменений. Современные промышленные системы МП нацелены на за 32 мену человека-переводчика. Эффективность определенного аппарата МП во многом зависит от качества составленных для этой системы словарей (Roberts/Zarechnak, 1974). Системы МП намного превосходят человека по скорости, но существенно уступают ему по качеству перевода (см.: Пиотровский, 1975, 269-293). Вне сферы применения промышленных систем МП остаются языки и тематики с малыми объемами переводов, особо сложными текстами, или текстами с новыми требованиями к качеству перевода (Убин, 1989, 11-12).

Компьютеры также широко применяются для автоматического индексирования, аннотирования и реферирования текстов (см., например: Пиотровский, 1975, 215; Зубов, 1977, 85).

Данные статистической обработки информации необходимы при автоматическом индексировании и аннотировани текстов. Например, проект AUTINDEX, реализуемый в университете Копенгагена, нацелен на разработку системы автоматического извлечения информации, создания списков ключевых слов и кратких отсылочных выжимок из подлинных документов в машиночитаемой форме.

О некоторых методах статистического текстологического анализа художественных произведений

В учебных целях общий объем специальной лексики подвергается компрессии и минимализации, в результате чего появляются разнообразные словари-минимумы (Антонова, 1988, с.215), предназначенные для пользователей нефилологического профиля и составленные с учетом данных специально созданного ЧС подъязыка для получения объективной информации о характере лексических единиц и их распределении в текстах подъязыка (Алексеев 1983; Алексеев, 1980; Басовская, 1994; Глушко, 1976; Корчемкин и др., 1985; Турыгина, 1974; Частотный англо-русский словарь. Подъязык экономики, 1986; Частотный англо-русский словарь. Подъязык философии. 1985)..

Изучение ряда справочников этого типа показало, что их можно сгруппировать по функции, по составу, по характеру лексических единиц и по способу организации этих единиц в словаре (Подр.см.: Морозенко, 1988, с. 141-145).

При выборе рациональной методики обучения языку неизбежно приходится искать ответ на следующий вопрос: как определить минимум языковых средств, необходимых и достаточных обучаемому в тех случаях, когда он будет применять полученные знания (Карташков, 1992, с. 10). Наиболее остро для составителей автомати 114 ческих частотных словарей (АЧС) стоит вопрос об объеме исследуемых текстов.

Практически все ЧС, составленные по текстам на естественном языке, имеют своей целью отбор наиболее употребительной лексики по той или иной тематике. Такой минимум наиболее частых, а потому и самых существенных, языковых явлений называют базовым языком. При этом речь идет прежде всего об отраслевых базовых языках, например, о языке математики, электроники, судостроения и т.д. (Алексеев, 1983, с.22). В связи с неполной покрываемостью лексики подъязыка объемом одного текста обычно для составления ЧС применяются выборки одинакового объема из различных текстов данной тематики.

Идея рационализации словарного состава в целях обучения была выдвинута еще в XVII веке выдающимся чешским педагогом Яном Амосом Коменским и реализована им в словаре из 8 тыс. слов. Принципы отбора речевого учебного материала претерпели значительную эволюцию. При отборе лексических единиц в учебный словарь Г.Пальмер уже в XX веке использовал следующие принципы: 1) частотность; 2) структурную сочетаемость; 3) конкретность; 4) пропорциональность; 5) целесообразность (Карташков, 1992; с.6-7).

Частотность как критерий отбора лексических единиц в учебных целях получила теоретическое обоснование в работах Э.Торндайка и Г.Пальмера (Thorndike,1928; Palmer, 1968). В нашей стране вопросы отбора лексического материала получили широкое обсуждение (см. Фрумкина, 1967; Штейнфельдт, 1969; Марков, 1963). В исследованиях последнего времени можно встретить уже новые принципы (See: Summers, 1993; Морозенко, 1988; Карташков, 1992). Надежные выводы по словарям о лексике определенной предметной области, об авторских особенностях можно получить лишь в том случае, если соответствующий ЧС построен на текстах достаточно большой длины (Зубов, 1989, с.51-52).

Так, например, Р.Г.Пиотровский считает, что более или менее удовлетворительное распознавание смысла текста достигается тогда, когда в память машины вводится лексика, извлеченная их частотных списков, обеспечивающих покрываемость контрольного текста (текст, принадлежащий данному подъязыку, но не входящий в экспериментальную выборку) на 97-99%. Объем выборки, необходимой для вывода ЧС заданной покрываемости, равно как и объем получаемого словника, зависят с одной стороны, от строя языка, а с другой - от стилевой характеристики текста (Пиотровский, 1975; с.72).

О возможностях использования программного обеспечения

Вопрос о границе слова как единицы подсчета является одним из наиболее трудньж в лексикографии вообще и в статистической лексикографии в частности. Статистическому изучению могут быть подвергнуты только такие единицы, которые поддаются счету и имеют четкие формальные границы. В этом смысле следование принципу принятого рабочего определения слова (словоупотребления) как отрезка текста от пробела до пробела в работе по сегментированию текста в большинстве случаев оказывается оправданным (Сафьян, 1977, 144). Однако, в некоторых случаях реализация этого принципа влечет полное разрушение значения устойчивых сочетаний.

При обработке текста было решено расчленить словосочетания и фразеологические обороты, с тем чтобы избежать новых проблем определения границ сочетания, облегчить обработку текстовых данных на ЭВМ, сохранить однородность словника, обеспечить возможность отнесения этих единиц к определенной части речи, что является одной из особенностей ДСФХ полученного словаря. Мы посчитали это недопустимым. Поэтому практическая часть этой работы есть полный по словнику одноязычный словарь словоформ, включающий все служебные слова и имена собственные (ИС).

Не менее сложной оказалась проблема включения в корпус словаря ИС и сокращений. С одной стороны, они не представляют большого интереса в плане сравнительно-лексикологических исследований, лишь увеличивая объем работы над словарем. Они также дают минимум информации студентам.

С другой стороны, информативную значимость всех видов ИС для исследования индивидуального стиля автора трудно переоценить. И несмотря на то, что в нашей работе собственные имена не употребляются в функции нарицательных, мы считаем, что писательский ЧС должен учитывать все разновидности собственных имен, тем более, что в традиции англоязычной писательской лексикографии ИС всегда уделялось особое внимание (Подр.см: Карпова, 1989)

Эти соображения обусловили особенности загрузки информации в ЭВМ. 3.3 Особенности ввода текста

Ввод исходных текстов осуществлялся с клавиатуры компьютера. В настоящее время большое распространение получают компакт-диски и магнитные носители с записями художественных произведений, которые существенно упрощают процесс ввода. Применение сканера и программы графического распознавания сканиро 131 ванного текста значительно сокращает время, уходящее на загрузку в компьютер исходных данных, хотя и требует некоторых затрат времени для предредактирования с тем, чтобы учесть особенности восприятия компьютером текстовой информации. Эти проблемы снимаются при клавиатурном способе набора текста.

В нашем случае информация загружалась сплошным текстом без учета знаков препинания и заглавных букв, так как, в противном случае, машина считала и обрабатывала бы каждый знак препинания как отдельное словоупотребление.

В программе обработки текста предусмотрено, чтобы машина не воспринимала заглавные буквы как отличные от строчных. В ином случае, слова, стоящие в начале предложения и начинающиеся с большой буквы и такие же слова в тексте, начинающиеся со строчной, воспринимались бы как разные словоформы, причем слова, начинающиеся с заглавной буквы в алфавитном списке машина располагает выше слов, начинающихся с той же, но маленькой буквы.

Также составитель посчитал нужным подготовить многословные ИС и числительные к интегрированному восприятию машиной. Для этого в процессе набора текста ликвидировались пробелы между составными частями данных единиц, что затем было устранено при промежуточном редактировании в одной из баз данных.

Похожие диссертации на Лингвостатистический анализ художественного текста : На материале коротких рассказов Ф. С. Фицджеральда