Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Проблемы компьютерной лингвистики в текстах на персидском языке Мухсен Рахими

Проблемы компьютерной лингвистики в текстах на персидском языке
<
Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке Проблемы компьютерной лингвистики в текстах на персидском языке
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мухсен Рахими . Проблемы компьютерной лингвистики в текстах на персидском языке: диссертация ... кандидата филологических наук: 10.02.22 / Мухсен Рахими ;[Место защиты: Таджикский национальный университет - www.tnu.tj].- Душанбе, 2015.- 191 с.

Содержание к диссертации

Введение

ГЛАВА I. Основные понятия, относящиеся к использованию компьютерной лингвистики 18

1.1. Контроль и извлечение информации 20

1.2. Преобразование и перевод текстов 34

1.3. Использование компьютерной лингвистики в платформах системы электронного обучения 53

ГЛАВА II. Компьютерная лингвистика и платформы на персидском языке 70

2.1. Цифровые медиа и персидский язык 70

2.2. Системы электронного обучения на персидском языке 74

2.3. Вопросы письменности и грамматики персидского языка в электронных платформах 85

2.4. Изучение переводов сделанных машинными переводчиками слов и текстов 100

Заключение 171

Список иллюстраций 182

Список использованной литературы

Преобразование и перевод текстов

Компьютерная лингвистика имеет широкий масштаб, который затронул практически все области общего языкознания. Но несмотря на стремительное развитие и увеличивающееся применение компьютерных технологий, в персоязычном обществе эта отрасль используется меньше. Целю производителей программного обеспечения, связанного с человеческим языком, является применение знания специалистов этой области для расширенного использования новых технологий при производстве средств, основанных на искусственном интеллекте, которые обладали бы узлом познания человеческого языка и могли бы быть говорящими и слышащими. В том случае, когда отдаются голосовые или письменные команды, основанные на познании человеческого языка, а система используя комбинацию языка и компьютерных средств выполняет соответствующие команды, это является результатом достижений в области компьютерной лингвистики. Из этого следует, что в общей классификации этой отрасли представлены инновации для человеческого общества, большинство из которых представлены следующим образом:

Приведенные простые примеры применения этой эффективной междисциплинарной отрасли, свидетельствуют о положительном результате. Для первого образца способности ввода слова путем чтения текста, не так давно представленного в персидской версии, программное обеспечение было подготовлено до 2001 года компанией Microsoft. Английская версия этого программного обеспечения, которую можно было бесплатно активировать через опцию «speech» (речь) в меню сервис программы текстовый процессор Word Microsoft. Практическая функция компьютерной лингвистики в этом разделе включает в себя программное обеспечение, которое обрабатывает голос пользователя, преобразует его в символы и буквы, формирует слова и отображает их на странице. В каждой из этих категорий рассмотрены как вычислительные аспекты языка, так и аспекты его переработки с помощью компьютера, а полученный результат будет представлен в сочетании этих двух аспектов в виде звука или текста. Сегодня эти компоненты могут быть соответственно установлены в расширениях Windows. Другой пример этой технологии предоставлен в телекоммуникационных средствах, в частности как услуги голосовой почты, рациональные телефоны или мобильные наушники. Возможно более правильное определение в этой отрасли является компьютерная фонетика вместо лингвистики. Но по используемой здесь технологии после получения голоса говорящего и повторного его сопоставления с владельцем голоса, сохранив звук в виде голосовой команды, она реализуется через получение определенного числа либо открытия программы или других предусмотренных указаний. На сегодня также имеется бесплатная компьютерная версия таких программ, где возможно выполнение основных команд, таких как открыть, копировать и удалить на основе голоса в среде Windows.

Благодаря достижениям информатики и усилиям ученых в области лингвистики, сегодня мы являемся свидетелями распространения многочисленных программных приложений в области применения компьютеров для коррекции языковых структур. В данной главе указаны некоторые достижения в этой области. Данная работа проделана с целью исследования применяемости компьютерной лингвистики на фоне языка. В то же время представлены некоторые завершенные исследования относительно рассматриваемых областей персидского языка. Еще одним достижением в этой области, связаным с компьютерной лингвистикой, является поиск информации «Information Retrieval», включающий сложную технологию поиска и извлечения информации, данных, метаданных в различных информационных источниках, таких как базы документов, набор изображений, и всемирная паутина (веб).

С ежедневным увеличением объема информации, хранящегося в различных доступных ресурсах, процесс поиска и извлечения информации имеет особое значение. Эта информация может включать любые типы ресурсов, такие как текст, изображения, аудио и видео материалы. В отличие от базы данных информация, хранящаяся в больших источниках данных, таких как «Web» (веб) и их подгруппах, таких как социальные сети, не придерживается определенной структуры и в целом не имеет определенного и конкретного смысла. Цель информационного поиска в такой ситуации эта помощь пользователю найти нужную информацию из множества бесструктурной массы данных. К примеру, поисковые системы «Google», «Yahoo» и «Bing», имеющие огромное число пользователей, предоставляют самую полезную текстовую информацию, изображение, видео и т.д.

Использование компьютерной лингвистики в платформах системы электронного обучения

Аудитория первой группы данной классификации являются носители родного языка и объем вопросов от первичного уровня до более высокого изменчив. Но роль компьютеров в последующих выпусках услуг электронного обучения делятся на две различные аспекты:

Обучение с помощью компьютера CAT1 и обучение на основе компьютера СВТ2. Средства в этом разделе, из-за их более широкого применения, имеют возможность пересечения ограниченных географических пространств и естественно эти инструменты предназначены для изучения неродного языка в любой точке мира. В образовательных услугах, основанных на использовании небольших инструментов, таких как портативные мобильные телефоны, дело обстоит несколько иначе. Это имеет фундаментальное отношение к техническими достижениям и классифицируется в виде мобильного обучения (aHra.m_learning). Электронное обучение происходит с помощью очных и заочных методов обучения, в результате использование только этих инструментов не означает исключения традиционных методов обучения и в большинстве случаев, имеет статус

Согласно исследований Института оборонного анализа IDA1, проведенным в 90-х годах в Соединенных Штатах элетронное изучение языка уменьшает расходы и время, связанные с учебным курсом до одной трети от общепринятого. К сожалению, всесторонние и аргументированные исследования в данном случае отностельно персидског языка пока не проводились (19,43).

Сегодня персоязычные дети и в других странах увлеченно используют созданные средства, направленные на данную аудиторию языкового сообщества, и охватывающие некоторые аспекы изучения языка, связанных с его содержанием. Это означает, что восприятие ребенком первоначальных понятий в решении вариантов, содержащихся в электронном устройстве с текстом и изображениями, демонстрируется в связанных с ним концепциях образования. В повседневной жизни людей, компьютеры и электроные средства также играют жизненно важную роль, среди молодого и старшего поколения, мужчин и женщин, и во всех этих случаях люди подвергаются воздействию языков и аудиовизуальным эффектам передачи концепций.

Ценности электронного обучения наряду с традиционным преподаванием в плане содержания и процесса подлежат рассмотрению на основе следующих критериев. Содержание учебных курсов были весьма ограничены в традиционном обучении и это в то время, когда огромное количество информации в электронном методе может быт в распоряжении аудитории в качестве содержания занятия.

В традиционном методе учебный процесс однороден для всех лиц, несмотря на разные способности и интересы, в то время как в электронном может меняются в зависимости от предпочтений аудитории. Учебная среда (например, школа - колледж и т.д.), а также

С экономической точки зрения отсутствие человеческих ресурсов и офисного оборудования для создания организационной инфраструктуры, таких как образовательные учреждения и амортизационных отчислений и другие элементы в методе электронного обучения не встречаются. Этот метод в глобальной зоне стандартизирован знаком «е» перед термином «learning». Но сама буква дает более распространенный диапазон понятия, связанного с областью электронного обучения, и упоминув некоторые его приложения можно ярче иллюстрировать функции данного метода. Очевидно, что основная цель применения знака «е» в составе выражений «e-learning», является первой буквой слова «Electeronic» обозначающий электронную систему, но этой буквой также выражаются другие понятия, рассмотрение которых считаем уместным.

Вопросы письменности и грамматики персидского языка в электронных платформах

Среди исследуюмых словарей в 40% из случаев при представлении результатов поиска с применением специализированных и функциональных глоссариев, требуемая лексика извлекается и отображается у пользователья. Во время подбора эквивалентов эта функция имеет особенно широкое применение, которое «вполне очевидно» в словаре «Деххудо» в качестве ссылки.

Так как транскрипция всегда применялась специалистами как один из основных элементов лингвистики, для объяснения правильного лексического уровнья, необходимость акцентирования внимания на этом вопросе относительно предоставления результатов поиска представляется очевидным и необходимым. Однако, рассматривая преобладающие онлайновые словари, мы пришли к такому выводу, что только 4 случая (т.е. примерно 27%) всех словарей имеют такую особо важную возможность (Таблица 2). Это обстоятельство является обязательным, будь то в плане перевода лексики с персидского языка или наоборот, акцентирования внимания на котором, гарантирует правильное прочтение лексики неперсоязычными пользователями.

Глоссарийи в словарях являются устоявщимся лингвистическим эквивалентом для понятия «Glossory». Среди онлайн-словарей, подвергнутых исследованию словарь «Деххудо» является крупным специализированным глоссарием в области литературы и два толковых словаря «amdz» и «pss» являются специализированными глоссариями в области в бухгалтерского учета и информатики. Предположение того куда необходимо обратится инженеру промышленнику, врачу или другому работнику общества для получения в короткий срок ответа на свои специализированные вопросы гораздо более определяет необходимость разработки специализированных глоссариев для существующих словарей или составления специализированных онлайн-словарей (Таблица 2). Другой ощутимый момент в области использования разработанных бессвязных клавиатур для вставки требуемых слов обусловил очевыдность новых усилий. В последние годы для персоязычного пользователя при поддержке стандарта Юникод (utf-8) стали доступными персидские буквы.

Использование автономной клавиатуры не является убедительным понятием. Но идея отсутствия у неперсоязычного пользавателя в стране где нет доступа к персидской клавиатуре для обучения или распространения является совершенно очевидным. Таким образом разработка эксклюзивных графических клавиатур для онлайновой лексики кажется абсолютно необходимым и важным. Этот вопрос несоблюдается в трети исследуюмых словарей, а в остальных случаях не были решены из-за неощутимой необходимости по техническим ограничениям.

Среди всех словарей, подвергнутых исследованию в этом разделе в 4 случаях, после запроса смысла одна лексическая единица в ввиде представления для пользавателя. Эти слова с акцентом на грамматическую сущность имеют различные функции, которые оцениваются в составе предложения или фраз лишь в некоторых случаях. Применимость переведенных слов является необходимым и важным обстоятельством, о чем не упоминается в некоторых словарях, в том числе специализированном словаре «Деххудо».

Приведение литературных примеров в качестве техники для объяснения роли слова в составе предложения и её функции является одним из эффективных методов в использовании онлайновых словарей. Этот вопрос очевиден в некоторых рассматриваемых словарях и разработка этого метода является одним из основных требований для достижения большей применительности образцов онлайновых словарей. Простой но эффективный инструмент, кнопка изменения языка как стандартный шаблон для получения лексики исходного и целевого языка или иных языков, которые порой будут иметь различные эквиваленты, является ещё одной из исследуемых особенностей в онлайн-словарях.

Это обстоятельство соблюдается во всех онлайновых словарях и лишь в 3 случаях не рассматривается переводчиком нескольких языков (Таблица 2). Другим ощутимым моментом среди исследования онлайн-словарей является отсутствие надлежащего пользовательского интерфейса1 и наличие соответствующей графики.

Интерфейс должен идеально подходит для целей языкового расширения и быть достаточно простым и доступным, чтобы убедить нового пользователья использовать его. К сожалению, большинство исследуемых сайтов не поддерживаются иными языками кроме персидского для своего пользовательского интерфейса, что не несовместимо с миссией онлай-переводчиков и онлайн-словарей. Как будто эти сайты разработаны лишь для персоязычных пользователей, ишущих эквиваленты персидских слов из других языков, а не для других пользователей, которые ищут персидские эквиваленты на их языке.

Другим заслуживающим внимания моментом является чрезмерное использование обычных объявлений на страницах словаря, непринципиально влияющие на пространство словаря. Это обстоятельство, направленое на финансирование развития и поддержки этих сайтов, представляется необходимым, но поддержка со стороны бенефициаров этих сайтов, будет иметь более ценные результаты культурного характера, что делает очевидным значение государственных инвестиций в этой области для языкового сообщества.

В связи с увеличением использования цифровых инструментов вопрос развитие электронных программ с возможностью онлайн обновления на базе портативных версий находится на повестке дня разработчиков цифровых средств массовой информации. Мобильная версия словарей лишь в одном случае была произведена и представлена из исследуюмых словарей. Этот момент, несомненно, найдёт более высокого уровня развития в будущем. Но для расширения круга пользователей одним из средств является старый метод предоставления кодов HTML и Java основной программы для предоставления в других сайтах и инструментах при представлении родного сайта в качестве основного источника и инструмента обеспечивает возможность эксплуатации со стороны других сайтов.

Изучение переводов сделанных машинными переводчиками слов и текстов

Как можно видеть из сравнения, соотношение лексики машинного перевода выглядит следующим образом: 83,3% переведены правильно, не переведенные отсутствуют, а 33.36%) переведены неполностью.

Но во втором предложении: 65% слов переведены правильно, а 35%о неправильно. В то же время не переведённая лексика отсутствует. Опять же, наиболее очевидным возражением относительно перевода на уровне грамматики является отсутствие глагола во втором предложении. Отношения именной группы снова определены не правильным образом. На семантическом уровне настоящего перевода не может претендовать на приемлемость с точки зрения перевода сделанного человеком. Как наблюдается, большая часть машинного перевода не выполнена с легкостью, и не может представить реального смысла. Тем не менее, системы машинного перевода высокоэффективны для таких целей, как помощь начинающим переводчикам в ускорении перевода, и быстром преобразовании текста на двух языках. Чтобы проанализировать состояние стандартных переводов машинных переводчиков, необходимо более глубоко взглянуть на характер производительности этих двух переводчиков. Поскольку в обеих переводчиках используется один метод, основанный на языковом корпусе, в начале рассмотрим статус этого вида машинного перевода в целом. Одним из методов корпусной лингвистики является статистический метод машинного перевода. История использования статистических методов машинного перевода начинается с 1940 года, но из-за отсутствия доступных вычислительных возможностей и языкового корпуса, читаемого машиной, которые были препятствием на пути развития данного метода, не нашла широкого распространения. В последние десятилетия этот метод получил заметную популярность, в котором функция вероятного распределения слов в предложениях с использованием корпусов двух языков является целесообразным для достижения оптимального перевода. Другой метод, исходит из примеров машинного перевода, который также называют методом, основанным на устройстве памяти. Переводчик Гугл функционирует комбинируя эти два метода. В этом методе показываются результаты, основанные на использовании в качестве примера ранее переведенных предложений. В таких системах используются корпуса двух языков для источника информации своего языка, в которых (корпусах) хранится много примеров переведенных предложений на двух или нескольких языках в виде базы данных, используемых машинным переводчиком, такой перевод на исходном языке, наиболее близкий к введеному запросу, представляется как выходной на целевом языке. Лексическая сеть, используемая в данном методе, является слабым стороной в структуре многих систем обработки персидского языка.

Важную роль в этом играют наличие лексической сети этого языка в машинном переводе, поиск информации на одном и двух языках, реферирования документов, управления контентом в системах обучения, установка проверки синтаксической и семантической орфографии текста, понимание и создание персидских текстов, распознавание речи, преобразование текста в речь, синтаксический анализ, извлечения информации из текстов и многие другие функции. В отличие от других переводчиков текста в Гугл не отображается специализированная лексика, а лишь предлагаются некоторые её эквиваленты. Например, слово «method» имеет следующие варианты:

Ни для кого не секрет, что различные предложения имеют разные смысловые оттенки, которые вытекают из слов, содержащихся в них. Но алгоритм программ текстовых переводов, таких как Гугл, основан на изучении путем сопоставления посредством искусственного интеллекта данных и продвигается дальше при повторных составлениях предложений, а также поиске понятий, ориентированных на более адекватную лексику в соответствии с целевым языком. Этот вопрос очевиден при выборе различных понятий, повторяющихся в разных предложениях и отличающихся по результатам. Средствами переводчиков текстов являются моделирование предложений веб-среды, однако иногда в высокочастотных моделях веб-ресуров могут наблюдатся искажения, которые приводят к грубым ошибкам в переводе текстов.

Обнаружение отображаемых профилей для определения акцента на уровне лексики и их расположение в системах машинного перевода не соблюдается. Например, отсутствие выявления в программном обеспечении мотива использования больших символов, а также невосприятие условного отношения автора к привлечению внимания слушателя, путем использования имен собственных и акцента автора на них, или к конкретным фразам, несущим сообщение от автора читателю, в машинном переводе не включены, поэтому отрицается возможность акцента на вышеизложенную лексику с позиции читателя.

Межъязыковой поисковой конвертер. Другим методом в межъязыковом переводе является метод поиска информации между языками или межъязыковой поисковой конвертер. В межъязыковом информационно-поисковом методе, пользователь, минуя языковые барьеры, путем доступа к информации при использовании одного языка (исходного), переходит к объектам познания на другом языке (целевом) и находит новые источники информации. Этот метод применяется относительно информационно-поисковых целей, обработки естественного языка, компьютерной лингвистики, машинного перевода и автоматического реферирования. Чтобы понять эту концепцию, необходимо определение следующих основных положений данного метода: Исходный язык: Это язык, который обусловливает доступ к необходимой информации язык поисковых запросов

Похожие диссертации на Проблемы компьютерной лингвистики в текстах на персидском языке