Введение к работе
Актуальность темы. Использование передовых информационных технологий в условиях интенсивного развития рыночных отношений становится одним из наиболее важных, а часто и решающих факторов, определяющих эффективность управления предприятием. В организациях все чаще внедряются современные информационные системы, чтобы обрабатывать внешние и внутренние потоки информации, осуществлять анализ, прогнозирование и принятие управленческих решений. Практика использования указанных систем стала нормой для современного предприятия.
Мировой опыт показывает, что системообразующим элементом управления предприятием является информационно-аналитическая деятельность, осуществляемая информационно-аналитическими подразделениями (ИАП). Начиная производство, нужно провести информационно-аналитическое маркетинговое исследование сектора рынка и региона выбранного бизнеса, ответить на вопросы о необходимых трудовых ресурсах соответствующей квалификации, соотношении спроса и предложения на планируемую к выпуску продукцию, сложившемся на рынке ценообразовании, требованиях к качеству продукта, законодательной базе, регламентирующей данный вид деятельности, будущих конкурентах, возможных партнерах и многом другом.
Анализ указанной информации предполагает поиск источников данных, наиболее полно и объективно отражающих реальные рыночные процессы. Основными видами такой информации являются статистические, коммерческие, биржевые, финансовые, профессиональные и научно-технические данные. Для перечисленных категорий текстовая информация является преобладающим видом, требующим применения соответствующих технологий обработки. Наиболее полным, доступным и актуальным источником такой информации являются потоки профессиональной информации, циркулирующей на предприятии (отчеты, аналитические записки, сопроводительные документы и т. д.), публикации СМИ, обзоры и подборки, распространяемые по подписке, а также в сети Интернет. Значительные объемы информационных потоков делают невозможным непосредственное ознакомление человека с каждым текстом и тем более глубокое осмысление его содержания. Отбор релевантной информации сопряжен со значительными затратами временных и трудовых ресурсов. Эти обстоятельства затрудняют принятие обоснованных и своевременных решений, в основу которых должно быть положено изучение всего массива информации, отражающей ситуацию в аспекте поставленной руководством задачи. В связи с этим разработка и внедрение на предприятии информационно-аналитических систем и технологий, ориентированных на автоматизированную обработку текстовой информации на основе методов интеллектуального анализа данных (ИАД), являются актуальной задачей.
В существующих информационно-поисковых (ИПС) и информационно-аналитических системах (ИАС) обработки текстовой информации в достаточно полной мере реализованы следующие функции: аннотирование, выделение объектов, понятий, кластеризация, классификация, ответ на запросы, тематическое индексирование, поиск по ключевым словам и практически не реализована функция семантической фильтрации. Задача фильтрации массива исходной информации в целях предоставления пользователю ограниченного объема документов в настоящее время требует значительных трудозатрат высококвалифицированных специа-
листов. Перечисленные аргументы и определяют актуальность темы и научной задачи диссертационного исследования, заключающейся в разработке комплекса моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение алгоритмической релевантности (точности и полноты) результатов выполнения поисковых запросов в информационно-аналитических системах обработки текстовой информации ИАП предприятия.
Объектом исследования являются информационно-аналитические системы обработки текстовой информации ИАП предприятия, в качестве предмета исследования выступают модели, методы и алгоритмы интеллектуального анализа текстовых документов, обеспечивающие их поиск и ранжирование в соответствии со степенью семантического подобия к эталонному тексту.
Цель диссертационной работы - разработка моделей и алгоритмов семантической фильтрации текстовой информации, обеспечивающих повышение эффективности информационного поиска за счет увеличения точности и полноты, а также сокращения времени отбора полезной информации за счет автоматизации рутинных функций.
Для достижения поставленной цели решены следующие задачи:
-
Выбор и обоснование методов семантического анализа текстовой информации в информационно-аналитических системах.
-
Моделирование процесса семантической фильтрации текстовой информации.
-
Разработка и исследование структурных решений и управляющих алгоритмов, обеспечивающих выполнение семантической фильтрации текстовой информации заданной тематики.
-
Разработка структурной схемы и реализация прототипа автоматизированной системы семантической фильтрации текстовой информации в информационно-аналитических системах ИАП предприятия.
Методы и средства исследования. При проведении исследований использовался математический аппарат теории вероятностей, математической статистики, марковских случайных процессов, распознавания образов, подобия, компьютерной лингвистики, теории систем и системного анализа, планирования экспериментов и исследования операций.
Достоверность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечивается за счет сочетания формальных и неформальных методов исследования; непротиворечивости и воспроизводимости результатов, полученных теоретическим путем; применения апробированного математического аппарата; использованием методов, адекватных природе изученных явлений; верификации отдельных результатов в рамках известных теоретических конструкций, широко используемых в теории сложных технических и информационных систем; проведения оценки адекватности разработанной модели.
Научная новизна диссертационного исследования состоит в том, что:
-
Предложен комплекс моделей семантической фильтрации текстовой информации, отличающийся применением многоаспектной процедуры, учитывающей структурное, контекстное и внеконтекстное подобие, и сокращающий время выделения полезной информации.
-
Разработан комплекс алгоритмов расчета величины подобия текстов, отличающийся использованием нового критерия оценки структурного подобия в виде
линейной свертки коэффициентов, отражающих смысловую близость и структурную удаленность текстов, а также применением аппарата марковских процессов и специальной меры расстояния для решения задачи сравнения текстов.
3. Синтезирована оригинальная структура информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, функционирующей в рамках единого алгоритма процедуры многоаспектного анализа текстовой информации, параметры которой определяются лингвистически-статистическими характеристиками текстов заданной тематики.
Основные положения, выносимые на защиту:
-
Комплекс моделей семантической фильтрации текстовой информации, позволяющий определять степень сходства анализируемых документов с эталонным текстом.
-
Комплекс алгоритмов семантической фильтрации текстовой информации, предназначенный для внедрения в информационно-аналитическую систему предприятия.
-
Структурная схема информационно-аналитической системы обработки текстовой информации с функцией семантической фильтрации, обеспечивающая существенное ускорение решения задач по обработке текстовых документов на предприятии.
Практическая значимость работы обусловлена доведением разработанных алгоритмов до реализации в виде программных модулей с возможностью их практического использования в составе информационно-поисковых и информационно-аналитических систем обработки текстовой информации заданной тематики.
Реализация результатов работы. Результаты исследований реализованы, внедрены и используются в виде комплекса моделей и алгоритмов семантической фильтрации текстовой информации в НИЦ ФСО России и Орловском государственном техническом университете, что подтверждено соответствующими актами.
Получено свидетельство о государственной регистрации программ для ЭВМ "Лексический анализатор предложений "WordParser" (№ 2004610984 от 21.04.2004 г.), "Программа семантической фильтрации текстов" (№ 2009612007 от 20.04.2009 г.) и "Система контент-анализа новостного потока RSS «RSS_reader»" (№ 2010610833 от 26.01.2010 г.).
Апробация работы. Основные результаты работы докладывались, одобрены и опубликованы на 6-й Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, 3-й Всероссийской научной конференции "Проблемы создания и развития информационно-телекоммуникационной системы специального назначения" (г. Орел, 2003 г.), III Международной научно-технической конференция "Информационные технологии в науке, образовании и производстве" (г. Орел, 2008 г.), отраженных в списке публикаций.
Публикации. По теме диссертации опубликовано 9 работ, в том числе 3 статьи в рецензируемых журналах, входящих в перечень ВАК Минобрнауки России, тезисы 2 докладов и выступлений на научно-технических конференциях и семинарах, 4 свидетельства о государственной регистрации программ для ЭВМ.
Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников из 130 наименований и четырех приложений. Диссертация изложена на 190 страницах машинописного текста, содержит 45 рисунков, 33 таблицы.