Содержание к диссертации
Введение
1. Обработка экспериментальных данных в автоматизированных системах научных исследований II
1.1. Особенности автоматизированных систем II
1.2. Проблемы проектирования АСНИ. 13
1.3. Методы анализа многомерных данных на основе построения их графических образов. 19
1.4. Основные задачи исследования. 30
2. Метод графического группирования для анализа числовых таблиц данных 33
2.1. Метод графического группирования (МГТ). Этап графического представления данных в МІГ 33
2.2, Графическое представление таблиц экспериментальных данных как задача нелинейного программирования... 38
2.3. Графическое представление матриц близости 45
2.4. Способы задания начального приближения в процедуре оптимизации критерия рассогласования 54
2.5. Алгоритмы графического представления экспериментальных данных 60
2.6. Математическая постановка задач анализа экспериментальной информации как задач группирования данных по графическому образу 73
2.7. Методики применения МІГ и алгоритмов графического представления данных 81
Выводы 86
3. Результаты исследования алгоритмов графического представления на модельных данных. 89
3.1. Модели исходных данных 89
3.2. Исследование алгоритмов графического представления на моделях табличного типа 91
3.3. Исследование алгоритмов графического представления на структурных моделях 104
Выводы 122
4. Результаты исследования метода графического группирования на реальных экспериментальных данных 123
4.1. Решение задач классификации 126
4.2. Выбор информативных признаков по алгоритмам графического представления 128
4.3. Оценка текущего состояния объекта исследования... 137
4.4. Исследование данных физиологического обследования операторов как пример решения комплекса частных задач 144
4.5. Особенности обработки экспериментальных данных по МГГ 152
4.6. Сравнение МІГ с другими методами обработки много мерной информации 156
Выводы. 176
Заключение 177
Литература 180
- Особенности автоматизированных систем
- Метод графического группирования (МГТ). Этап графического представления данных в МІГ
- Модели исходных данных
- Решение задач классификации
Введение к работе
Интенсивное развитие средств вычислительной техники способствовало созданию и распространению автоматизированных систем научных исследований (АСНИ), нашедших применение в различных областях науки и техники, например, при технологическом контроле качества изделий, испытании созданных промышленных конструкций и агрегатов, при разработке процедур технической и медицинской диагностики и т.п.
Многообразие задач, возникающих перед исследователем в таких системах, и многочисленность существующих методов их разрешения при отсутствии сравнительной характеристики этих методов выдвигают при проектировании АСНИ проблему поиска методов оценки экспериментальных данных, отличающихся простотой аппаратурно-программной реализации и позволяющих решать широкий круг практических задач в прикладных исследованиях. При этом особая роль принадлежит форме представления исследуемых данных и результатов их обработки, которая, как показывают исследования [14], должна быть ориентирована на образное "визуальное" мышление человека, включенного в контур функционирования АСНИ. В этой связи разработка способов представления исследуемой информации в виде некоторого графического образа, направленных на активизацию мыслительной деятельности человека и позволяющих решать разнообразные задачи практических исследований в АСНИ, становится актуальной задачей. Ее актуальность подчеркивается также и тем, что практическое использование подобных методов и алгоритмов во многих случаях приводит к более эффективным и точным результатам экспериментальных и научных исследований.
Так как данные, обрабатываемые в АСНИ, как правило, мо- гут быть сведены к форме числовых таблиц, то объектом исследования является числовая таблица экспериментальных данных. Известно, что результаты ее преобразования, предъявляемые человеку-исследователю, кодируются числом (или набором чисел), графическим изображением и его формой, размерами, цветом, яркостью, направлением и длиной линий, точками и графиками функций и т.п. Преобразование числовой таблицы к изображению, состоящему из совокупности точек на экране видеотерминала, отличается от остальных простотой аппаратурной реализации и позволяет использовать способность человека к зрительному анализу структуры исследуемых данных, так как в этом случае исследователь сводит представление о близости элементов выборки (объектов, признаков) к пространственной близости соответствующих им точек.
Однако использование в настоящий момент для такого построения методов главных компонент [2,94], факторного анализа [2,88], distant -алгоритмов [58] и других [84,88,94,101] приводит к анализу структуры исследуемой таблицы данных по графическому образу ее промежуточного преобразования.
Цель настоящей диссертационной работы состоит в разработке метода группирования элементов числовой таблицы данных по ее графическому образу, позволяющего решать разнообразные задачи исследования экспериментальных данных в АСНИ, и способа построения этого образа в виде двумерного изображения из точечных скоплений. Для достижения этой цели были поставлены и решались следующие задачи: разработка метода преобразования числовой прямоугольной таблицы данных в графический образ, представляющий собой двумерное изображение элементов таблицы в виде точечных скоплений, оценка применимости предложенного метода к преобразова- нию квадратных симметричных матриц, вычисляемых по таблицам экспериментальных данных; разработка специальных алгоритмов построения графических образов таких матриц; разработка алгоритмического подхода к решению задач анализа и оценки экспериментальных данных на основе использования предложенных способов графического представления числовых таблиц; исследование возможностей разработанных алгоритмов графического представления на математических моделях реальных данных; проверка эффективности предложенных метода и алгоритмов при решении прикладных вопросов анализа данных в АСНИ.
Диссертационная работа состоит из введения, четырех разделов, заключения и приложения, изложенных на 125 страницах, содержит 43 рисунка, 19 таблиц. Список литературы включает 105 наименований.
Первый раздел посвящен рассмотрению особенностей АСНИ, проблем их проектирования, анализу методов и алгоритмов обработки числовых таблиц данных, ориентированных на использование способности человека к зрительному восприятию и оценке результатов обработки по графическим образам таблиц.
Во втором разделе предложена двухэтапная процедура анализа экспериментальных данных, названная методом графического группирования. Процедура включает этапы: графическое представление двумерных таблиц числовых данных и анализ человеком получаемого графического образа. Для решения первого этапа предлагаются и теоретически исследуются способы графического представления двумерных числовых таблиц экспериментальных данных и вычисляемых по ним матриц близости в виде двумерного изображения из скопления точек, методы построения начального приближе- ния для итерационной процедуры минимизации критерия рассогласования табличного и графического представлений исследуемых данных, формулы для расчета этого критерия, способ задания корректирующего фактора, определяющего шаг изменения координат точек на плоскости в процессе минимизации критерия рассогласования. В этом же разделе рассматривается подход к решению различных исследовательских задач на основе метода графического группирования.
В третьем разделе предлагаются математические модели реальных данных и приводятся результаты исследований алгоритмов графического представления числовых таблиц, проведенных на основе этих моделей.
Четвертый раздел посвящен результатам исследования предложенного метода и алгоритмов на реальных экспериментальных данных.
В приложении приводятся акты внедрения и практического использования основных результатов диссертационной работы.
В процессе выполнения диссертационной работы получены следующие основные научные результаты, которые выносятся на защиту: предложена двухэтапная процедура анализа данных (метод графического группирования), состоящая из этапа графического представления данных и этапа оценки получаемого изображения человеком-исследователем, отличающаяся от известных способом преобразования числовой таблицы в графический образ и позволяющая решать на ее основе разнообразные задачи практических исследований; предложен и разработан новый способ построения графического образа двумерной числовой таблицы в виде изображения на плоскости точечных скоплений, в котором в отличие от известных способов присутствуют одновременно точки, соответствующие объектам (или их состояниям), и точки, соответствующие признакам, описывающим эти объекты (состояния). Такая форма предъявления экспериментальных данных исследователю отличается простотой аппаратно-программной реализации и ориентируется на образное "визуальное" мышление человека; разработан комплекс алгоритмов и программ графического представления числовых прямоугольных таблиц данных и квадратных симметричных матриц близости на алгоритмическом языке ФОРТРАН для ЭВМ EC-I022, ЕС-ЮЗЗ, СМ-4, что позволило автоматизировать первый этап метода графического группировании -этап "визуализации"; синтезирован комплекс математических моделей числовых данных с заранее заданными свойствами, на которых проведено исследование предложенных алгоритмов, позволившее оценить вид введенных критериев рассогласования табличного и графического представлений, способы задания начального приближения и корректирующего фактора при оптимизации выбранного критерия рассогласования, эффективность дополнительного преобразования квадратных симметричных матриц близости и выбор мер близости при их построении; предложена методика решения практических задач анализа экспериментальной информации на основе разработанных метода графического )визуального) группирования и комплекса алгоритмов и программ графического представления числовых таблиц.
Предложенный метод графического группирования данных по их графическому образу, способ и алгоритмы графического представления применялись при обработке данных исследования сердечно-сосудистой системы человека и животного в Институте сердечно-сосудистой хирургии им.А.Н.Бакулева АМН СССР, морфо- метрических данных в Институте акушерства и гинекологии АМН СССР, данных исследования состояния и работоспособности человека-оператора в Государственном научно-исследовательском институте гражданской авиации, при оценке уровня функционального состояния оператора во ВНИИРА, обработке экспериментальных данных в I ДШ им.акад.И.П.Павлова, ЛСГШ, ВНИИП и др.
Теоретические и экспериментальные результаты, полученные в диссертации, использовались при выполнении плановых и хоздоговорных научно-исследовательских работ по комплексным программам Минвуза РСФСР (Биотехнические проблемы медицинской техники, физиология труда) и Научного Совета по комплексной проблеме "Кибернетика" АН СССР (Биотехнические системы, Автоматизация научных исследований) в соответствии с постановлениями ГКНТ на кафедре биомедицинской электроники и охраны среды ЛЭТИ им. В.И.Ульянова (Ленина) (№№ гос.регистрации 76033074, 75059933, 5034490), а также при выполнении работ по договору между ЛЭТИ им.В.И.Ульянова (Ленина) и Высшей инженерной школой г.Дрездена (ГДР) на тему: "Разработка методов и технических средств медицинской диагностики и автоматической обработки медицинской информации на ЭВМ" (план СЭВ КНТС 20.К (1-34)) и договоров о научном сотрудничестве с другими организациями.
Основные положения и результаты диссертационной работы докладывались на ІУ Всесоюзном симпозиуме по эффективности и надежности систем "человек-техника" (Ленинград, 1975), Всесоюзном научно-техническом совещании "Принципы построения систем автоматизации научных исследований" (Москва, 1975), Республиканской научно-технической конференции "Достижения радиоэлектронной медицинской аппаратуры в X пятилетке" (Львов, 1977), Всесоюзной научно-технической конференции "Радиоэлектроника, физика и математика в медицине и биологии" (Новоси- бирск, 1978), Всесоюзной научно-технической конференции "Физиологическая кибернетика" (Москва, 1981), Всесоюзном семинаре "Клиническое применение мониторно-компьютерных систем и математическое моделирования в кардиохирургии" (Москва, 1982), Всесоюзной школе молодых ученых по биомедкибернетике (Ленинград, 1982), Всесоюзной конференции "Теория адаптивных систем и ее применения" (Ленинград, 1983), Республиканской научно-технической конференции "Метрология - службам здоровья" (Батуми, 1983). Некоторые результаты были представлены на 5 Европейском анатомическом конгрессе (Прага, 1979). Доклад на Всесоюзной школе молодых ученых по биомедкибернетике (Ленинград, 1977) отмечен дипломом Научного Совета по комплексной проблеме "Кибернетика". Материалы работы обсуждались на ежегодных научно-технических конференциях профессорско-преподавательского состава ЛЭТИ им.В.И.Ульянова (Ленина) в 1978-1984 гг. и на семинарах в организациях и предприятиях, осуществивших внедрение диссертационной работы.
Созданные пакеты прикладных программ зарегистрированы в Государственном фонде алгоритмов и программ (номера гос.регистрации 1004464, П004550, П0055І7, П0055І8).
По теме диссертационной работы опубликовано 19 печатных работ и I работа на правах рукописи.
Работа выполнена на кафедре биомедицинской электроники и охраны среды Ленинградского ордена Ленина электротехнического института им.В.И.Ульянова (Ленина). - II -
Особенности автоматизированных систем
Широкое распространение в настоящее время в различных областях народного хозяйства получили автоматизированные системы различного назначения, объединяющие в своем составе человека-исследователя и вычислительные комплексы.
Главной особенностью автоматизированных систем является наличие каналов взаимодействия человек-ЭВМ в течение процесса сбора, обработки, анализа регистрируемой информации или управления технологическим процессом, экспериментом. При этом человек выступает как лицо, принимающее решение, а ЭВМ выполняет рутинные вычислительные операции, предоставляя в распоряжение исследователя значительные объемы как долговременной, так и оперативной памяти и свое быстродействие. А обратная связь от ЭВМ к исследователю позволяет в процессе их взаимодействия использовать опыт, интуицию человека, его способность к обобщению, принятию решений в неопределенных ситуациях, выбору программы действий.
В зависимости от назначения выделяют: информационно-поисковые системы (ИПС) для сбора и хранения информации, автоматизированные системы обработки данных (АСОД), автоматизированные системы управления (АСУ). Характерной чертой этих систем является наличие подсистемы обработки результатов. Это типично для АСОД и АСУ, но во многих последних реализациях ИПС, являясь справочными системами или системами создания и управления базой данных и обеспечивая исследователя необходимой информацией [33, 78,86J, производят не только преобразование регистрируемых данных, но и их предварительную обработку (вычисление среднего, дисперсии, коэффициента корреляции, построение гистограмм и др.) [53,87,102].
Другой особенностью автоматизированных систем является их узкая специализация, вызванная распространением подобных систем в специальных областях исследований (например, при диагностике легочных, кардиологических заболеваний) [ 1,9,30,63,104]. Но в настоящее время делаются попытки создания автоматизированных систем общего назначения, решающих широкий круг задач, но на базе ограниченного числа методов и, в основном, среди АСОД и ИПС. К ним можно отнести системы статистического анализа многомерных наблюдений SAS и GENSTAT [85], системы обработки и анализа биомедицинских данных в BMD и BMDP[98] и другие [34J, которые конструируются таким образом, чтобы обеспечить взаимодействие исследователя с ЭВМ [28J.
Только АСУ по-прежнему отличаются узкой специализацией, хотя среди них выделяют два основных типа: АСУ технологическими процессами в различных отраслях народного хозяйства и АСУ экономического и административного назначения. Отличительная особенность АСУ - многоступенчатость (иерархичность) управления, которая обеспечивает экономичность структуры и устойчивость функционирования системы. Иерархичность отражается в построении системы, когда управление исполнительными органами осуществляют подсистемы низшего уровня, контролируемые подсистемами более высокого уровня, которые сами контролируются, и т.д. Математическое обеспечение АСУ шире, чем других систем, так как включает программы описания технологических процессов или моделей различных отраслей народного хозяйства, программы прогнозирования их функционирования, когда выбирается тактика управления [66], и программы управления или воздействия, когда исследователь сам посредством ЭВМ включается в процесс управле - ІЗ ния[І04].
К классу автоматизированных систем относятся автоматизированные системы научных исследований (АСНИ). Весьма перспективно использование таких систем при решении задач классификации экспериментальных данных, формирования описаний групп объектов или их состояний, выбора стратегий поиска и т.п. В качестве подсистем в АСНИ входят автоматизированные комплексы анализа данных, а объектом исследования являются экспериментальные данные, наиболее часто представимые в виде двумерных числовых таблиц. В АСНИ используются широко распространенные методы преобразования, обработки и анализа числовой информации, они отличаются многочисленностью и разнообразием. Построение системы на базе одного или группы методов предпочтительнее с позиций простоты реализации, но требует серьезного обоснования выбранных алгоритмов по сравнению с отвергнутыми и накладывает ограничения на структуру вычшшительного комплекса, состав его математического обеспечения. Поэтому многообразие целей и задач, решаемых исследователем в подобных системах, и наличие большого количества методов обработки и анализа числовых экспериментальных данных можно тоже рассматривать как особенность существующих АСНИ.
Метод графического группирования (МГТ). Этап графического представления данных в МІГ
Назовем метод анализа числовой экспериментальной информации по ее графическому образу, предъявляемому исследователю на экране видеотерминала в виде изображения, методом графического группирования (МІГ). Он включает 2 этапа: этап "визуализации" числовых данных в виде некоторого графического образа (этап графического представления) и этап анализа этого образа человеком.
Рассмотрим процедуру графического представления на примере анализа матрицыМ . Пусть М = {(т ){\ - матрица чисел, состоящая из N строк и L столбцов, структурой которой мы интересуемся. Под структурой мы будем понимать упорядоченность (группируе-мость) элементов матрицы по строкам и столбцам одновременно.
Графическое представление матрицыМ в пространстве Rl (I = =1,2,3) есть изображение ее элементов в виде точек, причем рас-стояния D = {(о\))і }{ между точками-строками и точками-столбцами с достаточной степенью близости соответствуют значениям Щд, L=l,Nr,j=i,Lr из М . Различие двух представлений (исходного М и графического Ъ ) оцениваем по функционалу рассогласования.
Матрица М при работе с реальными многомерными экспериментальными данными представляет собой либо таблицу экспериментальных данных (ТЭД), либо матрицу близости (МБ), широко используемую в кластер-анализе [2,22,25,733.
ТЭД есть матрица значений признаков (свойств), измеренных на объектах. Благодаря измерению некоторых свойств Р на самом множестве объектов W задаем отношения. В ТЭД Х ЦрД N строк соответствуют объектам, L столбцов - признакам, а элемент х -значению j -го признака у L-го объекта.
Модели исходных данных
Как показано в разд.2, многие из задач анализа экспериментальной информации могут быть сформулированы как задачи группирования и решены по методу графического группирования. Хотя в настоящее время предложено большое число алгоритмов, используемых на этапе графического представления [52,58,77,79,83,91], почти всегда на практике нет достаточных сведений об условиях и области применения этих алгоритмов, ошибках при их использовании, нет способов определения лучшей процедуры. Исследования возможностей предлагаемых алгоритмов, как правило, проводят по одному из направлений:
- создание классификационной схемы существующих методов и определение в этой схеме места разрабатываемого алгоритма [18,64];
- определение условий допустимости процедур обработки, исключающих явно плохие алгоритмы, но часто не касающихся вопросов поиска лучшего для решения поставленной задачи метода [82];
- разработка моделей исходных данных с заранее заданными свойствами и изучение на них характеристик алгоритмов [58,60].
Последнее направление является более перспективным, так как позволяет без экспериментирования на реальном объекте исследования создавать имитировать модели изучаемых данных и решаемых задач, помогающие объяснить, понять или усовершенствовать алгоритм обработки.
Для изучения свойств алгоритмов графического представления можно использовать модели многомерных данных [58]. Известные модели в виде многомерных геометрических фигур [58] не позволяют изучить ряд свойств разработанного комплекса алгоритмов, так как создавались только с целью исследования изменения структуры (взаимного положения групп) многомерных данных при отображении на плоскость. Однако подобный тип моделей был использован нами при моделировании различных видов задач, решаемых исследователем: группирование данных при наличии удаленных друг от друга групп объектов, пересекающихся групп или групп, для которых внутригрупповые расстояния сравнимы с межгрупповыми, и т.д. Этот тип моделей назван структурным, так как базируется на концептуальных представлениях человеком структуры данных, что помогает понять механизмы алгоритмов графического представления.
Наряду с этим были использованы математические модели в виде таблиц чисел, позволяющие показать применимость методов графического группирования к упорядочению элементов исследуемых таблиц и иллюстрирующие сложность анализа ТЭД по их исходным представлениям по сравнению с графическим. Этот тип моделей данных назван табличным и базируется на механизмах зрительного восприятия человеком таблиц, символов, цифр,
Решение задач классификации
Решение задачи классификации по МГГ проиллюстрируем на онкологических данных и данных исследования работы регулятора подачи топлива дизель-генератора тепловоза.
Онкологические данные получены в результате проведения операций по поводу злокачественной опухоли. Состояние каждого пациента (объекта) описывалось набором значений 17 признаков. Обучающая выборка состояла из 30 объектов и была разбита врачами на группы "благоприятного" и "неблагоприятного" прогноза. В каждой группе было по 15 объектов. Требовалось проверить классификацию обучающей выборки.
Результаты применения алгоритмов графического представления GRAB1 , GRADl&i и GRAD1 к обучающей выборке (0В) приведены на рис.4.2. Две группы объектов, полученные при отображении 0В по алгоритму GRAM (рис.4.2,а), соответствуют врачебному разбиению. Близкие результаты дает алгоритм GRADIBi (рис.4.2,б). В этом случае группы объектов на картине графического представления более отчетливы, но объекты №№ 1,4,5,10 из группы "благоприятных" прогноз попадают в группу "неблагоприятный" прогноз. Из рис.4.2,а видно, что эти объекты близки к границе раздела двух групп. Это же наблюдается на рис.4.2,в, где представлены результаты применения к 0В алгоритма GRAD1 Группы объектов "визуально" различимы, а объекты №№ 1,4,5,10 по признакам №№ 1,16 близки к группе "неблагоприятный" прогноз, так как расстояния от них до точек-признаков №№ 1,16 сравнимы с расстояниями до этих точек-признаков от объектов группы "неблагоприятный" прогноз. Из рисунка видно, что признаки №№ 1,16 "навязывают" разбиение объектов, не соответствующее врачебному. Вопрос выбора признаков, информативных для распознавания, рассматриваются в следующем подразделе.