Введение к работе
Актуальность проблемы.
Как известно, многие науки, непосредственно связанные с практическим применением, не позволяют в настоящее время строить исчерпывающие количественные модели для однозначного описания наблюдаемых процессов. К таким наукам относятся все науки гуманитарного цикла: биология, медицина, психология, социология и т.д., а такхэ геология, отчасти металлургия и некоторые другие. В то же время, практическое применение этих наук требует предсказания и/или объяснения существенных свойств изучаемых объектов. Принципиальное отличие этих наук от математических теорий, например, состоит в том, что они не позволяют построить систему аксиом, из которой можно было бы по.-уг-.т!: сколько-нибудь нетривиальные вывода, их отличие от точных наук в том, что опыты или в точности не могут быть воспроизведены (как в геологии и медицине) или воспроизведение сопряжено со значительными трудностями и результат зависит от очень большого числа факторов, которые невозможно исключить. В связи с этим огромную роль в этих науках играют эмпирические гипотезы: предположения о езкмосвязях, взаимозависимостях свойств изучаемых объектов. Эти гипотезы получзются в результате индуктивного обобщения ряда наблюдений. Использование ЭВМ позволяет ускорить этот процесс, использовать опыт, накопленный ра?ннми исследователями, полнее учитывать а ьыяьлять имеющиеся. в реальных данных взаимосвязи.
При автоматическом поиске гипотез, зависимостей в эмпирических данных исходные данные обычно представляются в
виде матрицы, вItотop^ff^трткa^^^aнш^e-чтc-^ДIЮмy__J2ьeJ?тxL столбец - значения одного и того же признака у всех объектов. Некоторый столбец в этой матрице выделяется как целевой, остальные считаются описательными. Требуется найти некоторые зависимости между целевым признаком и описательными.
В этом направлении существует очень большое число исследований. Предложено огромное разнообразие методов и приёмов автоматического выявления зависимостей в научных данных. Однако в каадом (или почти в каждом) случае остаются три принципиальных и взаимосвязанных вопроса: насколько полученная зависимость является существенной для исследуемой области, какова может быть научная интерпретация полученного результата, и каково прогностическое значение полученной гипотезы. Другими словами, большинство существующих методов подходят к выявлению зависимостей формально, не учитывают содержательную специфику задачи и эпистемологические требования, предъявляемые к научным гипотезам. В тех случаях, когда требования конкретно-научной логики явно учитываются (как в ДСМ методе,' например) предъявляются часто чрезмерно жёсткие требования к исходным данным.
Целями диссертационной работы являются формулировка новых подходов к построению эмпирических гипотез по матрице данных в соответствии с требованиями теории научного познания к научным гипотезам и с содержательными особенностями исходных данных, построение и исследование математических методов решения этих задач, а также создание специального програмного обеспечения для удобного применения разработанных математических методов в комплексе для решения практических задач.
Методы исследования. В работе использовались метода прикладной комбинаторики, статистического- анализа, алгебры логики, распознавания образов.
Научная новизна работы. В диссертации предложены три новых подхода .к построению содержательных, оптимальных эмпирических гипотез. Даны три формализации задачи построения оптимальных гипотез в зависимости от типов данных и целей исследования. Для каждой из этих задач разработаны алгоритмы, исследована их вычислительная сложность, предложены модификации этих алгоритмов, позволяющие ускорить работу во многих случаях. Создан пакет програш?, в котором реализованы разработанные диссертантом метода построения оптимальных гипотез и ряд других методов анализа данных.
Практическая ценность работы. Разработанные в диссертации методы построения оптимальных гипотез по матрице данных использовались исследователями в различных организациях для решения большого количества слабо формализованных медицинских, социальных и санитарно гигиенических задач. Предложенные методы позволяют углубить исследование, получать качественно новые содержательные научные и важные практические выводы. Разработанный пакет программ ускоряет и существенно упрощает исследование.
Реализация результатов работы. Созданный пакет программ внедрён в Медицинском научном центре г. Екатеринбурга, в Свердловском областном медицинском информационно вычислительном центре, в Ереванском медицинском информационно - вычислительном центре, в Екатеринбургском филиале МНТК "Хирургия глаза".
Апробация результатов работы. Основные результаты докладывались на семинарах в Институте проблем управления, ВИНИТИ, Институте математики и механики УрОАН, Московской городской конференции Комплексного совета по проблеме "Кибернетика",- на Всесоюзной научно-технической конференции "Вопросы разработки и внедрения радиоэлектронных средств при диагностике сердечно-сосудистых заболеваний" (Свердловск, I984) на Научно - практической конференции "Математические методы в медицине и биологии" (Свердловск, 1984), на общеинетитутской конференции "Применение математических методов в медицине" Медицинского научного центра (1993, Екатеринбург).
Публикации. Непосредственно по теме диссертации опубликовано 8 научных работ, в том числе 5 статей.
Структура и объем диссертации. Диссертация состоит из введения, 6 глав и заключения, изложенных на І36 страницах* Список литературы имеет 62 наименования.