Содержание к диссертации
Введение
ГЛАВА 1 Анализ подходов и методов поддержки принятия решений при анализе уровня техники для патентных заявок 10
1.1 Описание процесса анализа уровня техники для патентных заявок 10
1.2 Структура патентной заявки и требования к ее оформлению 17
1.3 Существующие открытые базы патентов и автоматизированные системы поддержки принятия решений при анализе уровня техники для патентных заявок 21
1.4 Автоматизированные методы анализа уровня техники для патентных заявок 26
1.4.1 Автоматизированные методы поиска патентов аналогов 26
1.4.2 Автоматизированные методы поиска патентных трендов. 37
1.4.3 Другие автоматизированные методы анализа текстов патентных документов 42
1.7 Выводы 43
ГЛАВА 2 Автоматизированные методы анализа уровня техники для патентных заявок 45
2.1 Методика поддержки принятия решений при анализе уровня техники для патентных заявок 45
2.2 Предобработка патентной документации 50
2.3 Выделение ключевых фраз из текста патентного документа 54
2.4 Сокращение множества поиска 60
2.5 Поиск патентов аналогов 66
2.6 Выявление патентных трендов 69
2.7 Выводы 73
ГЛАВА 3 Автоматизированная система поддержки принятия решений при анализе уровня техники для патентных заявок 75
3.1 Процесс принятия решений при анализе уровня техники с использование автоматизированной системы поддержки принятия решений при анализе уровня техники. 75
3.2 Архитектура автоматизированной системы поддержки принятия решений при анализе уровня техники 76
3.3 Функциональная структура автоматизированной системы оценки качества 80
3.4 Подсистемы автоматизированной системы поддержки принятия решений при анализе уровня техники для патентных заявок 80
3.4.1 Подсистема координирования 80
3.4.2 Подсистема предобработки заявки на патент и выделения ключевых фраз 81
3.4.3 Подсистема массовой предобработки данных и выделения фраз 81
3.4.4 Подсистема поиска и ранжирования релевантных документов 82
3.4.5 Подсистема сокращения множества поиска 82
3.4.6 Подсистема интерфейса пользователя 82
3.4.7 Подсистема безопасности 83
3.4.8 Подсистема визуализации результатов поиска 83
3.4.9 Подсистема выявления патентных трендов 83
3.5 Пример результатов работы системы 84
3.6 Выводы 86
ГЛАВА 4 Тестирование методов поддержки принятия решений при анализе уровня техники для патентных заявок 88
4.1 Тестирование метода поиска патентов аналогов 88
4.2 Тестирование метода автоматизированной классификации заявок 94
4.3 Тестирование метода выявления патентных трендов 100
4.4 Выводы 104
Заключение 106
Библиографический список 109
- Существующие открытые базы патентов и автоматизированные системы поддержки принятия решений при анализе уровня техники для патентных заявок
- Выделение ключевых фраз из текста патентного документа
- Архитектура автоматизированной системы поддержки принятия решений при анализе уровня техники
- Тестирование метода автоматизированной классификации заявок
Введение к работе
Актуальность темы. В настоящее время все большее количество копаний и
независимых изобретателей стараются запатентовать результаты своего
интеллектуального труда. По данным всемирной организации интеллектуальной собственности в настоящее время выдано более 70 миллионов патентов. При этом за последний год поток заявок на патенты возрос более чем на 9% и достиг 2,3 миллионов. В связи с возрастающим потоком заявок возрастает и время их обработки экспертами. В некоторых случаях оно достигает нескольких лет. В ходе обработки заявки эксперт занимается анализом уровня техники. Под существующим уровнем техники будем понимать все запатентованные изобретения и полезные модели, поданные заявки на изобретения и полезные модели с более ранней датой приоритета и другие открытые источники информации. Одной из основных операций анализа уровня техники для патентной заявки является поиск патентов аналогов, которые могли бы опровергнуть новизну заявки и сделать невозможной выдачу по ней патента. На проведение поиска во многих случаях эксперт тратит десятки часов и при этом просматривает тысячи существующих патентов и других документов. На протяжении всего времени патентной экспертизы заявитель не знает о том, выдадут ли ему патент или нет. При этом средний процент отказов на выдачу патентов составляет более 60%, что является проблемой в условиях многолетнего ожидания. В последние десятилетия наблюдается быстрое изменение рынков и широкое распространение технологий. В результате жизненный цикл продукта укорачивается. В результате чего успешным компаниям просто необходимо постоянно изобретать что-то новое, чтобы выжить. В подобной быстро изменяющейся среде стратегическую необходимость приобретает мониторинг изменений технологий или анализ трендов. В данном случае патентные документы являются одним из наилучших источников технологической и коммерческих знаний для организации подобного мониторинга, так как в патентах может быть найдено более 80% всей технологической информации. Анализ патентных трендов производится в различных разрезах: классов патентов, компаний, и.т.д. Данный анализ широко применяется патентозаявителями, чтобы понять, в каком направлении развиваться, и какие появились новшества в области их интересов. В связи с данными проблемами в настоящее время активно развиваются системы поддержки принятия решений при анализе уровня техники для патентов и патентных заявок, а так же разрабатываются новые методы автоматизации классификации заявок и поиска патентов аналогов. Однако существующие на сегодняшний день методы автоматизации поиска патентов аналогов не обладают достаточной точностью для сокращения времени поиска по сравнению с ручным поиском по ключевым словам. Существующие методы выявления патентных трендов не позволяют качественно выделять тренды внутри классов, межклассовые тренды, а так же тренды в потенциально новых классах, которые еще не попали в официальную классификацию. В связи с эти имеется потребность в разработки новых автоматизированных методов поддержки принятия решений при анализе уровня техники для патентных заявок.
Цель и задачи работы. Целью работы является уменьшение времени, затрачиваемого патентными заявителями, экспертами и патентоведами на проведение анализа уровня техники за счет автоматизации данного процесса.
Для достижения поставленной цели были выделены следующие задачи:
-
Провести анализ существующих инструкций по проведению анализа уровня техники для патентных заявок экспертами, существующих систем поддержки принятия решений при анализе уровня техники, а так же существующих методов автоматизированного анализа уровня техники.
-
Разработать методы автоматизированного поиска патентов аналогов.
-
Разработать метод выявления патентных трендов.
-
Реализовать разработанные методы анализа уровня техники в виде автоматизированной системы.
Объектом исследования являются процесс анализа уровня техники для патентных заявок.
Предметом исследования являются способы уменьшения времени, требуемого на проведение анализа уровня техники для патентных заявок.
Гипотеза исследования. Если в процессе анализа уровня техники основными этапами, требующими наибольшее количество времени, являются этап выделения ключевых терминов и этап поиска существующих документов в релевантных источниках, то автоматизация данных этапов позволит сократить время, требуемое на проведение анализа уровня техники для патентных заявок.
Методы исследования. Для решения поставленных задач были использованы методы обработки естественных языков, системного анализа, методы обработки больших объемов данных, методы интеллектуального анализа данных.
Научная новизна заключается в разработке новых автоматизированных методов анализа уровня техники для патентных заявок, а именно:
-
Разработан метод выделения ключевых фраз из текста заявки на патент, используемых для поиска существующих аналогов среди патентов и других документов;
-
Разработан метод определения степени релевантности существующего патента или другого документа заявке;
-
Разработан метод выделения патентных трендов.
Положения, выносимые на защиту:
-
Метод выявления патентных трендов;
-
Метод поиска аналогов заявки среди патентов;
-
Автоматизированная система поддержки принятий решений при анализе уровня техники.
Практическая ценность
-
Разработанные методы могут быть применены в существующих системах поддержки принятия решений при анализе уровня техники для патентов и заявок для ускорения процесса анализа;
-
Разработанная автоматизированная система может быть применена патентозаявителями для автоматизации процесса анализа уровня техники.
Соответствие паспорту научной специальности. Основная область исследования соответствует паспорту специальности 05.13.01 - «Системный анализ, управление и обработка информации (промышленность)», а именно пункту 4 - «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации» и пункту 5 – «Разработка специального математического и программного обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации».
Апробация работы. Основные положения и материалы диссертационной
работы докладывались на III Международной научно-практической конференции
"Инновационные информационные технологии” (2014 г., Прага, Чехия), 6-й
всероссийской мультиконференции по проблемам управления МКПУ-2013 (2013 г., Дивноморское, Россия), 7-й летней школе по информационному поиску (2013 г., Казань, Россия), Международном конгрессе по интеллектуальным системам и информационным технологиям IS&TI’13 (2013 г., Дивноморское, Россия), 26-й международной конференции FLAIRS (2013 г., Сейнт Пит Бич, Флорида, США), 23-й встрече компьютерных лингвистов в Нидерландах CLIN2013 (2013 г., Энсхеде, Нидерланды).
Достоверность определяется корректностью используемых методов обработки естественных языков и интеллектуального анализа данных, корреляцией полученных результатов с результатами, полученными другими авторами.
Публикации. По теме работы автором опубликованы 11 публикаций, из которых 6 статей в ведущих рецензируемых научных журналах и изданиях, входящих в перечень Высшей аттестационной комиссии, 1 статья, индексируемая в БД Scopus.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 120 страниц основного текста, 20 рисунков, 16 таблиц и список литературы из 115 наименований.
Соискатель выражает особую благодарность профессору кафедры «САПР и
ПК» ВолгГТУ, д.т.н. Кравец Алле Григорьевне за оказанную помощь и
консультации в ходе выполнения диссертационной работы.
Существующие открытые базы патентов и автоматизированные системы поддержки принятия решений при анализе уровня техники для патентных заявок
Для проведения анализа уровня техники для патентных заявок необходимо располагать базами патентных документов и обладать инструментами анализа данных баз. Существуют следующие бесплатные базы патентных документов:
1) Реестры Роспатента [20]: а. заявки и патенты на изобретения; б. заявки и патенты на полезную модель; в. заявки и патенты на промышленный образец; г. товарные знаки, знаки обслуживания и заявки на их регистрацию; д. заявки на регистрацию товарного знака и знака обслуживания; е. международные товарные знаки, содержащие сведения о договорах, зарегистрированных Роспатентом; ж. программы для ЭВМ; з. базы данных; и. топологии интегральных микросхем.
2) База патентных документов Европейского патентного ведомства [21]. Данная база включает источники патентной информации 72 патентных ведомств мира.
3) База патентов патентного ведомства Соединенных Штатов Америки [22]. Предоставляет доступ ко всем патентам и заявкам, опубликованным начиная с 1976 года.
4) База патентных документов Всемирной организации интеллектуальной собственности [23]. Данная база включает источники патентной информации 34 патентных ведомств мира.
21 5) База патентных документов патентного ведомства Великобритании. Предоставляет доступ ко всем британским патентам и заявкам.
6) Различные источники, не относящиеся к патентным ведомствам, содержащие бесплатные базы патентных документов: FPO [24], FindPatent.ru [25], Google Patents [26]. Данные источники, как правило, содержат ограниченный набор баз патентов, относящихся к одной или нескольким странам.
Особый интерес представляет база патентов от Google. На основании договоренности с патентным ведомством США, Google предоставляет базу американских патентов для скачивания в виде архивов [27]. Данные архивы содержат патенты и заявки, представленные в виде файлов трех различных спецификаций [28].
Однако бесплатные базы обладают рядом недостатков: - отсутствует полнота патентной документации; сохранение истории поисковых запросов компаниями, предоставляющими доступ к бесплатным базам; нет контроля имен изобретателей и патентообладателей; нет возможности сохранять найденные документы в удобном формате; для большинства патентов отсутствует возможность поиска английского эквивалента; полностью отсутствуют полные тексты на английском языке патентов Японии, Китая, Кореи и др. стран; - нет рефератов патентов на английском языке Индии, Тайваня и др. стран. Платные базы обладают меньшим количеством недостатков. Как правило, они распространятся как часть различных мощных инструментов поддержки принятия решений при анализе уровня техники [29]. В таблице 1.1 приведены основные характеристики как платных, так и бесплатных систем: Orbit [30], PatSeer[31], Metheo Patent[32], TotalPatent [33], Wisdomain [34], PatBase [35], ArchPatent [36], PatentScope, Espacenet, PatSearch [37]. Их условно можно разделить на 2 большие категории:
- поисковые системы;
- системы всестороннего анализа баз интеллектуальной собственности. Таблица 1.1 - Характеристики систем поддержки принятия решений при анализе уровня техники
Система Поисковые возможности Другие возможности
Orbit Поиск по ключевым словам, по метаданным заявки, поиск на основании статистического анализа с использованием синонимов. Визуализация и анализ данных, мониторинг изменения статусов патентов, анализ трендов по метаданным
PatSeer Поиск по ключевым словам, по метаданным заявки, поиск на основании статистического анализа. Визуализация и анализ данных, анализ трендов по метаданным
Metheo Patent Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным
TotalPatent Поиск по ключевым словам, по метаданным заявки, поиск по запросам на естественном языке, семантический поиск (LSA) Визуализация и анализ данных, анализ трендов по метаданным
Wisdomain Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным
PatBase Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным
ArchPatent Поиск по ключевым словам, по метаданным заявки Другие возможности
PatentScope Поиск по ключевым словам, по метаданным заявки Espacenet Поиск по ключевым словам, по метаданным заявки PatSearch Поиск по ключевым словам, по метаданным заявки Крупнейшей системой является Orbit от Questel. База патентов насчитывает более 60 миллионов документов из 95 национальных и международных патентных ведомств. Данная система обладает следующими возможностями: - поиск по ключевым словам и метаданным;
В данной системе, помимо традиционных средств поиска по ключевым словам и метаданным, предложены методы поиска патентов аналогов по полным текстам патента или заявки. Данные методы основаны на представлении текстов патентных документов в виде векторов слов с последующим сравнением данных векторов. При сравнении так же учитываются синонимы. Однако используемые методы являются базовыми в области определения схожести между текстовыми документами и не обладают высокой точностью. Данная система предоставляет возможность анализа патентных трендов по введенным поисковым запросам и в разрезах различных метаданных патентов: классы, владельцы, и.т.д. Однако не существует возможности автоматического выделения тенденций внутри классов и межклассовых тенденций (см. рисунок 1.5).
Существующая практика проведения ручного поиска патентов аналогов затратная и не всегда эффективна. Вследствие чего произошла активизация создания различных автоматических методов поиска. Задача автоматического поиска документов, удовлетворяющих определённым критериям, решается с применением методов информационного поиска [irbookonlinereading.pdf]. В процессе поиска используются различные модели для преобразования документов в определенные представления: стандартная булева модель; векторная модель; тематическая векторная модель; латентная семантическая
Выделение ключевых фраз из текста патентного документа
Выделение ключевых терминов из текстов заявки и патентов являются ключевым этапом всех методов поиска патентов аналогов. При разработке метода поиска ключевых фраз учитывались следующие особенности патентных документов:
1) ключевые термины в текстах патентов могут состоять из нескольких слов;
2) предложения с одинаковым смыслом в разных патентах могут быть записаны различными словами в различном порядке;
3) суть изобретения представлена не только в формуле, но так же продублирована в описании и в реферате патента;
4) предложения в формуле патента имеют нетрадиционную структуру и могут достигать длины в сотни слов.
Для реализации 1-го и 2-го пункта лучше всего подходят методы, основанные на проведении семантического и синтаксического анализа текста с последующим построением деревьев зависимостей. Ключевые термины в данном случае представляются в виде ветвей деревьев зависимостей. Подобное выделение ключевых терминов на основании деревьев зависимостей мы уже проводили в ряде своих работ. Однако, при применении имеющихся методов на текстах патентных документов, они дали не удовлетворительные результаты. Анализ причин появления подобных результатов показал, что семантические анализаторы плохо работают на текстах патентных документов в виду их специфики.
Для сохранения достоинств методов выделения ключевых на основании деревьев зависимости и для учета особенностей из пунктов 3 и 4 был разработан метод выделения ключевых терминов в виде ключевых фраз.
Алгоритм выделения ключевых фраз из текста патента или заявки Общий алгоритм выделения ключевых фраз представлен на рисунке 2.6. Под фразой будем понимать набор слов. При этом в контексте патента фразы могу быть как неосмысленными, так и осмысленными: понятия предметной области, характеристики объектов, действия над объектами. Целью данного метода является выделение осмысленных фраз.
Таким образом, дальнейший поиск производится не зависимо от того, какие слова использовались для обозначения того или иного понятия. Фразы ищутся среди последовательностей слов: где, п - максимальная длина последовательности. При этом п 1 . При этом на последовательность PS накладывается ограничение вхождения только в одно предложение. Параметр п не может быть слишком большим, так как чем дальше отстоят друг от друга слова в предложении, тем меньше вероятность того, что они могут образовать осмысленную фразу. Так же параметр п не может быть слишком маленьким, так как некоторые осмысленные фразы могут образовываться словами, стоящими не рядом. Исследования, проведенные группой исследователей из ВИНТРИ РАН показали, что при разбиении предложения на последовательности слов, оптимальная длина последовательности равняется 10 словам [106]. Однако длина предложения в формуле отличается от длины среднестатистического предложения. Поэтому для текста формулы было взято п = 20, а для текста описания и реферата п = 10. Из каждой последовательности производится выделение фраз:
Метод расчета относительной частоты фразы Fi был выбран исходя из следующих соображений: наиболее значимыми фразами в патенте являются те фразы, которые часто употребляются в тексте патента, но при этом не являются общеупотребительными фразами.
Исходя из той особенности, что основные положения заявки повторяются во всех частях патента, было решено установить параметр e 3 3.
Количество существующих патентных и не-патентных документов насчитывает десятки миллионов, что делает затруднительным применение сложных алгоритмов для поиска по всему объему документов. Разработанный метод, так же как и большинство существующих, производит сокращение множества поиска за счет фильтрации существующим патентов по классам. Однако, в отличие от существующих методов, фильтрация происходит с учетом возможного цитирования патентов одного класса патентами другого класса. Для решения данной задачи на основании имеющегося корпуса патентов строится ориентированный граф цитирований (см. рисунок 2.4):
Архитектура автоматизированной системы поддержки принятия решений при анализе уровня техники
Автоматизированная система поддержки принятия решений при анализе уровня техники для патентных заявок PatHelper разработана для поддержки принятия решений экспертами и патентозаявителями в процессе поиска патентов аналогов и анализа тенденций развития технологий в интересующих областях При разработке системы использовались языки программирования Java [109] и C# [110]. При разработке использовались интегрированные среды разработки Eclipse [111] и Visual Studio [112]. При разработке применялись облачные технологии, в частности, часть системы реализована внутри кластера Amazon EC2 [113].
Целью создания системы является повышение эффективности процесса принятия решений при анализе уровня техники: - поиск патентов аналогов; - классификация заявок; - поиск патентных трендов в интересующих областях. Входная информация, поступающая в систему через интерфейс пользователя, представляет собой: - текст заявки на патент; о формула о описание о реферат о название - поисковые запросы; 75 - массивы патентных документов для добавления в систему; - подтвержденные классы заявки; - список номеров патентов, на основании которых нужно провести поиск тенденций развития технологий; - список классов, для которых нужно провести поиск тенденций развития технологий. Выходными данными программы являются: - список патентов аналогов; - тексты патентов аналогов; - список классов, к которым может принадлежать заявка и вероятности принадлежности; - список трендовых фраз; - список патентов, которые описывают трендовые технологии; - график тенденций употребления трендовых фраз в течение времени. Автоматизированная система поддержки принятия решений при анализе уровня техники реализует разработанные алгоритмы поиска патентов аналогов, автоматизированной классификации заявки, сокращения множества поиска и выявления патентных трендов.
Входные данные поступают в систему через интерфейс пользователя. Данные, поступающие через интерфейс пользователя и направляемые на вывод, проходят через подсистему безопасности. Данная подсистема позволяет контролировать доступ к данным. Затем данные поступают в подсистему координирования. Данная подсистема направляет данные в различные 76 подсистемы в зависимости от задачи. Для решения задачи поиска патентов аналогов система координирования направляет данные заявки в подсистему предобработки заявки на патент и выделения ключевых фраз. В данной подсистеме происходит предобработка заявки и выделение из нее ключевых фраз с последующей загрузкой полученных данных в базу данных. Далее в подсистему сокращения множеств поиска передается идентификатор пред обработанный заявки. В данной подсистеме на первом этапе производится классификация заявки. Результаты классификации возвращаются назад в систему координирования и затем поступают в подсистему интерфейса пользователя и отображаются в нем. При поступлении в подсистему координирования информации о подтверждении выбора классов заявки, эти данные перенаправляются в подсистему сокращения множества поиска. Данная подсистема на втором этапе производит сокращение области поиска и возвращает в подсистему координирования список патентов, среди которых нужно произвести поиск. Далее подсистема координирования направляет идентификатор и список доступных для поиска патентов в подсистему поиска и ранжирования релевантных документов. Данная подсистема производит поиск патентов аналогов и его ранжирование, после чего он возвращает отсортированный по степени релевантности список патентов. Данные список через подсистему координирования передается в подсистему визуализации результатов поиска, где производится формирование текстов релевантных патентов с подсвеченными местами их пересечения с текстов заявки. Полученные данные передается в интерфейс пользователя. При поступлении в подсистему координирования запроса на поиск трендов - исходные данные для поиска трендов передаются в подсистему выявления патентных трендов. В данной подсистеме производится выделение трендовых фраз, их группировка и выявление множества патентов, которые отражают информацию, содержащуюся в трендовых фразах. Далее данный список ключевых фраз и патентов через подсистему координирования поступает в подсистему визуализации результатов поиска, где производится построение графика трендов. После чего, вся информация передается в интерфейс пользователя через подсистему координирования.
Тестирование метода автоматизированной классификации заявок
В эксперименте 5 проводилось тестирование методов автоматизированной классификации с помощью различных способов. Тестирование проводилось на патентах, выданных за 2012 год. В тестировании принимали участие 1000 произвольно выбранных русских и 1000 произвольно выбранных американских патентов. Оценка эффективности метода проводилась на основании показателя точности, т.е вероятности того, что все классы патента будут расположены в списке наиболее релевантных классов, полученного в результате работы метода, на позиции не ниже сіс + еб, где clc - количество классов патента, еб-коэффициент, определяющий допустимую граничную позицию расположения наименее вероятного из верных классов. Результаты тестирования приведены в таблице 4.6 для русских заявок и в таблице 4.7 для американских заявок.В приведенных таблицах четко прослеживаются основные тенденции в последние коды в области электричества: развитие различных устройств беспроводной мобильной связи. Таким образом, разработанный метод позволяет выделять информативные патентные тренды в независимости от классификации.
Разработанный метод поиска патентов аналогов позволил значительно превзойти по показателям полноты существующие методы автоматизированного поиска патентов аналогов. При этом одно из основных достоинств ключевых фраз – независимость от порядка слов в предложении позволило добиться приемлемых показателей полноты при поиске патентов аналого для русской заявки среди американских патентов и наоборот. Добавление дополнительно параметра в формулу ранжирования, основанного на анализе графа цитирований, позволило значительно улучить разработанный метод Достигнутые показатели полноты позволяют применять разработанный метод для поиска патентов аналогов вместо существующих методов ручного поиска по ключевым словам.
Разработанный методов автоматизированной классификации превосходит базовый метод по показателям точности. Данный метод позволяет сократить область поиска нужного класса IPC с 142 до 10.
Разработанный метод сокращения множества поиска позволяет сократить область поиска на 57% без потери максимально возможного показателя полноты и сократить более чем на 65% с незначительной потерей.
Разработанный метод выявления патентных трендов позволяет выделять тренды в виде информативных для пользователя трендовых фраз. Группировка трендовых фраз позволяет еще больше увеличить информативность. При этом разработанный метод не зависит от классификации.
1) В результате выполнения работы по автоматизации поддержки принятия решений в процессе анализа уровня техники для патентных заявок были достигнуты следующие результаты:
2) Проанализирован процесс принятия решений при анализе уровня техники для патентов и заявок. В ходе анализа были выявлены основные этапы процесса анализа уровня техники. На основании рекомендаций по написанию патентных заявок и инструкций по проведению патентной экспертизы были выявлены основные особенности патентных документов и их текстов. Были проанализированы основные проблемы при анализе уровня техники.
3) Проанализированы существующие автоматизированные системы анализа уровня техники для патентов и заявок. Было выявлено, что существующие системы поиска патентов аналогов предоставляют возможность поиска только по ключевым словам и метаданным заявки. Только в некоторых системах сделана попытка реализации автоматизированного поиска патентов аналогов, но используемые методы не позволяют достичь высоких показателей точности и значительно сократить время, затрачиваемое пользователем на проведение поиска. Было выявлено, что предоставляемый системами инструментарий по анализу патентных трендов не позволяет анализировать тренды внутри классов, межклассовые тренды и тренды в новых областях.
4) Проанализированы методы автоматического поиска патентных аналогов и выявления патентных трендов. Анализ показал, что основной причиной невысокой точности работы существующих методов является отсутствие учета специфики текстов патентных документов.
5) Разработаны автоматизированные методы поддержки принятия решения при анализе уровня техники: метод поиска патентов аналогов, метод автоматизированной классификации, метод выявления патентных трендов. Работа разработанных методов основана на специфике текстов патентных документов.
6) Разработанные методы реализованы в автоматизированной системе поддержки принятия решений при анализе уровня техники для патентных заявок. Система позволяет пользователю осуществлять поиск патентов аналогов и проводить анализ трендов на загруженной базе патентов. При этом возможен поиск заявок на одном языке среди патентов на другом языке. Облачная архитектура части системы и масштабируемые методы позволяют загружать в систему полные объемы патентных документов.
7) Проведено тестирование разработанных методов. Эксперименты показали высокую эффективность методов поиска патентов аналогов и выявления патентных трендов. Достигнутые показатели полноты метода поиска патентов аналогов позволяют применять его вместо существующих ручных методов поиска по ключевым словам для сокращения времени поиска.
Разработанные методы поиска релевантных текстовых документов могут быть так же применены для решения других задач:
- поиск схожих научных статей. Тексты научных статей имеют схожую особенность с патентной документацией: основные положения в них повторяются в нескольких частях статьи: в аннотации, в основном блоке, в заключении. Таким образом, разработанные методы позволят точно выделять ключевые слова;
- аннотирование, реферирование и обобщение научных статей и патентов. Разработанные методы позволяют выделять ключевые фразы из текстов патентов и научных статей, что позволяет выделять наиболее значимые предложения.