Проект РНФ 18-71-10001
Personal Knowledge Base Designer использовался при выполнении работ по проекту с Российским научным фондом № 18-71-10001 «Методология и инструментальная платформа разработки систем извлечения данных из произвольных электронных таблиц».
В частности, решалась задача отработки практического применения технологии анализа таблиц в области экспертизы промышленной безопасности (ЭПБ). ЭПБ представляет собой процедуру оценки технического состояния промышленных объектов с целью определения остаточного ресурса и деградационных процессов. При решении некоторых задач ЭПБ ("разработка программы ЭПБ"; "анализ (включая интерпретацию) результатов диагностики"; "принятие решений по ремонту" и "формирование заключения по ЭПБ") могут быть использованы продукционные экспертные системы. Прототип базы знаний было решено разработать на основе анализа таблиц из отчетов по ЭПБ. Таблицы, в большинстве случаев содержат уже структурированную информацию и некоторые связи между понятиями. Было обработано 216 таблиц, из которых было извлечено 242 понятий, включая 25 сущностей, 196 свойств и 21 отношение, на основе которых была сформирована база знаний из 21 шаблона фактов и 9 шаблонов правил.
В ходе выполнения проекта была расширена функциональность PKBD в части поддержки анализа канонических таблиц, полученных в результате преобразования произвольных таблиц из отчетов по ЭПБ.В ходе выполнения проекта была расширена функциональность PKBD в части поддержки анализа канонических таблиц, полученных в результате преобразования произвольных таблиц из отчетов по ЭПБ.
Процесс разработки баз знаний на основе анализа анализа канонических таблиц может быть представлен в виде схемы (Рис.1).
Рис.1 Схема разработки баз знаний на основе анализа канонических таблиц с использованием PKBD
Далее расмотрим пример разработки фрагмента базы знаний согласно данной схеме на примере анализа одной канонической таблицы.
Этап 1. В результате анализа канонической таблицы (Рис.2, таблица переведена на английский) были выделены сущности: структурный элемент и материал. Каждая сущность характеризуется набором свойств. Между сущностями также определены отношения. Выделенные сущности преобразованы в шаблоны-фактов со слотами, а отношения – в шаблоны правил. На рис.3 представлена исходная таблица из отчета, преобразованная с помощью средства TabbyXL (таблица переведена на английский).
На данном этапе из 216 таблиц было выделено 173 уникальных (с уникальной компановкой и содержанием) и 5817 ячеек с сущностями. Успешно удалось преобразовать только 161 таблицу при этом было извлечено 429 понятий, включая 59 сущностей, 338 свойств и 32 отношений. После агрегации, а также качественной оценки экспертами полученных моделей, 242 понятия (25 сущностей, 196 свойств и 21 отношений) было использовано для дальнейшей обработки (около 56% исходных понятий).
Рис.2 Фрагмент анализируемой канонической таблицы
Рис.3 Исходная таблица из отчета по ЭПБ
Этап 2. Полученные шаблоны были отредактированы с использованием мастеров PKBD. При этом каждому шаблону соответствует RVML схема (Рис.4), обеспечивающая его визуализацию. При загрузке сразу нескольких файлов с каноническими таблицами происходит агрегирование сущностей и отношений, например, Рис.5.
Рис.4 RVML представление шаблона правила
Рис.5 RVML представление агрегированного шаблона правила
Таким образом получаются фрагменты базы знаний, которые подлежат верификации и валидации. Остальные этапы аналогичны договору с АО «ИркутскНИИхиммаш» № 052013 НИР.
Для оценки предлагаемого подхода были рассчитаны полнота и точность преобразования таблиц из очетов по ЭПБ. Два программных средства TabbyXL и PKBD использовались для реализации преобразований: (a) arbitrary tables-to-canonical tables and (b) canonical tables-to-conceptual models. Таким образом расчеты были произведены для каждого средства:
Преобразование / Оценка | Полнота | Точность | F |
arbitrary tables-to-canonical tables (TabbyXL) | 0.87 | 0.99 | 0.93 |
canonical tables-to-conceptual models (PKBD) | 0.96 | 0.97 | 0.97 |
среднее значение | 0.92 | 0.98 | 0.95 |
С точки зрения сравнения содержания моделей экспертами установлено, что 17% (69 из 400) понятий из полученных ранее моделей имеют совпадающие по смыслу понятий из полученных в результате анализа таблиц, включая сущности, свойства и отношения. При этом совпадение (соответствие) достигает 24% (106 из 400), если рассматривать возможность дополнения понятий из моделей релевантными свойствами соответствующих им понятий из таблиц.
Количественные характеристики сравниваемых наборов:
Набор / Характеристика | Кол.понятий | Кол.сущностей | Кол.свойств | Кол.отношений |
Исходные таблицы | 429 | 59 | 338 | 32 |
Отобранные таблицы (56% от исходных) | 242 | 25 | 196 | 21 |
Модели для сравнения (21 шт.) | 400 | 98 | 249 | 53 |
Совпадающие (17% элементов моделей) | 69 | 14 | 51 | 4 |
Совпадающие и дополненные (24% элементов моделей) | 106 | 14 | 88 | 4 |
Таким образом, использование таблиц из отчетов по ЭПБ позволило в автоматическом режиме создать 24% понятий предметной модели ЭПБ, обеспечив основу для проведения концептуального моделирования с целью создания базы знаний.
При этом 60% элементов окончательной базы знаний получено из предметной модели ЭПБ.