Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Историческая информатика
Правильная ссылка на статью:

Проверка гипотез исторического исследования на базе геохронологического трекинга

Ивакин Ян Альбертович

доктор технических наук

ведущий научный сотрудник, Санкт-Петербургский институт информатики и автоматизации, Российская академия наук

198207, Россия, г. Санкт-Петербург, линия 14-Я в.о., 39, оф. СПИИРАН

Ivakin Yan Al'bertovich

Doctor of Technical Science

Leading researcher, Saint-Petersburg Institue for Informatics and Automation of the Russian Academy of Sciences

of. SPIIRAN, 39, 198207, liniya 14-Ya v.o., g. Saint Petersburg, Russia,

ivakin@oogis.ru
Другие публикации этого автора
 

 
Потапычев Сергей Николаевич

кандидат технических наук

старший научный сотрудник, Санкт-Петербургский институт информатики и автоматизации, Российская академия наук

196000, Россия, г. Санкт-Петербург, линия 14-џ, 39, оф. СПИИРАН

Potapychev Sergei Nikolaevich

PhD in Technical Science

Senior researcher, Saint-Petersburg Institue for Informatics and Automation of the Russian Academy of Sciences

of. SPIIRAN, 39, liniya 14-Ya,  g. Saint Petersburg, Russia, 196000

potapichev@oogis.ru
Другие публикации этого автора
 

 
Ивакин Владислав Янович

магистрант, кафедра Исторической информатики, Московский государственный университет имени М.В.Ломоносова

198281, Россия, г. Москва, ул. Ломоносовский Проспект, 27, корп.4

Ivakin Vladislav Yanovich

Magistrate of the Historical Computer Science Department of Lomonosov Moscow State University

198281, Russia, g. Moscow, ul. Lomonosovskii Prospekt, 27, korp.4

ivakin-11@mail.ru

DOI:

10.7256/2585-7797.2018.1.25344

Дата направления статьи в редакцию:

02-02-2018


Дата публикации:

21-04-2018


Аннотация: Информационная технология геохронологического трекинга есть совокупность процессов накопления и интеграции данных о географическом перемещении исторических личностей за установленный период времени с представлением результатов в виде обобщающего графа в ГИС. Гипотезы об устойчивых тенденциях в миграции представимы как подграфы указанного графа. Проверка таких гипотез сведется к поиску и оценке статистической значимости изоморфизма соответствующих графов. Рассмотрению качественно новых возможностей такого подхода и соответствующего математико-алгоритмического аппарат посвящена данная статья. Методология исследования предлагаемой работы базируется на теории графов, теории вероятности, математической статистике и методах оценки статистической точности, устойчивости. Новизна предложенной работы заключается в разработке принципиально нового класса научно-методического инструментария для исторических исследований геопространственных процессов социально-политического характера на базе геоинформационных систем и соответствующих технологий. Основным теоретическим выводом описываемой исследовательской работы является применимость математического аппарата оценки доверительной вероятности к принятию решений в ходе исторических исследований на основе сетевых структур геохронологического трека.


Ключевые слова:

Географические информационные системы, ГИС технологии, геохронологический трек, изоморфизм графов, проверка статистических гипотез, междисциплинарные исследования, информационная технология, обобщающий граф, алгоритмический аппарат, ГИС

Abstract: Information technology of geochronological tracking is a total of processes that accumulate and integrate data on geographic relocation of historical figures for a given time interval and represent the results as a generalizing graph in GIS. Hypotheses about stable migration trends are represented as subgraphs of the graph. To test such hypotheses is to search and evaluate statistical significance of relevant graph isomorphism. The article describes these qualitatively new opportunities provided by such an approach as well as relevant mathematical and algorithmic tools. Methodology of the study grounds on graph theory, probability theory, mathematical statistics and statistical accuracy and stability evaluation methods. Information technologies of geochronological tracking form the methodological and program apparatus for automation of selected class of historical tasks, connected to fusion of biographical and geographic data based on GIS. The novelty of the study is a new class of methodical tools for historical studies addressing geospatial social and political processes on the basis of geoinformation systems and relevant technologies. The main theoretical conclusion is the applicability of mathematical tools of confidence figure evaluation when making a decision in historical studies on the basis of geochronological tracking net structures.  


Keywords:

Geographic information systems, GIS technologies, geochronological track, graphs’ isomorphism, statistical hypotheses testing, interdisciplinary research, information technology, generalizing graph, algorithmic apparatus, GIS

1. ВВЕДЕНИЕ

В работах [1,3] представлена и детально описана специализированная информационная технология геохронологического трекинга. Информационная технология геохронологического трекинга есть совокупность методов, моделей, приемов, методик и способов сбора, передачи, обработки, отображения и выдачи потребителю информации об обобщении геохронологических треков исторических личностей. В свою очередь построение геохронологического трека исторической личности (индивида) или исторического объекта на основании геопространственной интерпретации его биографической информации есть интеграция хронологических и географических данных в виде графа, соединяющего географические точки нахождения исторической личности. При этом вершины такого графа имеют строгую историко-географическую привязку, а дуги носят условно-логический характер.

Проведенные апробации и моделирование геохронологического трекинга показали, что итоговый граф для представительной выборки индивидов может иметь сложную и высокосвязную (и даже полносвязную) структуру. Этот факт позволяет рассматривать итоговый граф геохронологического трекинга, как основу для исследования различных миграционных процессов, выявления некоторых частных закономерностей в перемещении исторических личностей или социальных групп, а так же проверять статистические гипотезы о характере перемещений. Представительность выборки исторических личностей, принятой для геохронологического трекинга определяет статистическую устойчивость получаемых выводов.

Одним из направлений создания научно-методического инструментария, поддерживающего указанные исследования является широкое применение и компьютерная интерпретация методов теории графов на базе геохронологического трекинга, и в частности, алгоритмов поиска изоморфизма графов (распознавания изоморфного вложения подграфа в более сложный граф). Предметная интерпретация этих методов в предметной области исследований исторической информатики открывает широкие возможности по анализу различных сетевых структур, и прежде всего, геохронологических треков.

Полнофункциональное развитие компьютерной интерпретации методов теории графов на базе геохронологического трекинга способно обеспечить новое качество исторических исследований с использованием современного ГИС-инструментария. Оно выражается в предоставлении возможности исследователю-историку использовать количественные методы соответствующего логико-аналитического аппарата в своей предметной области. Детализация указанных возможностей с раскрытием существа соответствующих математических и алгоритмических решений, а также описание новых путей их применения в современных исторических исследованиях есть предмет рассмотрения данной статьи.

2. ПРЕДСТАВЛЕНИЕ ПРОВЕРКИ ИССЛЕДОВАТЕЛЬСКИХ ГИПОТЕЗ В ВИДЕ ЗАДАЧИ РАСПОЗНОВАНИЯ ИЗОМОРФНОГО ВЛОЖЕНИЯ ГРАФА

Результатом реализации функциональности программного компонента «Геохронологический трекинг» является географическая карта, на которой наносится граф обобщающий геохронологические треки индивидов, данные о перемещениях которых занесены в базу данных [1]. Пример такой реализации показан на Рисунке 1. Указанный граф далее рассматривается как базовый граф в рамках которого определяется подграф изоморфный заданному. При этом изоморфизм графов понимается как отношение эквивалентности на множестве графов. Изоморфным отображением одного графа на другой называется взаимно однозначное отображение вершин и рёбер одного графа соответственно на вершины и рёбра другого графа, при котором сохраняется отношение инцидентности. Два графа называются изоморфными, если существует изоморфное отображение одного из этих графов на другой [4]. (Инцидентность - геометрический термин, употребляемый для обозначения отношения принадлежности (связи, соединения) между основными объектами геометрии (точками, прямыми, плоскостями и т.д.) [2]).

Граф на изоморфность к которому определяется подграф в составе базового графа геохронологического трекинга графически задает соответствующую гипотезу исследования о миграции (перемещениях в географическом пространстве). Например, пусть выдвигается следующая гипотеза: «Типовыми (традиционным, наиболее принятым и пр.) назначениями (перемещениями по местам прохождения службы) выпускников Санкт-Петербургского морского кадетского корпуса в период с 1870 по 1910 в чинах младших офицеров было назначения либо в штабы флотов, либо на соответствующие крупные корабельные соединения этих флотов. В дальнейшем при переводах штабная или корабельная специализация сохранялась. Допускались назначения с подчиненных корабельных соединений в соответствующие штабы флотов».

Рисунок 1. – Пример реализации геохронологического трекинга в ГИС

Если в указанный период штабы флотов Российской империи располагались в:

- Санкт-Петербург - Балтийский флот;

- Севастополь – Черноморский флот;

- Порт-Артур – Тихоокеанский флот;

а местами базирования крупных корабельных соединений для соответствующих флотов были, соответственно:

- Гельсингфорс;

- Новороссийск;

- Владивосток;

то интерпретация приведенной гипотезы как ненаправленного графа примет вид показанный на Рисунке 2.

Рисунок 2. – Пример графа представляющего исследовательскую гипотезу

Проведенная апробация предлагаемого аналитического аппарата представления и проверки исследовательских гипотез как изоморфного вложения в составе геохронологического трека показала, что графы описывающие миграционные процессы могут носить разнообразную и весьма сложную форму. Так, на Рисунке 3 приведены некоторые примеры графов, описывающих различные гипотезы – подграфов геохронологического трекинга. В целом, этот рисунок позволяет оценить структурную сложность и вариабельность представительских гипотез в виде графов.

Рисунок 3. – Варианты графов, описывающих различные гипотезы

Задача распознавания изоморфизма графов является центральной комбинаторной задачей теории графов и имеет корректную интерпретацию в предметной области исторического исследования. На сегодняшний день, согласно [4,5], разработан целый ряд эффективных алгоритмов распознавания в составе сложного графа, каким является реальный обобщающий геохронологический трек (Рисунок 4), подграфа изоморфного заданному. При этом условно выделяют две основных группы алгоритмов реализации указанного распознавания. Первая группа связана с реализацией принципа иерархического построения непереборных алгоритмов, рекурсивно улучшающих свою эффективность в смысле полноты (чувствительности) используемых характеристик вершин и (или) ребер, инвариантных относительно изоморфизма графов и называемых инвариантами. Вторая группа алгоритмов связана с реализацией того же принципа иерархического построения алгоритмов на базе обязательной процедуры перебора на одном из этапов поиска изоморфной подстановки. Худшие характеристики имеют алгоритмы, использующие метод полного прямого перебора, они применимы лишь к геохронологическим трекам ограниченной размерности. В целом, само решение задачи изоморфного вложения подгафа в состав графа-геохронологического трека в программно-алгоритмическом плане является тривиальным и описано в работах [4,5].

Пример геохронологического трека, представленный на Рисунке 4 получен в рамках апробационного примера в котором Использовались послужные списки офицеров русской армии XIX века, хранящиеся в Российском государственном военно-историческом архиве (РГВИА) [8,9].

Таким образом, представление проверки исторических исследовательских гипотез в виде задачи распознавания (поиска) соответствующего изоморфного подграфа позволяет обнаружить и распознать устойчивые структурные вложения в составе соответствующего геохронологического трека из перечня (базы) заранее определённых структур. Иными словами, это представление может быть применено для автоматизированного поиска устойчивых факторов миграционных процессов, специфики перемещений отдельных групп исторических личностей, не очевидных фактов кадровой политики, и пр., структура которых заранее известна и описана в виде графов в соответствующей базе данных.

Рисунок 4. – Геохронологический трек из апробационного исследовательского примера

3. СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ ПРИНЯТИЯ ГИПОТЕЗ НА БАЗЕ ГЕОХРОНОЛОГИЧЕСКОГО ТРЕКИНГА

Выявление фактов историко-географических процессов как устойчивых структурных вложений в структуре соответствующего геохронологического трека обладает очевидными характеристиками риска принятия решения о их наличии. Иными словами, может быть оценена доверительная вероятность в заключении об установлении того или иного факта.

Первоначальное множество исторических личностей, принятой для геохронологического трекинга рассматривается как генеральная совокупность в математическом аппарате проверки статистических гипотез. Выборка числа индивидов, подтвердивших своими перемещениями в географическом пространстве соответствующую гипотезу-подграф, определяет статистическую устойчивость получаемых выводов исследования.

Проверка корректности принятия той или иной гипотезы сводится к оценке статистической значимости вывода о выделении соответствующего изоморфного подграфа в составе геохронологического трека по выше указанной выборке из генеральной совокупности. При этом задается уровень значимости b (риска принятия неправильной гипотезы) как вероятности обратной к доверительной вероятности принятия правильного решения p, т.е.

b=1-p; (1)

Анализ значимости числа индивидов, подтвердивших своими перемещениями в географическом пространстве соответствующую гипотезу-подграф в сравнении с общим числом индивидов, учтенном при геохронологическом трекинге, может быть проведен путем использования методики статистических сравнений, изложенной в [4]. При этом анализируется статистическое отличие разницы между указанными числами от 0. Такой анализ значимости, как правило, проводится за семь логических шагов:

Шаг 1. Выдвигается две статистических гипотезы: Н0 - гипотеза, что полученное значение разницы статистически незначимо (нет статистически достаточного числа индивидов для выделения искомого подграф в составе геохронологического трека); Н1 - гипотеза, что полученное значение разницы статистически значимо (количество индивидов, подтверждающих своими перемещениями искомый подграф в составе геохронологического трека, статистически значимо и достаточно для его выделения);

Шаг 2. Поскольку результаты разницы получены по выборке числа индивидов, подтвердивших своими перемещениями в географическом пространстве соответствующую гипотезу-подграф, то размерность этой выборке принимается за число испытаний n.

Шаг 3. Принимается уровень значимости b. Например, равным 0,05. Тогда доверительная вероятность принятия исследовательской гипотезы, согласно (1), будет 0,95.

Шаг 4. Осуществляется выбор тестовой статистики из табулированных вариантов. Этот выбор определяется размером выборки числа индивидов, подтвердивших своими перемещениями в географическом пространстве соответствующую гипотезу-подграф. Если размерность генеральной совокупности и выборки обеспечивают выполнение статистического закона больших чисел, то в качестве тестовой статистики может быть приняты величины, имеющие широко известные распределения. Например, распределение Хи-Квадрат. Для малых (в статистическом понимании) выборок в качестве тестовой статистики традиционно принимаются величины, имеющие t-распределение Стьюдента с (n – 1) степенями свободы.

Шаг 5. Производится определение области принятия статистической гипотезы. Для этого из соответствующих таблиц (базы данных) выбирается критическое значение тестовой статистики tпр при принятом уровне значимости b, что согласно (1) определяет доверительная вероятность p.

Шаг 6. Формируется итоговое математическое правило проверки статистической гипотезы: H0: t<=tпр; H1: t>tпр .

Шаг 7. Выполнение проверки в соответствии с правилом проверки статистической гипотезы путем расчета текущего значения тестовой статистики t. Формулирование вывода: при выполнении условия из правила проверки статистической гипотезы значение выше указанной разницы следует считать значимым при уровне доверия p .

Таким образом, предлагаемая методика оценки статистической значимости принятия гипотез позволяет ввести вероятностную меру степени доверия к принимаемым исследовательским решениям по интерпретации соответствующих подграфов геохронологического трека.

4. ЗАКЛЮЧЕНИЕ

Применение компьютерной интерпретации методов теории графов на базе геохронологического трекинга в ходе исторических исследований открывает новые горизонты для применения современных математико-аналитических методов в сфере гуманитарного знания. Очевидно, что перспективными направлениями развития количественных методов в гуманитарных исследованиях, применительно к геохронологическому трекингу, является внедрение в соответствующее математическое и программное обеспечение ГИС приложений «мягких» вычислений, аппарата фракталов, методов современной математической топологии, математической теории вероятностей, теории возможностей и пр. Внедрение указанных методов и математического аппарата решения исследовательских задач в ГИС является востребованным и рассмотрено в целом ряде работ, примеры которых приведены в [6,7].

Представленный в статье подход к использованию научно-методических результатов теории графов и современной статистики для разработки ГИС-инструментария исторического исследования прошел апробацию в рамках примера, представленного в статье. Дальнейшей перспективой практического развития данной тематики является создание приложения с описанной функциональностью, интегрируемого в ГИС-среду.

Разработка и обоснование конкретизированных интерпретаций указанных методов в предметной области исторических исследований, синтез математических и алгоритмических моделей решения конкретных исследовательских задач составляет существо дальнейших работ и исследований по информационной технологии геохронологического трекинга в ГИС. Вместе с тем, уже сегодня можно констатировать широкую перспективу и прикладную применимость данного подхода к развитию программно-информационных инструментов для гуманитарных исследований.

Поддержка исследований. Работа выполнена при поддержке РФФИ (проект №16-07-00127).

Библиография
1. Ивакин Я.А., Потапычев С.Н. Развитие информационной технологии геохронологического трекинга для исторических исследований в ГИС // Историческая информатика. — 2017.-№ 2.-С.85-94. DOI: 10.7256/2585-7797.2017.2.23083. URL: http://e-notabene.ru/istinf/article_23083.html
2. Интеллектуальные географические информационные системы для мониторинга морской обстановки. // Под общ. ред. чл.-кор. РАН Юсупова Р.М. и д-ра техн, наук Поповича В.В. – СПб: Наука, 2013. – 284с.:ил.
3. Потапычев, С.Н. Геохронологический трекинг – специализированный ГИС-инструментарий исторического исследования [Текст] // Ивакин Я.А., Потапычев С.Н. – Журнал «Историческая информатика. Информационные технологии и математические методы в исторических исследованиях и образовании», № 1-2-2016; с. 3-11.
4. Зыков А.А. Основы теории графов.-М: Вузовская книга, 2004.-664 с.
5. М. И. Нечепуренко, В. К. Попков, С. М. Майнагашев, С. Б. Кауль, В. А. Проскуряков, В. А. Кохов, А. Б. Грызунов Алгоритмы и программы решения задач на графах и сетях — Новосибирск: Наука. Сиб. отд-ние, 1990. — 515 с.
6. History & Mathematics: Political Demography & Global Ageing. Yearbook/ Edited by Jack A. Goldstone, Leonid E. Grinin, and Andrey V. Korotaev. – Volgograd: ‘Uchitel’ Publishing House, 2015. – 176 pp.
7. Коломеец М.В., Чечулин А.А., Котенко И.В. Обзор методологических примитивов для поэтапного построения модели визуализации данных – СПб., Труды СПИИРАН, 2015, Вып. 5(42) – с.232-257.
8. РГВИА-фонд Ф.400 Главного штаба Военного министерства
9. РГВИА – фонд Ф.409 "Послужные списки, аттестации и наградные листы офицеров русской армии"
References
1. Ivakin Ya.A., Potapychev S.N. Razvitie informatsionnoi tekhnologii geokhronologicheskogo trekinga dlya istoricheskikh issledovanii v GIS // Istoricheskaya informatika. — 2017.-№ 2.-S.85-94. DOI: 10.7256/2585-7797.2017.2.23083. URL: http://e-notabene.ru/istinf/article_23083.html
2. Intellektual'nye geograficheskie informatsionnye sistemy dlya monitoringa morskoi obstanovki. // Pod obshch. red. chl.-kor. RAN Yusupova R.M. i d-ra tekhn, nauk Popovicha V.V. – SPb: Nauka, 2013. – 284s.:il.
3. Potapychev, S.N. Geokhronologicheskii treking – spetsializirovannyi GIS-instrumentarii istoricheskogo issledovaniya [Tekst] // Ivakin Ya.A., Potapychev S.N. – Zhurnal «Istoricheskaya informatika. Informatsionnye tekhnologii i matematicheskie metody v istoricheskikh issledovaniyakh i obrazovanii», № 1-2-2016; s. 3-11.
4. Zykov A.A. Osnovy teorii grafov.-M: Vuzovskaya kniga, 2004.-664 s.
5. M. I. Nechepurenko, V. K. Popkov, S. M. Mainagashev, S. B. Kaul', V. A. Proskuryakov, V. A. Kokhov, A. B. Gryzunov Algoritmy i programmy resheniya zadach na grafakh i setyakh — Novosibirsk: Nauka. Sib. otd-nie, 1990. — 515 s.
6. History & Mathematics: Political Demography & Global Ageing. Yearbook/ Edited by Jack A. Goldstone, Leonid E. Grinin, and Andrey V. Korotaev. – Volgograd: ‘Uchitel’ Publishing House, 2015. – 176 pp.
7. Kolomeets M.V., Chechulin A.A., Kotenko I.V. Obzor metodologicheskikh primitivov dlya poetapnogo postroeniya modeli vizualizatsii dannykh – SPb., Trudy SPIIRAN, 2015, Vyp. 5(42) – s.232-257.
8. RGVIA-fond F.400 Glavnogo shtaba Voennogo ministerstva
9. RGVIA – fond F.409 "Posluzhnye spiski, attestatsii i nagradnye listy ofitserov russkoi armii"