Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Историческая информатика
Правильная ссылка на статью:

Создание тематической информационной базы статистических источников по экономической истории: цифровой ресурс и опыт его верификации

Акимов Антон Викторович

Директор по взаимодействию с органами власти, АО "Кордиант"

115054, Россия, г. Москва, ул. Валовая, 26, оф. 7

Akimov Anton Viktorovich

Director of Government Relations, Joint-Stock Company "Kordinat"

115054, Russia, g. Moscow, ul. Valovaya, 26, of. 7

akimov_84@mail.ru
Другие публикации этого автора
 

 

DOI:

10.7256/2585-7797.2020.2.33401

Дата направления статьи в редакцию:

08-07-2020


Дата публикации:

30-07-2020


Аннотация: В статье представлено описание этапов создания и структуры информационной базы статистических источников по истории российской трубной отрасли к. XIX - нач. XX вв., а также обзор используемых при ее создании источников, обоснование актуальности исследования и краткая характеристика трубной отрасли в расстраиваемом периоде. Всего выделено четыре этапа, каждый из которых получил свою характеристику с точки зрения содержания, взаимосвязи элементов, наличия количественных значений и их анализа. В статье приведены примеры схем создания таблиц разного вида, составляющих основу ресурса, и конкретные примеры их внешнего вида.   Научная новизна заключается в постановке задач и характере их решения, которые с учетом рассматриваемой отрасли, хронологических и территориальных рамок исследования, а также других различных показателей, ранее не рассматривались в исторической науке. Кроме того, использование массового статистического материала в подобном формате носит ярко выраженный индивидуальный и уникальный характер. Так, созданный тематический информационный ресурс в цифровом формате, содержащий в динамике различные показатели деятельности отдельных заводов и отрасли в целом, не имеет аналогов и подлежит дальнейшему развитию в соответствии с заложенными в него параметрами. Всего данный ресурс состоит из 25 файлов в формате Excel, содержащих в себе 181 917 числовых значений, из которых 73 591 – значения источников, лежачих в основе ресурса. Предложенная методология формирования подобной информационной базы и анализа содержащихся в ней данных может рассматриваться как новый подход в источниковедении оцифрованных массовых статистических источников.


Ключевые слова:

Статистические источники, Информационная база, Цифровой ресурс, Верификация, Начало XX века, Черная металлургия, Трубная отрасль, Производственные показатели, Рыночные показатели, Структура рабочей силы

Abstract: The article describes the creation and the structure of the information base covering statistical sources related to the history of Russian pipe industry in the late 19th – early 20th centuries, reviews the sources used, justifies topicality of the study and briefly characterizes pipe industry in this period. The author names four stages characterized in terms of their content and interrelation of elements, the presence of quantitative values and their analysis. The article gives examples of schemes for creating different tables that make up the basis of the resource as well as specific examples of their structure. The research novelty is the goals set and the way they are achieved. These have not been addressed by historians before as far as the industry, the chronological and territorial framework and some other parameters are concerned. Moreover, the use of mass statistical material in such a form is clearly individual and unique. In particular, the thematic digital information resource created which demonstrates operating rates of individual plants and the branch as a whole does not have analogs and can be further developed in accordance with the parameters introduced. In total, this resource consists of 25 Excel files containing 181 917 numerical values of which 73 591 are the values of sources the resource is based on. The methodology suggested for the creation of such an information base and analysis of its data can be considered a new approach to the source study of digitized mass statistical sources. 


Keywords:

Statistical sources, Information base, Digital resource, Verification, Early 20th century, Ferrous metallurgy, Pipe industry, Performance indicators, Market indicators, Workforce structure

Введение

В современную цифровую эпоху, характеризующуюся бурным развитием информационных технологий и цифровизацией разнообразных процессов, активно увеличивается спрос на оцифрованные источники в гуманитарных науках, в особенности в исторических исследованиях. Так, в исследованиях по экономической истории особую роль играют статистические материалы различного происхождения, характеризующие структуру и динамику развития той или иной отрасли.

Очевидно, что комплекс подобных источников может являться эффективным инструментом исследования определенной проблематики. При этом механизмы формирования источниковых комплексов и их использования находятся еще в стадии становления, а в отношении верификации оцифрованных данных и их источниковедческого анализа возникает ряд проблемных вопросов, подходы к решению которых требуют апробации.

В данной работе предлагается рассмотреть этапы создания и использования информационной базы статистических источников на примере российской трубной отрасли конца XIX - начала XX вв., в отношении которой нами была проведена верификация данных и соответствующий источниковедческий анализ. В целях дальнейшего использования источников, прошедших верификацию, и вовлечения их в более широкий научный оборот, вся составленная информационная база представлена в цифровом формате в открытом доступе на тематическом электронном ресурсе в рамках исследовательского проекта «Металлургия Российской империи в к. XIX–нач. ХХ вв.» (http://www.hist.msu.ru/Departments/Inf/Metallurgy/), реализованного на кафедре исторической информатики исторического факультета МГУ им. М. В. Ломоносова. Это открытый ресурс, который может расширяться по мере оцифровки и добавления данных и их источниковедческого анализа. При этом представленный в рамках данной статьи материал носит несколько упрощенный характер, в том числе и в отношении структуры данных, что определяется ограниченным объемом статьи и связанной с этим формой представления материала.

Информационная база для изучения данной отрасли была сформирована на основе большого количества статистических сборников, составляющих 163 издания, и включают в себя 73 591 числовых значений, характеризующих различные показатели деятельности заводов по производству труб. Более того, в информационной базе содержится большое количество расчетных значений, а общее число всех количественных значений составляет 181 917 чисел.

В целом при разработке подобного комплекса статистических источников и его подготовке к дальнейшему использованию можно выделить следующие этапы:

1) Выявление комплекса источников, лежащих в основе оцифрованного ресурса, и обоснование их достаточной полноты.

2) Разработка структуры цифрового ресурса.

3) Оцифровка и систематизация данных.

4) Верификация данных и их источниковедческий анализ.

В соответствии с вышеперечисленными этапами работы и была сформирована информационная база статистических источников, описание и работа с которой представлены далее. Конечно, первый этап характерен в том числе и для традиционного исследования, а последующие уже имеют свою специфику, связанную непосредственно с работой в цифровом пространстве. Так как представленная работа в большей степени посвящена составлению информационной базы и работе с ней, то первый этап мы рассмотрим без углубления в описание источников и их характеристики. Также необходимо отметить, что структура цифрового ресурса может иметь разные форматы – в виде базы данных, набора независимых или взаимосвязанных таблиц, что связано с целями и задачами исследования, а также, что особенно важно, с форматом исходных источников, лежащих в основе цифрового ресурса.

В нашем случае был выбран формат независимых таблиц единой формы с иерархической структурой данных, где каждый уровень характеризуется определенными показателями и категориями, значения которых представлены в динамике. Это связано с тем, что источники, лежащие в основе информационного ресурса, – это тематические статистические ежегодники, издававшиеся в Российской империи в разных сериях и форматах в к. XIX-нач. XX вв., представленные данными на разных уровнях. Наиболее детализированный уровень в отношении производственных и социальных аспектов – это уровень предприятий, имеющий также дополнительное деление по различным критериям (например, распределение по цехам), а в отношении импорта – соответствующая статья таможенного тарифа. В связи с этим таблицы, лежащие в основе всей структуры ресурса, основаны непосредственно на них, а более высокие уровни – это группы, куда входят в различных вариантах заводы и статьи таможенного тарифа. Это могут быть совокупные значения по губерниям, видам и группам производства, производственным операциям и т.д. – данные более высоких уровней определяются непосредственно спецификой конкретного используемого источника. При этом элементы каждого уровня характеризуются определенными показателями и категориями, где показатели раскрывают более подробно иерархическую структуру, то есть уровни расчетов, а категории характеризуют аспекты деятельности предприятия или отрасли. В составленных таблицах наименования показателей относятся к каждому конкретному уровню расчета и указаны в каждой строке соседних столбцов, а наименования категорий расположены по столбцам, в которых непосредственно находятся количественные значения. Наряду с этим все данные находятся в динамике, где выделяются годичные и месячные периоды, в результате чего каждое значение по конкретному уровню с указанием наименования характеризующих их показателей и категорий относится к определенному промежутку времени.

В абсолютном большинстве случаев количественные значения по элементам каждого уровня (в основе – заводы и статьи таможенного тарифа) представлены в используемых источниках в сумме по всему уровню и сумме значений всех уровней (например, сумма значений заводов по губернии), а также в сумме по категориям. Это позволяет проводить расчеты в различных вариантах на предмет соотношения указанных в источниках значений, что в совокупности с дополнительными вычислениями более сложного формата способствуем задачам верификации данных и источниковедческого анализа, лежащих в основе 4-го этапа.

Таким образом, сложность структуры определяется именно тем, что эти данные многомерные, характеризующиеся разными атрибутами, которые в том числе дополнительно задаются при построении таблиц, непосредственно служащих для анализа количественных значений. В данном случае выделяются два вида таблиц: 1) исходные таблицы, составленные на основе количественных значений используемых источников, в которых также присутствуют дополнительные расчетные показатели; 2) таблицы для целей анализа, которые были составлены на основе исходных таблиц с дополнительными расчетами и новыми введёнными атрибутами, служащими для расчета по заданным критериям. Каждый из видов таблиц, краткие их характеристики, состав и возможности использования будут представлены далее при рассмотрении этапов проведения работ по составлению информационной базы.

Еще раз отметим, что все таблицы информационной базы находятся в открытом доступе (ссылка http://www.hist.msu.ru/Departments/Inf/Metallurgy/) и доступны для скачивания. При этом файлы Excel в целях предотвращения случайного изменения значений имеют пароль, ограничивающий возможности пользователей. При этом пароль имеет простой вид «123» и указан в шапке таблицы при ее описании, а при снятии блокировки листа пользователи получают все возможности по работе с ресурсом.

* * *

Прежде чем обратиться к характеристике организации данных и источниковой базы, вкратце охарактеризуем состояние трубной промышленности дореволюционной России, ее роль и динамику развития на рассматриваемом интервале времени.

В основу создания тематической информационной базы статистических источников легли данные трубной промышленности, которая к началу XX в. фактически выделилась в отдельную подотрасль металлургического производства, заняв высокое место в производственной цепочке и на рынке. При этом здесь необходимо четко разделять чугунные и железные трубы, производство которых, несмотря на формальное нахождение в рассматриваемый период в рамках одной подтрасли, находились на совершенно разных уровнях технического развития, а также имеют разные рынки и их характеристики. В связи с этим информационная база и все проводимые расчеты в отношении трубной промышленности делятся по этим двум направлениям, исходя из вида производства труб и типа готовой продукции. Если производство чугунных труб является достаточно простым (в технологическом отношении) и в разном виде существовало в России уже длительное время до рассматриваемого периода, то начало изготовления железных труб в промышленном масштабе относится только к середине 70-х гг. XIX в., а с сер. 80-х гг. XIX в. наступил настоящий рывок в их производстве, сопровождающийся технической революцией. В это время в Южном районе Российской империи стали появляться одним за другим заводы, специализирующиеся на производстве железных труб. Это было связано с близостью сырьевой базы, что, конечно же, было характерно для всех заводов южных губерний, а также, что не менее важно, близостью к рынкам сбыта, в первую очередь – к активно развивавшимся нефтяным районам северного Кавказа. Соответственно, запросы потребителей сформировали и предложение, в том числе по видам выпускаемой продукции, где особенную роль заняли трубы для нефтяной промышленности (прообразы современных труб большого диаметра, обсадные трубы, бурильные и пр.). Для возможности конкуренции с импортной продукцией строящиеся трубные заводы получали самые современные на тот момент технологии, целиком закупая оборудование за границей, а иногда и целые заводы. Так, известно, что производства труб для одного из первых трубопроводов Баку-Батуми в США Никополь-Мариупольским металлургическим обществом был закуплен трубопрокатный цех, запущенный 1 (13) февраля 1897 г. и ставший впоследствии одним из крупнейших трубопрокатных заводов. Из других крупных заводов, специализирующихся на производстве железных труб, необходимо отметить Екатеринославский трубопрокатный завод (ст. Горяиново) и Таганрогский завод. Помимо производства железных труб, в Южном районе также присутствовали и заводы, являющееся крупнейшими производителями чугунных труб – это в первую очередь Александровский, Сулинский, Днепровский и Макеевский заводы, а также некоторые другие. В целом Юг Российской империи стал крупнейшим производителем трубной продукции, на который в 1905 г. приходилось 71,6 % всего производства чугунных труб и 81,3 % железных труб, а к 1915 г. эти доли выросли, соответственно, до 79,4 % и 83,5 % (таблица 1).

Таблица 1. Объем производства в Российской империи типов продукта II и IV и трубной продукции, пуд. [4, 10, расчеты автора]

Из других районов в отношении железных труб можно выделить Царство Польское, где производство начало развиваться даже раньше, чем на Юге, но по ряду причин быстро потеряло свои позиции, а также Северный и Приволжский районы, где имелось производство отдельных видов железных труб, а в отношении чугунных труб – это в первую очередь Центральный и Уральский районы, где производство, как правило, было распределено по небольшим предприятиям. Из прочих заводов здесь можно выделить машиностроительный завод Гартмана и Ижорский завод, где выпускались в том числе высокотехнологичные бесшовные трубы, применяющиеся в производстве паровозов и военных судов. Безусловно, имелись и другие заводы, каждый из которых внес свой вклад в развитие трубного производства России. В целом типология трубной продукции в рассматриваемом периоде уже была достаточно сложна и близка к современной, где можно выделить трубы по виду используемого сырья и производства (железные, чугунные, из других материалов), виду производства (сварные, бесшовные, литые, клепанные и пр.), отрасли использования (жилищно-коммунальное хозяйство, нефтяная отрасль, машиностроение и пр.), наименованию (обсадные, бурильные, котельные, водопроводные и пр.), а также по другим признакам.

Дополнительно отметим значительный объем трубной продукции среди других видов металлургического производства. Как видно из таблицы 1, в целом по Российской империи в 1905 г. доля чугунных труб от всего объема производства второго продукта Б составила 11,8 %, а в 1915 г. – уже 13,0 %, доля же железных труб от типа продукта IV составила, соответственно, 29,8 % и 41,9 %. По району Южной России аналогичные доли, в особенности в отношении чугунных труб, составили более высокие значении: в 1905 г. –23,4 % и 52,4 % и в 1915 г. – 22,2 % и 47,0 %, что подтверждает высокое значение региона в отрасли. Так как Южный район являлся безусловным лидеров в производстве трубной продукции, по которому также имеется развитая статистика, то в рамках информационной статистической базы ему отведено особое значение, и отдельные таблицы посвящены именно этому региону.

Также необходимо отметить постоянное снижение доли импорта трубной продукции на внутреннем рынке. Это касается в первую очередь железных труб, так как чугунные трубы по объективным причинам импортировались в очень незначительных объемах, а их доля от внутреннего рынка была ничтожна. Так, в 1870 г. доля импорта на внутреннем рынке Российской империи по железным трубам составляла 100 %, т.е. все трубы, потребляемые внутри страны, были импортного производства. В дальнейшем, вследствие расширения внутреннего рынка и при проведении протекционисткой политики государства, последовало строительство на юге Российской империи крупнейших трубных заводов, в результате чего уже в 1888-1892 гг. среднезвзвешенная доля импорта составляла 20,3 % [14, с. 210] при производстве в год стальных труб в 300 тыс. пуд [14, с. 59] и импорте в 76,3 тыс. пуд. [14, с. 49]. В начале XX века подобные тенденции продолжились, в связи с чем доля импорта еще упала, составив 14,6 % от внутреннего рынка в 1905 г. и в 1915 г. – 7,9 % [4, 7, расчеты автора]. При этом в объеме импорта железных изделий доля железных труб увеличилась с 1905 г. по 1915 г. на 2,6 п.п. (с 19,5 % до 22,1 %), а в общем объеме всех готовых изделий, включая чугунные, снизилась 1,9 п.п. (с 9 % до 7,1 %), что представлено в таблице 2.

Таблица 2. Объем импорта готовых железных изделий и трубной продукции в Российскую империю, пуд. [4, 7, расчеты автора]*

*Все статьи таможенного тарифа, за исключением 150 3 в 1905 г.

Как уже было сказано, на рынке импортных чугунных труб практически не было: в 1905 г. они составляли только 0,04 % объема рынка, а в 1915 г. – 0,2 % [4, 7, расчеты автора]. При этом необходимо отметить, что отмеченный объем импорта в таблице 2 в 1905 г. по чугунным трубам не включает в себя данные статьи таможенного тарифа 150 3, по которой трубы импортировались в небольших объемах, но отдельно не выделялись. В 1906 г. произошло изменение статей таменного тарифа, в результате чего чугунные трубы стали выделяляться более предметно, а статистика в отношении них них стала значительно точнее, что послужило возможностью их включения в расчеты.

Таким образом, изготовление труб в России в начале XX в. стало одним из важных направлений металлургического производства, обеспечивая своей продукций такие отрасли как нефтяная промышленность, жилищно-коммунальное хозяйство и машиностроение. При этом трубное производство с момента своего зарождения в сер. 80-х гг. XIX в. являлось одним из наиболее технически развитых направлений металлургии, где использовались самые современные на тот момент технологии. В связи с этим изучение трубной промышленности является важным и интересным аспектом развития всей металлургии Российской империи. При этом, несмотря на важность подотрасли, история трубного производства ранее не рассматривалась в отечественной историографии в качестве самостоятельного объекта исследования.

Также необходимо отметить высокую роль и статус статистических источников в исследовании черной металлургии, как, впрочем, и других отраслей промышленности. В особенности значение статистических источников стало возрастать при активном развитии металлургии как отрасли во время экономического подъема 90-х гг. XIX в. и окончательном становлении отраслевой и государственной статистики. Изданные в этот период и вплоть до 1917 г. статистические сборники достаточно широко вовлечены в научный оборот. Между тем, ни в одном исследовании источниковедческий анализ комплекса приводимых в данных источниках статистических значений в отношении металлургической продукции и оценка их информационного потенциала не были проведены. Отдельные источники нашей коллекции статистических ежегодников подвергались анализу и статистической обработке, что являлось скорее единичными случаями без претензии на комплексную обработку [3, 5]. Таким образом, внимание к трубной отрасли объясняется еще и тем, что, несмотря на наличие богатого статистического материала, статистические источники до сих пор не подвергались систематическому изучению. Также можно констатировать, что изучение структуры и динамики развития отраслей российской промышленности на базе массового статистического анализа в подобном формате до сих пор не проводилось как по трубной отрасли, так и другим отраслям.

В связи с этим далее предлагается подход к созданию тематической информационной базы статистических источников, составляющих основу исследования трубного производства в России и его эволюции, на основе представленных выше этапов.

Этап 1. Выявление комплекса источников и обоснование их достаточной полноты

На основе анализа разнообразных статистических источников было выбрано несколько видов изданий, в которых в различных видах выделялась трубная продукция. В основу ресурса легли 4 основных набора источников, характеризующих производственные, рыночные и социальные аспекты деятельности трубных заводов в к. XIX-нач. XX вв.: 1) «Железная промышленность Южной России [за 1902-1915 гг.]» [4]; 2) «Свод статистических данных по железоделательной промышленности [за 1903-1917 гг.]» [10]; 3) «Сборник статистических сведений о горнозаводской промышленности России [за 1897-1911 гг.]» [9]; 4) «Обзор внешней торговли России по европейской и азиатской границам [за 1898-1915 гг.]» [7]. Дополнительно к ним в целях сравнения отдельных показателей были добавлены еще 5 источников: 1) «Статистические сведения о фабриках и заводах по производствам, не обложенным акцизом, за 1900 г.» [12]; 2) «Статистические сведения по обрабатывающей фабрично-заводской промышленности Российской империи за 1908 г.» [13]; 3) «Материалы по пересмотру торговых договоров. № 9, Свод статистических данных о привозе в Россию руд, металлов и изделий из металлов» [6]; 4) «Привоз иностранных товаров в Россию: свод данных русской статистики внешней торговли за 1900-1911 годы. Ч. 2» [8]; 5) «Статистика несчастных случаев с рабочими горной и горнозаводской промышленности южной России за 1908-1904 гг.» [11]. Общее распределение всех значений используемых значений источников при составлении информационной базы представлено в таблице 3.

Таблица 3. Количественные характеристики используемых источников

*В месячных и годовых периодах.

Именно эти источники, на наш взгляд, являются наиболее репрезентативными с точки зрения представления социально-экономических показателей развития трубной отрасли в к.XIX-нач. XX вв. В данном случае были рассмотрены все известные статистические сборники по промышленному производству и социальным аспектам, по результатам анализа которых было определено, что в них интересующие нас сведения отсутствуют или указаны в гораздо меньшем составе или в неприемлемом для нас виде, не вполне соотносящимся с уже определенными категориями. При этом необходимо отметить, что отдельные виды источников, как, например, статистика перевозок товаров железными дорогами, в которых также можно выделить перевозку трубной продукции, или цены на трубную продукцию, которые напрямую влияют на рынок, не рассматривались в качестве компонент создаваемой базы. Это связано, с одной стороны, с влиянием дополнительных категорий на отдельные элементы рынка, а с другой – с неравномерным распределением этих категорий по периодам и территориям, а также с высокой трудоемкостью процесса. В связи с этим на текущем этапе создания информационной системы было решено ограничиться наиболее существенными (базовыми) элементами, а в последующем уже добавлять дополнительные и трансформировать систему с точки зрений дальнейшей интеграции таблиц.

Этап 2. Разработка структуры цифрового ресурса

Структура цифрового ресурса, как уже было сказано, определяется рядом фактором, связанных как с целями и задачами построения ресурса, так и исходными данными используемых источников, в том числе с форматом представления в них данных. С учетом разнообразия используемых источников для построения информационной базы по трубной отрасли начала XX века были выбраны отдельные таблицы по определенным направлениям, составленные на основе конкретных источников, идентичной конструкции. Соответственно, эти конструкции в виде составленных Excel-таблиц связаны как со структурой данных источников, на основе которого они были составлены, так и содержательной составляющей и логикой построения и связи данных между собой.

На схеме 1 представлен упрощенный сегмент структуры, входящий в основу каждой таблицы информационной базы, с расположенными в нем элементами и пояснениями. На схеме 1 наглядно показано, как показатели, привязанные к уровням расчета (в данном случае одного уровня с условным делением по видам 1.1 и 1.2), располагаются по строкам и напрямую между собой не связаны, но логически характеризуют и дополняют друг друга. При этом внутри каждой категории находятся более мелкие деления, связанные с категорией верхнего уровня. Подобная иерархическая структура в виде повторяющихся сегментов по периодам (в месячных и годичных периодах) в гораздо более сложных и объёмных вариантах характерна для всех составленных таблиц.

Схема 1. Упрощенный сегмент структуры составленных таблиц и расположения в нем составляющих элементов с элементами расчета и пояснениями

Все составленные таблицы информационной базы включают в себя различные показатели и категории значений, которые разделяются по своему местонахождению в таблице. Так, все показатели располагаются по строкам, достаточно структурированы между собой и не имеют дополнительных групп внутри себя (в соседних столбцах они связаны только логически и системно), а категории анализа находятся в шапке составленных таблиц, достаточно слабо структурированы и в абсолютном большинстве случаев делятся на ряд дополнительных подкатегорий (располагаются по строкам ниже – в таблице 4 это условные подкатегории N и M). Например, среди показателей можно выделить следующие: «Тип завода», «Источник данных», «Год» и/или «Месяц», «Название продукции» и др. Отдельно выделяются показатели, которые могут составлять и уровни расчета, к которым в наиболее детализированном виде в первую очередь относятся «Завод» и «Статья таможенного тарифа» (и/или «Название статьи таможенного тарифа»), а в более общем – губернии, группы производств, вид продукции и т.д. Отношение каждого показателя к уровню расчета определяется особенностями каждого источника и нюансами расчета внутри них значений. В целом показателей по каждой составленной таблице, как правило, до 10 штук, наименования которых отражают их сущность. Так, например, категория «Завод» обозначает конкретный завод или сумму значений заводов по их типу или сумму типов заводов, аналогичным образом «Год» и/или «Месяц» – конкретный год и/или месяц и так далее по всем показателям. Характеристика каждого размещенного в таблице значения определяется совокупностью атрибутов, наименования показателей которых размещены в каждой строке, а наименования категорий – в названиях столбцов. Отдельно необходимо отметить, что в каждой составленной таблице в обязательном порядке присутствует ссылка на источник данных, который обозначает два варианта: непосредственно источник («Источник», дополнительно может быть «Таблица в источнике»), откуда получены исходные данные для составления таблицы (полное биографическое описание источника представлено под названием каждой таблицы), а также указания на их расчетное происхождение («Расчет»). В случае отнесения значений напрямую к источнику по каждой строке проставлен номер страницы, непосредственно с которой были выписаны значения. При этом год, а также в случае необходимости месяц отнесения данных к источнику определяется по соответствующим обозначениям показателей «Год» и/или «Месяц» в данной строке. Таким образом, абсолютно к каждой цифре по строкам есть ссылка на источник их происхождения вплоть до обозначения страницы (за исключением таблицы 22, где в связи с рядом особенностей обработки данных не удалось сделать ссылки, так как их число становилось бы очень большим).

Общее число категорий анализа верхнего уровня относительно невелико, где среди базовых можно выделить следующие их виды: «Количество рабочих», «Число пострадавших рабочих», «Размещение рабочих», «Число школ», «Число больниц», «Вид продукции», «Производственные операции», «Участки государственной границы» и другие. Но каждый из этих видов делится в свою очередь на подвиды, которые также могут представлять их себя разные варианты. Подобное разделение может достигать 3-х, а в отдельных случаев 4-х и более уровней, что, конечно, отражается на структуре таблицы и сложности расчетов как при источниковедческом, там и при содержательном анализе.

Также необходимо отметить, что по всем показателям и категориям представлены и обобщенные данные («Всего», «Итого» и пр.), которые относятся к сумме по расчетным группам и включат в себя расчётные данные и данные источника. Соответственно, все расчётные показатели в виде формул присутствуют в каждом сегменте составляемой таблицы и при дублировании сегментов при построении итоговых таблиц дублировались в автоматическом режиме, что облегчало построение структуры и оцифровка данных. При этом данные формулы также являлись важным элементом верификации, проводимой на 4-м этапе, но элементы которой внедрялись в рамках разработки структуры оцифрованного ресурса.

Таким образом, все составленные таблицы унифицированы и структурированы по единой форме и включают в себя значения источников и значительное число расчетных значений на основе формул Excel, распределённых по различным показателям и категориям значений в годовом и/или месячном разрезах.

Конкретный пример соотношения всех названных атрибутов показан в упрощенном виде в таблице 4, представляющей собой фрагмент части информационной базы составленной таблицы 1 («Количество рабочих с разбивкой по цехам, размещению и семейному статусу на металлургических заводах Южной России в 1902-1915 гг.»).

Таблица 4. Фрагмент информационной базы (Таблица 1 « Количество рабочих с разбивкой по цехам, размещению и семейному статусу на металлургических заводах Южной России в 1902-1915 гг.»)

Во фрагменте базы, представленной в таблице 4, атрибут «Завод» является первым уровнем расчета. При этом представленные на фрагменте заводы относятся по своему типу к доменным заводам, а далее в реальной таблице расположены еще передельные заводы, которые также относятся к первому уровню расчета. Сумма же доменных заводов (в таблице 4 – атрибут «ВСЕГО_ГОД») или передельных заводов относится ко второму уровню расчетов, а сумма итоговых значений доменных и передельный заводов – третий уровень. В рассматриваемом фрагменте в связи с упрощенной структурой таблицы уровни расчета также простые и расположены в рамках одного столбца, но в сложных таблицах они могут распределяться по нескольким столбцам и иметь по 4-5 уровней расчета.

Соответственно, по каждому заводу в строках показаны значения количества рабочих по конкретному цеху или всему заводу целиком. Наименования цехов или видов деятельности на заводах, являющиеся здесь категориями, которые характеризуют деятельность предприятия, представлены в названиях столбцов. Три крайних столбца – сумма по каждому заводу или сумма заводов по их типу (в данном случае доменные заводы) по всем цехам, где представлены значения на основе данных используемого при составлении таблицы источника («Источник»), автоматического расчета на основе формул Excel («Расчет») и их разницы. Аналогично строится расчет по всем заводам в рамках одного уровня по каждому цеху или всем цехам (упоминающийся выше атрибут «ВСЕГО_ГОД» в столбце «Завод»), где также выделяется «Расчет», «Источник» и «Разница». Подобные расчеты определяют их виды как горизонтальный и вертикальный, а их перекрестное использование позволяет выделить потенциально ошибочное значение, которого в расстраиваемом фрагменте не обнаружено. Еще раз подчеркнем, что представленный пример – это максимально простая структура, и в большинстве составленных таблиц она имеет гораздо более сложные формы, пик которых представлен в исходных таблицах базы, составленных на основе значений источников, под номерами 12 и 13 и представленных далее.

Этап 3. Оцифровка и систематизация данных

На данном этапе в рамках рассматриваемой информационной базы можно выделить две различных ступени, первая из которых относится непосредственно к оцифровке данных в рамках разработанной структуры, а последующая связана с дополнительной обработкой информации и ее систематизацией в целях дальнейшего анализа.

Оцифровка данных является фактическим переводом всех исходных значений используемых источников в машиночитаемый формат, что в рамках рассматриваемой информационной базы происходило в полуавтоматическом режиме. Так, как уже было сказано выше, структура представленного цифрового ресурса в рамках одной таблицы состоит из повторяющихся сегментов одинакового формата, а также набором формул по постоянным категориям, относящихся к этапу верификации, но служащих в том числе и для упрощения оцифровки. В данном случае происходило занесение количественных значений источников в каждый повторяющийся сегмент или изменение в нем данных при уже присутствующих значениях, отличающихся от ранее занесенных в рамках предыдущего сегмента. Набор формул, который уже введен на первоначальном этапе составления таблицы, в рамках каждого нового сегмента помогал контролировать количество и размер вносимых значений, так как в автоматическом режиме в том числе происходило их сравнение с данными источника.

Все составленные таблицы информационной базы распределены по направлениям исследования, а также используемым для их составления источникам. Всего подобных таблиц было составлено 23 штуки, наименования которых и общие количественные характеристики представлены в таблице 5.

Таблица 5. Наименования составленных таблиц информационной базы и их количественные характеристики

Как видим, общее количество всех используемых значений источников соответствует аналогичным значениям, ранее представленным в таблице 1, а количество расчетных значений превышает их на 53 812 штук, составляя 127 403 штук. Здесь также необходимо отметить, что отдельные исходные таблицы, составленные на базе рассматриваемых источников, состоят из нескольких разных таблиц небольшого формата, что связано с совершенно разной структурой данных используемых источников. Это относиться к составленным таблицам информационной базы под номерами 9, 13 и 25, состоящих, соответственно, из 5, 3 и 2 подобных таблиц меньшего формата.

Помимо оцифровки данных в рамках созданной структуры и составления итоговых таблиц, к каждой из них была составлена так называемая таблица для целей анализа, предназначенная для систематизации данных и упрощения поиска информации и сводом имеющихся данных в единый формат. Все составленные таблицы для целей анализа по своей структуре достаточно близки между собой. В основе каждой подобной таблицы для целей анализа, где все данные группируются в одном столбце с выделением дополнительных критериев, лежит исходная таблица на основе данных источника. Так, обязательными элементами всех подобных таблиц являлись следующие:

1) Помещение всех количественных значений в один столбец;

2) Повтор всех показателей конкретного свода в рамках каждого рассматриваемого этапа по строкам;

3) Перемещение всех категорий количественных значений, которые ранее располагались по столбцам, по строкам и соотношение их с конкретными показателями;

4) Введение дополнительных категорий в отношении ошибочных значений и групп расчета, а также дополнительных категорий, служащих упрощению расчета сводных средневзвешенных значений по различным показателям и категориям.

На схеме 2 представлена упрощённая схема составления таблиц для целей анализа на основе схемы, представленной ранее на схеме 1 отношении условной категории N1. В реальных таблицах для целей анализа происходит перенос в один столбец абсолютно всех значений, а в столбец под наименованием «Категория» переносятся их наименования. Соответственно, при наличии дополнительных категорий вводятся дополнительные столбцы с их обозначением. Также дополнительно вводятся ряд критериев, выделенных в отдельных столбцах, целью которых является проведение расчетов в рамках внутренней и внешней критики источников на 4-м этапе проведения работы.

Схема 2. Упрощенная схема составления таблицы для целей анализа и пояснения к ней

Каждая таблица для целей анализа обладает своей спецификой, но в целом среди дополнительных критериев выделяется обозначение значений в отношении ошибки (первичная ошибка, вторичная ошибка, без ошибки, категория с ошибкой или без нее и т.д.), дополнительный источник информации (источник, вид расчета – по горизонтали, по вертикали, разница или без выделения), отношение к наличию числа (число / пусто), различные дополнительные показатели, способствующие упрощению расчета, и т.д. Таблицы для целей анализа, в зависимости от числа составленных таблиц к каждой исходной таблице на основе данных источника, были условно обозначены по номерам как таблицы по типу от I до V, что связано с наличием различных их видов. В абсолютном большинстве случаев это таблицы по типу анализа I, связанные с простой структурой представления данных в рамках таблиц, на основе которых они были составлены и с аналогичным названием. Но кроме них по отдельным исходным таблицам на основе данных источников были составлены и другие типы таблиц, связанные с анализом показателей по иным параметрам. В рамках дополнительных таблиц по типам анализа были проведены ряд расчетов и введены дополнительные критерии, в результате чего возможности их анализа были значительно увеличены. В первую очередь данные действия относятся к исходной таблице 13, которая характеризуется самым большим объемом данных и сложной структурой представления. В данном случае было составлено целых 5 таблиц по типу анализа, характеризующихся различными категориями данных. Похожая картина, но в менее значительных масштабах также наблюдается и по таблицам 12 и 22. Также отдельные таблицы по типу анализа в рамках исходной составленной таблицы были объединены в одну таблицу по типу анализа I (таблицы 9 и 15), хотя это потребовало значительных усилий с точки зрения адаптации и свода воедино всех различающихся категорий значений. Но единые таблицы по типу анализа в данном случае способствуют более полному анализу всех данных разных источников, на основе которых были составлены исходные таблицы, и учету всех значений в рамках сводных таблиц по различным параметрам. Соответственно, все таблицы для целей анализа под соответствующим номером своего типа находятся в одном файле Excel с исходной таблицей и доступны для скачивания по обозначенной ранее ссылки.

Помимо составленных на основе данных источников исходных таблиц и таблиц для целей анализа, предназначенных непосредственно для расчётов, также были дополнительно составлены так называемые межсводные таблицы МТ I и МТ II, состоящие в своей основе из разных исходных таблиц на основе данных источников, но дополнительно обработанные и соединенные в одну (МТ – Межсводная Таблица). Межсводные таблицы были составлены в целях дальнейшего сравнения источников между собой по всем видам значений в рамках аналогичных критериев, что является важным элементом внешней критики источников. Как понятно из категории номеров, таких межсводных таблиц было составлено две: МТ I на основе таблиц 12 и 13 и МТ II на основе таблиц 17, 21 и 23. Соответственно, для составления данных межсводных таблиц использовалась отдельная методика, которая в настоящей статье не раскрывается, так как это отдельная тема. Но ее суть заключается в выделении полностью совпадающих периодов по разным таблицам, составленных на основе различных источников, приведение всех значений к одной единице измерения и сравнение полученных данных в рамках аналогичных категорий сравнения. Межсводные таблицы в рамках проекта выделены в отдельные файлы Excel и также доступны для скачивания и дальнейшей работы с ними.

Наименования отличающихся таблиц по типам анализа в рамках исходных таблиц на основе данных источников и межсводных таблиц, а также их количественные характеристики представлены в таблице 6. Как видим, общее количество значений с учетом дополнительно составленных таблиц, предназначенных непосредственно для источниковедческого и содержательного анализа, значительно превышает исходные данные источников, что связано с большим количеством дополнительных расчётов.

Таблица 6. Наименования отличающихся таблиц по типам анализа в рамках исходных таблиц на основе данных источников и их количественные характеристики

Именно построение таблиц для целей анализа и межсводных таблиц с сохранением всех исходных количественных значений, полученных при оцифровке исходных данных используемых источников, а также расчетных показателей, позволило проводить их сводных анализ в самой разной конфигурации, что предоставило возможность свести все данные к единым формам со средневзвешенными значениями и провести их верификацию.

Работа с данными таблицами, как, впрочем, со всеми другими аналогичными таблицами для целей анализа, позволяет проводить источниковедческий и содержательный анализ, описание используемых принципов которых представлено далее.

Этап 4. Верификация данных и их источниковедческий анализ

Верификация данных, которой посвящен данный этап, является очень важным элементом всего процесса, так как позволяет подтвердить корректность, точность и достоверность всего массива данных, а не только каждого источника по отдельности.В данном случае под верификацией понимается проверка значений источников и степень сопоставимости их между собой, что является важным элементом критики источников. Здесь фактически можно выделить 2 этапа верификации:

1) Предварительный, когда происходит перенос данных с источника в цифровой формат, после чего следует сверка значений на предмет возможных ошибок переноса;

2) Основной, непосредственно связанный с источниковедческим анализом и заключающийся в анализе данных внутри каждого источника по отдельности (внутренняя критика) и в проверке значений разных источников между собой (внешняя критика). Здесь необходимо отметить, что отдельные источники состоят из разных таблиц, пересекающихся между собой по различным критериям, в связи с чем внутренний анализ фактически состоит из двух частей: проверка значений на предмет ошибок внутри отдельных таблиц источника и сравнение разных таблиц одного источника между собой.

Предварительный этап верификации, как уже отмечалось выше, связан с расчётными показателями в виде формул, присутствующими во всех сегментах всех составленных таблиц, когда при внесении данных происходило их автоматическое суммирование и сравнение их с аналогичными значениями источника. Во всех случаях расхождения между исходными данными источника и данными автоматического расчета проводилась повторная проверка на предмет возможных ошибок при составлении таблицы, где в случае подтверждения расхождений значения источниками признавались ошибками или неточностями. В рассмотренной ранее таблице 4 представлена типичная упрощенная схема расчета. Соответственно, все показатели А и В по каждой из категорий (N и M) являются группами расчета, по сумме которых расчет производился в горизонтальной и вертикальной плоскостях на основе формул Excel («Расчет») и сравнивался с аналогичными значениями источника («Источник»), в результате чего разница значений («Разница») определяла наличие расхождений. Все значения, по которым были выявлены расхождения, и значения, имеющие отношение к их расчету, в сводах в целях их визуализации закрашивались цветом, что также представлено в рассматриваемой таблице. Значения, по которым были выявлены расхождения, по умолчанию признавались ошибочными и по ним производился дополнительные расчеты в рамках верификации и источниковедческого анализа. Как видно из таблицы 4, ошибочные значения закрашивались двумя цветами: темно-зеленым и светло-зеленым, которые обозначают разные типы ошибок, влияющие на дальнейшие расчеты в рамках непосредственно источниковедческого анализа.

Основной этап верификации связан непосредственно с расчетами значений в самых разных конфигурациях в таблицах для целей анализа и межсводных таблицах. Как уже было сказано ранее, при их составлении использовались все значения исходных таблиц на основе данных источника с обозначаемыми их категориями, в том числе по отношению к ошибочным значениям. Далее добавлялись дополнительные столбцы с характеристиками значений, служащих для возможностей расчета в рамках составления сводных таблиц в файле Excel. Именно набор различных показателей и категорий анализа и их взаимосвязи непосредственно определяют качество источниковедческого анализа. В данном случае очень важно четко понимать структуру данных и их выбор в рамках сводных данных, так как зачастую показатели дублируются, накладывается друг на друга или взаимоисключаются. Более того, по отдельным типам таблиц в рамках источниковедческого анализа присутствуют и разные виды расчета, связанные с категориями расчетных показателей, а также уровни расчета. При этом таблицы по типу анализа априори связаны с исходными таблицами, на основе которых они были составлены, а виды расчета — это своеобразные искусственные элементы, показывающие различные варианты расчета показателей.

Также отметим, что расчеты на предмет расхождения показателей уже проведены внутри всех составленных таблиц на основе исходных данных источника, в том числе в отношении каждой таблицы по типу анализа и межсводным таблицам по различным критериям и видам продукции. Подобные расчеты на основе составленных таблиц, входящих в представленную тематическую информационную базу, ранее концептуально уже были проведены и апробированы в рамках проведенных исследований в отношении численного состава и структуры рабочих на трубных заводах России в начале XX века [2] и по анализу значений источника «Железная промышленность Южной России» [1], подтвердив высокий методологический уровень. Методика проведения подобного сравнения требует подробного описания и будет отдельно представлена с конкретными результатами расчетов в рамках отдельной статьи. Здесь только отметим, что ее суть заключается в грамотном определении взаимосвязанных показателей при исключении побочных элементов, искажающих расчёт в рамках выбранных переменных.

Заключение

В результате проведенных расчетов можно констатировать, что анализ таблиц на основе материалов источников позволяет провести комплексную внутреннюю критику источников, а сравнение значений материалов по различным характеристикам между собой определяет их внешнюю критику. Таким образом, источниковедческий анализ массива оцифрованных данных и их верификация связаны с вопросами внутренней и/или внешней критики, которые возникают не только по отношению к каждому использованному источнику по отдельности, но и в целом ко всей итоговой структуре данных, а также их классификации или перечислению в рамках источниковедческих задач.

В целом же в данном исследовании представлен цикл работ и цепочка действий, в результате которых получена выверенная и логически структурированная информационная база, комплексный цифровой ресурс, создающий удобный формат для пользователей в рамках дальнейшей исследовательской аналитической работы. При этом в отношении как общего количества цифровых значений статистических источников, лежащих в основе составленных таблиц, так и расчетных показателей, служащих для удобства использования базы и различных дополнительных операций, данная информационная база является самым большим из известных нам оцифрованных статистических ресурсом по экономической истории дореволюционной России.

Библиография
1. Акимов А.В. «Железная промышленность Южной России» как источник по исследованию трубной промышленности начала XX века // Исторический журнал: научные исследования. — 2018.-№ 4.-С.71-84. DOI: 10.7256/2454-0609.2018.4.26614. URL: https://e-notabene.ru/phzni/article_26614.html.
2. Акимов А.В. Численный состав и структура рабочих на трубных заводах России в начале XX века: источниковедческий анализ // Исторический журнал: научные исследования. — 2019.-№ 3.-С.67-80. DOI: 10.7256/2454-0609.2019.3.28833. URL: https://e-notabene.ru/phzni/article_28833.html.
3. Динамика российской и советской промышленности в связи с развитием народного хозяйства за сорок лет (1887-1926 гг.) / под ред. В. А. Базарова, В. Е. Варзара, В. Г. Громана (пред. редкол.) [и др.]. – М.-Л.: Гос. изд-во, 1929-1930.
4. Железная промышленность Южной России [за 1902-1915 гг.] – Харьков: тип. Б. Бенгис, 1905-1917. – 14 т.
5. Кафенгауз Л.Б. Эволюция промышленного производства России (последняя треть XIX в. – 30-е годы XX в.) – М., 1994.
6. Материалы по пересмотру торговых договоров / Совет съездов представителей пром-сти и торговли. Совет съездов представителей бирж. торговли и сел. хоз-ва. Особая комис. по пересмотру торг. договоров.-Спб.: Электро-тип. Н. Я. Стойковой, 1911-1917.-26 см.-№ 9: Свод статистических данных о привозе в Россию руд, металлов и изделий из металлов, кроме машин и аппаратов, инструментов и пр. (ст. ст. 138-166 таможенного тарифа) за 1891-1911 гг., в связи с изменениями таможенного тарифа за то же время.-1913.-[2], XXI, 127 с.
7. Обзор внешней торговли России по европейской и азиатской границам за 1898-1915 гг.-Спб : Департамент таможенных сборов, 1900-1917.
8. Привоз иностранных товаров в Россию: Свод данных рус. статистики внеш. торговли за 1900-1911 годы: Материалы к пересмотру торгового договора с Германией / М-во финансов. Деп. тамож. сборов.-Спб.: Типо-лит. М.П. Фроловой, 1913.-33 см.-Ч. 2: Группы 6-10. Статьи таможенного тарифа с 89 по 218.-[1], 2, 365-880, VIII с.
9. Сборник статистических сведений о горнозаводской промышленности России за 1897-1911 гг.: Сост. по офиц. данным.-Петроград: Горный учен. ком., 1904-1918 – 16 т.
10. Свод статистических данных по железоделательной промышленности за 1903-1917 гг. / М-во финансов. Ред. период. изд. М-ва финансов. Центр. статистика железоделательной пром-ти – СПб., 1903-1918 гг.
11. Статистика несчастных случаев с рабочими горной и горнозаводской промышленности южной России за 1908-1904 гг. под ред. Председ. совета съезда Н.Ф. фон-Дитмара – Харьков: Тип. Б. Бенгис,1910 г. – 94 с.
12. Статистические сведения о фабриках и заводах по производствам, не обложенным акцизом, за 1900 г. / Под ред. В.Е.Варзара. СПб.: Изд. Министерства финансов, 1903.
13. Статистические сведения по обрабатывающей фабрично-заводской промышленности Российской империи за 1908 г./ Под ред. В.Е.Варзара. СПб.: Изд. Министерства торговли и промышленности, 1912.
14. Фабрично-заводская промышленность и торговля России – СПб: тип-я В.С. Балашова и К и В.Ф. Демакова, 1893.
References
1. Akimov A.V. «Zheleznaya promyshlennost' Yuzhnoi Rossii» kak istochnik po issledovaniyu trubnoi promyshlennosti nachala XX veka // Istoricheskii zhurnal: nauchnye issledovaniya. — 2018.-№ 4.-S.71-84. DOI: 10.7256/2454-0609.2018.4.26614. URL: https://e-notabene.ru/phzni/article_26614.html.
2. Akimov A.V. Chislennyi sostav i struktura rabochikh na trubnykh zavodakh Rossii v nachale XX veka: istochnikovedcheskii analiz // Istoricheskii zhurnal: nauchnye issledovaniya. — 2019.-№ 3.-S.67-80. DOI: 10.7256/2454-0609.2019.3.28833. URL: https://e-notabene.ru/phzni/article_28833.html.
3. Dinamika rossiiskoi i sovetskoi promyshlennosti v svyazi s razvitiem narodnogo khozyaistva za sorok let (1887-1926 gg.) / pod red. V. A. Bazarova, V. E. Varzara, V. G. Gromana (pred. redkol.) [i dr.]. – M.-L.: Gos. izd-vo, 1929-1930.
4. Zheleznaya promyshlennost' Yuzhnoi Rossii [za 1902-1915 gg.] – Khar'kov: tip. B. Bengis, 1905-1917. – 14 t.
5. Kafengauz L.B. Evolyutsiya promyshlennogo proizvodstva Rossii (poslednyaya tret' XIX v. – 30-e gody XX v.) – M., 1994.
6. Materialy po peresmotru torgovykh dogovorov / Sovet s''ezdov predstavitelei prom-sti i torgovli. Sovet s''ezdov predstavitelei birzh. torgovli i sel. khoz-va. Osobaya komis. po peresmotru torg. dogovorov.-Spb.: Elektro-tip. N. Ya. Stoikovoi, 1911-1917.-26 sm.-№ 9: Svod statisticheskikh dannykh o privoze v Rossiyu rud, metallov i izdelii iz metallov, krome mashin i apparatov, instrumentov i pr. (st. st. 138-166 tamozhennogo tarifa) za 1891-1911 gg., v svyazi s izmeneniyami tamozhennogo tarifa za to zhe vremya.-1913.-[2], XXI, 127 s.
7. Obzor vneshnei torgovli Rossii po evropeiskoi i aziatskoi granitsam za 1898-1915 gg.-Spb : Departament tamozhennykh sborov, 1900-1917.
8. Privoz inostrannykh tovarov v Rossiyu: Svod dannykh rus. statistiki vnesh. torgovli za 1900-1911 gody: Materialy k peresmotru torgovogo dogovora s Germaniei / M-vo finansov. Dep. tamozh. sborov.-Spb.: Tipo-lit. M.P. Frolovoi, 1913.-33 sm.-Ch. 2: Gruppy 6-10. Stat'i tamozhennogo tarifa s 89 po 218.-[1], 2, 365-880, VIII s.
9. Sbornik statisticheskikh svedenii o gornozavodskoi promyshlennosti Rossii za 1897-1911 gg.: Sost. po ofits. dannym.-Petrograd: Gornyi uchen. kom., 1904-1918 – 16 t.
10. Svod statisticheskikh dannykh po zhelezodelatel'noi promyshlennosti za 1903-1917 gg. / M-vo finansov. Red. period. izd. M-va finansov. Tsentr. statistika zhelezodelatel'noi prom-ti – SPb., 1903-1918 gg.
11. Statistika neschastnykh sluchaev s rabochimi gornoi i gornozavodskoi promyshlennosti yuzhnoi Rossii za 1908-1904 gg. pod red. Predsed. soveta s''ezda N.F. fon-Ditmara – Khar'kov: Tip. B. Bengis,1910 g. – 94 s.
12. Statisticheskie svedeniya o fabrikakh i zavodakh po proizvodstvam, ne oblozhennym aktsizom, za 1900 g. / Pod red. V.E.Varzara. SPb.: Izd. Ministerstva finansov, 1903.
13. Statisticheskie svedeniya po obrabatyvayushchei fabrichno-zavodskoi promyshlennosti Rossiiskoi imperii za 1908 g./ Pod red. V.E.Varzara. SPb.: Izd. Ministerstva torgovli i promyshlennosti, 1912.
14. Fabrichno-zavodskaya promyshlennost' i torgovlya Rossii – SPb: tip-ya V.S. Balashova i K i V.F. Demakova, 1893.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Рецензия на статью
«Создание тематической информационной базы статистических источников
по экономической истории: цифровой ресурс и опыт его верификации»

Представленная статья посвящена созданию и верификации электронного ресурса, включающего обширный комплекс статистических источников, содержащих информацию о структуре и динамике развития российской трубной отрасли конца XIX – начала XX вв. Выбранная автором отрасль к началу XX в. занимала видное место в металлургии и уже с XIX в. (во время экономического подъема 1990-х гг.) являлась подотраслью металлургической промышленности, где использовались самые современные на тот момент технологии. Продукция трубного производства была востребована во множестве других отраслей, однако история трубного производства (и это можно констатировать и в отношении других отраслей промышленности) до настоящего времени не становилась объектом отдельного научного исследования, хотя отдельные статистические ежегодники подвергались анализу и статистической обработке. Однако в целом источниковедческий анализ всего комплекса таких источников и оценка их информационного потенциала не были проведены, что характеризует новизну данной работы.

Автор статьи указывает, что целью его работы является разработка, верификация и введение в широкий научный оборот информационной базы путем размещений информации в открытом доступе на сайте исторического факультета МГУ. Цель, поставленная автором работы весьма актуальна, учитывая важность создания инфраструктуры современной исторической науки, одной из важнейших составляющих которой является информационное обеспечение исследований, перевод в электронный формат архивных и опубликованных источников и обеспечение к ним открытого доступа в сети Интернет. Очевидно, что в этой связи очень важна верификация данных (достоверность, полнота, точность), а также их организация: данные должны быть систематизированы, очищены от ошибок и представлены в такой форме, которая должна предусматривать не только их визуализацию, но и анализ в различных конкретно-исторических исследованиях.

Жанр статьи достаточно оригинален. Автор не предлагает какого-либо конкретного исследования, но перед читателем последовательно раскрываются этапы создания информационного ресурса, от выявления наиболее полного комплекса статистических источников и разработки структуры представления данных – до оцифровки и систематизации данных и их верификации. Наиболее подробно рассматриваются второй, третий и четвертый этапы работы.
Автор приводит список разнообразных статистических источников, в которых в различных видах выделялась трубная продукция, выделяя девять основных источниковых комплексов.
При выборе формата представления данных автор берет за основу табличный процессор Excel, связывая этот выбор с форматом исходных источников – статистических ежегодников конца XIX – начала XX вв., содержащих данные на разных уровнях, от отдельных предприятий с разделением по цехам и групп предприятий, видов и групп производства, губерний, статей таможенного тарифа – для данных по импорту и др. Уже это перечисление показывает сложную иерархическую структуру данных, где на разных уровнях фиксируются различные статистические показатели, объединяемые в различные категории. Помимо показателей и категорий разного уровня обобщения автор включает в свой ресурс и динамику их изменений по месяцам и годам. Таким образом, источники содержат сложные иерархические многомерные данные, которые характеризуют специфику сводных статистических таблиц.
В итоге источниковая база работы содержит информацию 163 выявленных по теме работы статистических сборников, включающих около 75 тысяч исходных значений, к которым добавлено еще более 100 тысяч расчетных данных. Автор работает с двумя типами таблиц: исходными и аналитическими (в статье они называются таблицами для целей анализа). Последние ориентированы на выполнение аналитических задач при использовании созданного ресурса. Такие таблицы создавались для каждой из исходных таблиц путем реструктуризации, подробно описанной автором.

Процесс построения исходных и аналитических таблиц демонстрируют наглядные схемы, раскрывающие логику систематизации данных (схемы 1 и 2). Важно, что практически для каждого приведенного в таблицах значения дается ссылка на источник или приводится формула расчета этого значения на основе исходных показателей. Таблицы приведены к единообразному виду, который иллюстрирует приведенный в статье фрагмент одной из таблиц созданного ресурса. Все аналитические таблицы также имеют сходную структуру.
Исходя из возможностей использования электронного ресурса в конкретно-исторических исследованиях различной тематики, а также специфики источников, автор создал 23 таблицы, приводя в статье общую сводку информации об этих таблицах, часть из которых, в свою очередь, состоит из нескольких разных таблиц меньшего формата, обозначенных от I до V в соответствии с типом анализа, для которого предназначены такие таблицы.
Важным этапом создания электронного ресурса является верификация данных. Переходя к этапу верификации, автор определяет этот этап работы, во-первых, как проверку данных, содержащихся в источниках, при переводе их в электронный формат и, во-вторых, как проверку сопоставимости данных разных источников в разных типах таблиц. Методика подобной верификации уже апробирована автором, и ее результаты представлены в двух опубликованных статьях.

Таким образом, в итоге скрупулезной и масштабной работы автора с комплексом статистических источников был создан уникальный открытый электронный ресурс, доступный широкому кругу исследователей в области экономической истории конца XIX – начала XX вв. Можно согласиться с автором в том, что данный ресурс является самым большим по объему из доступных статистических ресурсов по экономической истории дореволюционной России.
Несомненным достоинством данной статьи является то, что концепция, логика и методика формирования ресурса такого рода, представленные читателю в виде общих схем и иллюстративных фрагментов, не остаются чисто теоретическими разработками, но могут быть проверены на конкретных материалах, полностью размещенных в сети. Более того, эти материалы, интегрированные автором в источниковый комплекс, могут послужить базой многих конкретно-исторических исследований по истории промышленности как источник «второго поколения» по отношению к исходным данным, важный вклад в информационное обеспечение исторической науки. Это дает основание полагать, что статья вызовет интерес достаточно широкого круга исследователей, занимающихся историей промышленности и другими направлениями отечественной квантитативной истории. Статья заслуживает публикации в журнале «Историческая информатика» при учете следующих критических замечаний

Так, внешняя критика источников интерпретируется автором исключительно как сопоставление разных источников между собой (это относится в разделу, связанному с построением т.н. межсводных таблиц, и к разделу о верификации источников), и требует, на наш взгляд, более корректного использования терминологии.
Для читателя нелегко разобраться в нумерации таблиц, особенно в начальной части статьи, поскольку некоторые упоминаемые таблицы – это те, которые приведены в тексте статьи, а некоторые (точнее, большая часть) – это таблицы, составляющие электронный ресурс. Желательно устранить эту проблему.
Кроме того, из четырех приведенных в статье схем две являются в принципе нечитаемыми (схемы 3 и 4). Они представляют формат таблиц, который получает пользователь, обращаясь к информации о возможностях различных типов анализа, но нам кажется, что без ущерба для содержания статьи их можно удалить.
В библиографическом списке надо убрать точки с запятой после каждого пункта, а в конце поставить точку.

Последнее – скорее, пожелание. Поскольку все таблицы информационного ресурса находятся в открытом доступе, автор предусмотрел их защиту от случайных изменений в виде простого пароля, но эта защита, возможно, не достаточна в случае изменений не случайных, а намеренных. Поэтому, на наш взгляд, лучше было бы использовать более сложную защиту данных.
Замечания главного редактора от 14.07.2020: "Автор доработал статю в соотвесвтии с замечаниями рецензента".