Методы подготовки данных к анализу слабоструктурированных временных рядов

Игнатенко А.М., Макарова И.Л., Копырин А.С.

doi:10.7256/2454-0714.2019.4.31797

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Вернуться к содержанию

Программные системы и вычислительные методы

Правильная ссылка на статью:

Игнатенко А.М., Макарова И.Л., Копырин А.С. Методы подготовки данных к анализу слабоструктурированных временных рядов // Программные системы и вычислительные методы. 2019. № 4. С. 87-94. DOI: 10.7256/2454-0714.2019.4.31797 URL: https://nbpublish.com/library_read_article.php?id=31797

Методы подготовки данных к анализу слабоструктурированных временных рядов

Игнатенко Анна Михайловна

старший преподаватель, кафедра прикладной математики и информатики, ФГБОУ ВО Сочинский государственный университет

354000, Россия, Краснодарский край, г. Сочи, ул. Пластунская, 94

Ignatenko Anna Mikhailovna

Senior Lecturer, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

allrededor@mail.ru

Другие публикации этого автора

Макарова Ирина Леонидовна

кандидат технических наук

заведующий кафедрой, кафедра прикладной математики и информатики, ФГБОУ ВО Сочинский государственный университет

354000, Россия, Краснодарский край, г. Сочи, ул. Пластунская, 94

Makarova Irina Leonidovna

PhD in Technical Science

Head of Department, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

ratton@mail.ru

Другие публикации этого автора

Копырин Андрей Сергеевич

кандидат экономических наук

заведующий кафедрой, кафедра информационных технологий, ФГБОУ ВО Сочинский государственный университет

354000, Россия, Краснодарский край, г. Сочи, ул. Пластунская, 94

Kopyrin Andrey Sergeevich

PhD in Economics

Head of Department, Department of Information Technology, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

kopyrin_a@mail.ru

Другие публикации этого автора

DOI:

10.7256/2454-0714.2019.4.31797

Дата направления статьи в редакцию:

20-12-2019

Дата публикации:

06-01-2020

Аннотация: Целью исследования является подготовка к анализу слабоструктурированных исходных данных, их анализ, изучение влияния «загрязнения» данных на результаты регрессионного анализа. Задача структурирования данных, подготовки их к качественному анализу является уникальной задачей для каждого конкретного набора исходных данных и не может быть решена с помощью общего алгоритма, всегда будет иметь свои особенности. Рассмотрены проблемы, которые могут вызывать трудности при работе (анализе, обработке, поиске) со слабоструктурированными данными. Приведены примеры слабоструктурированных данных и структурированных данных, которые применяются в процедурах подготовки данных к анализу. Рассмотрены и описаны данные алгоритмы подготовки слабоструктурированных данных к анализу. Проведены процедуры очистки и анализа на наборе данных. Построены четыре регрессионных модели и произведено их сравнение. В результате были сформулированы следующие выводы: Исключение из анализа разного рода подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. При этом, такой подход будет совершенно неприемлем, если в результате из анализа будут исключены важные объекты наблюдений и нарушена целостность совокупности. Качество построенной модели может ухудшаться при наличии аномальных значений, но может и улучшаться за их счет.

Ключевые слова:

слабоструктурированные данные, очистка данных, регрессионный анализ, поиск аномалий, линейная модель, большие данные, статистика, моделирование, удаление шумов, эконометрика

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-01-00370.

Abstract: The aim of the study is to prepare for the analysis of poorly structured source data, their analysis, the study of the influence of data "pollution" on the results of regression analysis. The task of structuring data, preparing them for a qualitative analysis is a unique task for each specific set of source data and cannot be solved using a general algorithm, it will always have its own characteristics. The problems that may cause difficulties when working (analysis, processing, search) with poorly structured data are considered. Examples of poorly structured data and structured data that are used in the preparation of data for analysis are given. These algorithms for preparing weakly structured data for analysis are considered and described. The cleaning and analysis procedures on the data set were carried out. Four regression models were constructed and compared. As a result, the following conclusions were formulated: Exclusion from the analysis of various kinds of suspicious observations can drastically reduce the size of the population and lead to an unreasonable decrease in variation. At the same time, such an approach would be completely unacceptable if, as a result, important objects of observation are excluded from the analysis and the integrity of the population is violated. The quality of the constructed model may deteriorate in the presence of abnormal values, but may also improve due to them.

Keywords:

semi-structured data, data cleaning, regression analysis, anomaly detection, linear model, big data, statistics, modelling, noise removal, econometrics

Введение

Сегодня, в условиях активного развития информационных технологий, для проведения исследований в любой сфере, приходится работать с большим объемом данных, которые представляются в различных видах: текстовая информация, аудио и графические отображения, строки с адресами и т.д. Такие данные являются неструктурированными или слабоструктурированными. В связи с чем возникает необходимость подготовки и структурирования этих данных таким образом, чтобы проведенный анализ был точным, корректным и значимым.

Целью исследования является подготовка к анализу слабоструктурированных исходных данных, их анализ, изучение влияния «загрязнения» данных на резльтаты регрессионного анализа.

Материал и методы исследования

Слабоструктурированные данные (полуструктурированные или плохо структурированные данные) - являются формой организации данных, при которой структура документа не может быть задана заранее, а база данных (БД), хранящая такие документы допускает неопределённости в схеме описания, а также может изменяться в течение эксплуатации, эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных. Также слабоструктурированные данные часто выделяют как отдельный вид данных по основанию: степени структурированности. Слабоструктурированными данными являются данные, для которых определены некоторые правила и форматы, но лишь в общем виде. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа. В слабоструктурированных данных, сущности, принадлежащие одному и тому же классу данных, могут иметь разные атрибуты ^[1].

Исходную информацию, поступающую из различных источников, необходимо сначала извлечь с помощью средств и методов, которые помогают получить выходные данные, готовые для последующего анализа, преобразования, построения прогнозов и управления ими, в целом. Системы преобразования данных сегодня проходят бурный этап развития: исследуются предметные области применения данных систем, разрабатываются алгоритмы анализа структурированных и неструктурированных данных.

Обозначим некоторые проблемы, которые могут вызывать трудности при работе (анализе, обработке, поиске) со слабоструктурированными данными:

1) поиск при больших объемах данных;

2) непосредственная работа с данными;

3) перевод данных в необходимый формат.

Выполнять поиск необходимой информации среди больших объёмов данных довольно затруднительно. Вычислительные ресурсы базы данных быстро изнашиваются, так как дисковая подсистема – это самый медленный элемент при обращении к хранилищу данных. Ускорить процесс работы с таким набором данных возможно с использованием Radix деревьев ^{[2, 3]} или хеш-таблиц ^[4].

Вторая проблема – это непосредственная работа с массивом слабоструктурированных данных. Иногда особенная структура данных не позволяет применить математические методы или подставить их под конкретную схему расчетов при построении моделей. Решением данной проблемы может быть применение известных на сегодняшних день алгоритмов в методах Data Mining ^{[5, 6]}.

Третья проблема – это проблема перевода слабоструктурированных данных в необходимый формат, например, при обмене структурированными данными между различными базами данных. Кроме того, навигация по данным, доступного формата происходит значительно легче и быстрее.

В связи с этими проблемами, возникает необходимость в разработке и применение новых многометодных подходов к подготовке к анализу слабоструктурированных данных. Для применения процедур подготовки данных к анализу, приведем примеры (таблица 1) слабоструктурированных данных и структурированных данных.

Таблица 1 - Типы слабоструктурированных и структурированных данных

Слабоструктурированные данные

Структурированные данные

1. Любые промежуточные между структурированным и неструктуриро-ванными данными.

2. Данные с неполной и недоопределенной структурой, допускающей исключения.

3. Значения скалярных данных могут быть текстами.

1. Схемы XML.

2. Скалярные типы данных (строки, числа, даты).

3. Последовательности.

4. Сложные типы данных.

5. Ограничения.

Качество статистических результатов анализа напрямую зависит от качества их подготовки к данному анализу. Выделим следующие процедуры подготовки слабоструктурированных данных к анализу:

1. Преобразование данных. Процедура заключается в преставлении данных в нужном формате для последующей обработки. Например, применение различных типов обозначения категории «Дата».

2. Поиск различных представлений значений. Заключается в обнаружении данных, выходящих за пределы допустимых значений. Сравнение множества значений атрибутов столбца одной таблицы с тем же множеством для столбца другой таблицы ^[7].

3. Удаление шумов. Шумом называют сильные отклонения от среднего значения в наборе данных. При этом шум не несет никакой полезной информации, но может помешать увидеть реальную картину, снижает достоверность результатов анализа. Для удаления шумов используют спектральный анализ, авторегрессионные преобразования, в некоторых случаях используют вейвлет преобразование ^{[8, 9]}.

4. Поиск утраченных значений. Это неопределённые значения, которые невозможно установить, так как они отсутствовали или были введены неправильно.

5. Сглаживание данных. Сглаживание экспериментальных данных является способом уменьшения влияния различных случайных факторов. Для этого используют методы скользящих средних, экспоненциальное сглаживание, метод четвертных разностей, с помощью рядов Фурье и степенных многочленов и т.п.

6. Обнаружение орфографических и синтаксических ошибок. Сортировка по значениям часто ставит значения с ошибками рядом с правильными.

7. Обнаружение дубликатов данных. Можно сделать при помощи процедуры сортировки. И определить число вхождений данных. Дублируемые данные исключаются из общего массива данных.

8. Обнаружение недопустимых значений. Например, категория «Возраст» равный 200 лет или категория данных «Пол» больше 2. Такие значения также корректируются.

9. Редактирование аномалий. В основе лежит метод статистических оценок, таких, например, как медиана и др. ^{[10, 11]}. При этом можно задать эмпирически подобранный критерий того, что считать аномалией. Например, например, резкое отклонение величины от ее ожидаемого значения (погода летом «-120»).

Кроме данных процедур целесообразно применить методы статистической обработки данных, которые значительно повысят качество исходных данных. К ним относятся:

1. Взвешивание. Заключается в присвоении каждому наблюдению определенного весового коэффициента. Применяется для того, чтобы определить наиболее ценные категории данных для анализа.

2. Переопределение переменой. Метод введения новых переменных или изменения существующих.

3. Преобразование шкалы. Значения переменных, полученные в разных шкалах, приводят к одной нормализованной величине.

Рассмотрим применение некоторых из представленных выше процедур на примере.

Результаты исследования и их обсуждение

Необходимо подготовить к анализу набор данных из 254228 наблюдений за различными объектами по 10 показателям, записанным в Excel-таблице (см. таблицы 2 и 3).

Таблица 2 – Выборочные значения набора данных

Код	Месяц	Температура	Прибор 1	Прибор 2	Прибор 3	Прибор учета	Проживающие	Площадь	Объем
000000003	Февраль 2015	8,2	1	1	1	1	2	46	112
000074393	Май 2015	15,1	2	1	1	1	1	70	224
000074393	Август 2015	24,5	2	1	1	1	1	70	-36
000074393	Ноябрь 2015	11,2	2	1	1	1	1	70	142
000112893	Февраль 2016	9,0	1	1	1	1	1	38	7
000112894	Ноябрь 2014	9,5	1	1	1	1	1	45	-14

Представленный набор данных является характерным при анализе потребления коммунальных ресурсов (электро-, газо-, водоснабжения) в муниципальном районе. Один из показателей – идентификационный код объекта, выраженный девятизначным числом, не несет в себе никакой смысловой нагрузки, кроме порядкового номера. Данный индикатор характеризует объект потребления. Следующие два показателя - дата и температура - тесно связаны друг с другом: для любого объекта определенному периоду соответствует определенная и одинаковая температура. Другими словами, эти показатели дублируют друг друга и, уж если выбирать из них, то температура несет больше физического смысла. Ещё 4 показателя выражены целыми числами из диапазона (0; 30) и являются характерными для рассматриваемой предметной области. Показатель количества проживающих в определенном объекте, понятно, что мог выражаться целыми неотрицательными числами, в нашем наборе принимал значения от 0 до 85 и не имел видимых ошибок в данных.

Два последних показателя – площадь и объем – имеют определенный физический смысли поэтому могут быть проверены на наличие видимых ошибочных данных. Например, не могут проживать люди на нулевой площади или не может быть отрицательным объем. Однако указанные ошибки широко встречаются в наборе данных, что можно объяснить различными причинами: ошибочные или намеренно искаженные, с целью снижения оплаты, показания приборов учета; корректировки, связанные с правилами учета коммунальных ресурсов и т.п. – ведут к появлению отрицательных объемов. Отсутствие первичных документов или ошибки операторов приводят к отсутствию данных о площади объектов.

С помощью функций табличного процессора Excel и встроенного средства VBA, была произведена выборка и сортировка набора исходных данных.

Таблица 3 – Характеристики рассматриваемого набора данных

Дата	Общее количество наблюдений	Количество наблюдений без отрицательного объема	Количество наблюдений только с положительным объемом	Количество наблюдений с положительными объемом и площадью
11.2014	36672	35526	35371	29663
02.2015	40647	37035	36907	30111
05.2015	42430	40783	40677	33036
08.2015	43525	42483	42424	34345
11.2015	44236	42522	42463	34307
02.2016	46718	43423	43204	35251
Итого:	254228	241772	241046	196713

Исключение объектов, имеющих разного рода «загрязнения», является наиболее простым способом, так как не требует применения никаких дополнительных алгоритмов ^[12].

Теперь воспользуемся одним из полученных пространственных наборов данных для проведения регрессионного анализа. Пусть необходимо построить линейную модель множественной регрессии для зависимой переменной y, условно выражающей некоторый объем, и шести независимых переменных х1, х2, … x6 различных размерностей. Каждое наблюдение соответствует определенному объекту, то есть имеется набор пространственных данных, содержащих n=46718 наблюдений. Данные представлены в таблице Excel и, помимо уже указанной информации, содержат код объекта и дату измерений.

Первичный осмотр исходных данных позволил сделать вывод об их «загрязнении» недопустимыми значениями зависимой и одной из независимых переменных. Для проведения в дальнейшем сравнительного анализа, результаты которого представлены в Таблице 4, было построено уравнение регрессии по всем исходным данным – модель 1. Отметим, что кроме коэффициента при переменной х₃ все остальные коэффициенты статистически значимы, как и уравнение в целом. Однако, значение скорректированного коэффициента детерминации говорит о плохом качестве модели.

Таблица 4 – Сравнительная характеристика моделей регрессии с разной степенью очистки исходных данных

Модель	Уравнение регрессии	R²
1	y=1121,978+104,742x₁+49,469x₂+169,537x₃-1277,19x₄+53,959x₅-0,299x₆	0,006
2	y =-20,140+18,471x₁+27,766x₂+220,389x₃-14,855x₄+20,817x₅+2,643x₆	0,304
3	y=-18,412+18,245x₁+27,625x₂+220,727x₃-15,675x₄+20,763x₅+2,643x₆	0,303
4	y=38,902+21,953x₁+6,996x₂+166,857x₃- 6,801x₄+24,223x₅+2,647x₆	0,236

Первым шагом в очищении данных было устранение явно неверных (отрицательных) значений зависимой переменной – модель 2. При этом были потеряны 3295 наблюдений. Исключение наблюдений, не удовлетворяющих принятым условиям – достаточно грубый способ, но самый простой, так как не требует использования дополнительных алгоритмов. В модели 2 существенно изменились практически все коэффициенты: два поменяли знак, остальные увеличились или уменьшились в разы. Статистически не значимыми оказались свободный член уравнения и коэффициент при х₅, уравнение в целом осталось статистически значимым, а коэффициент детерминации вырос.

На следующем шаге были исключены данные наблюдений с нулевыми значениями зависимой переменной, это привело к потере ещё 219 наблюдений. Построенное регрессионное уравнение – модель 3. Результат мало изменился и по величине, и по статистической значимости.

Модель 4 построена по данным, имеющим только положительные объем y и площадь х6. Исключение из рассмотрения неположительных объема и площади привело к потере еще 7953 наблюдений, но их всё еще оставалось достаточно много для проведения регрессионного анализа. В результате (Таблица 4, модель 4) существенно изменились: свободный член уравнения, он поменял знак; коэффициент при х2 стал статистически незначим. При этом коэффициент при х6 остался практически неизменным, хотя исключались данные именно по х6.

Таким образом, при анализе данных принимаются во внимание все наблюдаемые значения показателей (т.е. отсутствуют «выколотые» точки, которые в случае исследования статистическими методами могли быть проигнорированы).

Заключение

По результатам проведенных исследований можно сделать следующие выводы.

Задача структурирования данных, подготовки их к качественному анализу является уникальной задачей для каждого конкретного набора исходных данных и не может быть решена с помощью общего алгоритма, всегда будет иметь свои особенности.

Исключение из анализа разного рода подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. При этом, такой подход будет совершенно неприемлем, если в результате из анализа будут исключены важные объекты наблюдений и нарушена целостность совокупности.

Качество построенной модели может ухудшаться при наличии аномальных значений, но может и улучшаться за их счет.

Библиография

1. Слабоструктурированные данные. URL: https://ru.bmstu.wiki/Слабоструктурированные_данные (дата обращения: 14.07.2019).
2. Бритков В. Б., Булычев А. В. Методы анализа больших объемов слабоструктурированной информации. URL: http://www.isa.ru/jitcs/images/ documents/2010-01/36_44.pdf (дата обращения: 14.07.2019).
3. Leis V., Kemper A., Neumann T. The adaptive radix tree: ARTful indexing for main-memory databases //ICDE. – 2013. – Т. 13. – С. 38-49.
4. Alvarez V., Richter, S., Chen, X., Dittrich, J. A comparison of adaptive radix trees and hash tables //2015 IEEE 31st International Conference on Data Engineering. – IEEE, 2015. – С. 1227-1238.
5. Основы структурированных и неструктурированных данных в интеллектуальном анализе. URL: https://ru.howtodou.com/basics-of-structured-and-unstructured-data-in-predictive-analysis (дата обращения: 16.07.2019)
6. Ратникова Т. А., Фурманов К. К. Анализ панельных данных и данных о длительности состояний : учеб. пособие. М. : Изд. дом Высшей школы экономики, 2014. 373 с.
7. Поручиков М.А. Анализ данных: учеб. пособие / М.А. Поручиков. – Самара: Изд-во Самарского университета, 2016. – 88 с.
8. Видищева Е. В., Копырин А. С., Василенко М. С. Анализ и уточнение классификации аномалий и выбросов на экономических данных // Вестник Алтайской академии экономики и права. 2019. № 6-1. С. 41–46.
9. Арустамов А. Предобработка и очистка данных перед загрузкой в хранилище. URL: https://basegroup.ru/users/aleksey-arustamov (дата обращения: 16.07.2019)
10. Осипова, Ю.Г. Обзор интеллектуальных методов очистки данных / Ю.Г. Осипова, А.М. Фонотов // Информационные управляющие системы и компьютерный мониторинг.-Донецк: ДонНТУ, 2012.-С. 121-125.
11. ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов.
12. Емцов В.С. Проблема «грязных данных» при внедрении средств Data mining// Научное сообщество студентов XXI столетия. Технические науки: сб.ст. по мат. IX междунар. cтуд. науч.-практ. конф. № 9. URL: http://sibac.info/archive/technic/9.pdf (дата обращения: 16.07.2019)

References

1. Slabostrukturirovannye dannye. URL: https://ru.bmstu.wiki/Slabostrukturirovannye_dannye (data obrashcheniya: 14.07.2019).
2. Britkov V. B., Bulychev A. V. Metody analiza bol'shikh ob''emov slabostrukturirovannoi informatsii. URL: http://www.isa.ru/jitcs/images/ documents/2010-01/36_44.pdf (data obrashcheniya: 14.07.2019).
3. Leis V., Kemper A., Neumann T. The adaptive radix tree: ARTful indexing for main-memory databases //ICDE. – 2013. – T. 13. – S. 38-49.
4. Alvarez V., Richter, S., Chen, X., Dittrich, J. A comparison of adaptive radix trees and hash tables //2015 IEEE 31st International Conference on Data Engineering. – IEEE, 2015. – S. 1227-1238.
5. Osnovy strukturirovannykh i nestrukturirovannykh dannykh v intellektual'nom analize. URL: https://ru.howtodou.com/basics-of-structured-and-unstructured-data-in-predictive-analysis (data obrashcheniya: 16.07.2019)
6. Ratnikova T. A., Furmanov K. K. Analiz panel'nykh dannykh i dannykh o dlitel'nosti sostoyanii : ucheb. posobie. M. : Izd. dom Vysshei shkoly ekonomiki, 2014. 373 s.
7. Poruchikov M.A. Analiz dannykh: ucheb. posobie / M.A. Poruchikov. – Samara: Izd-vo Samarskogo universiteta, 2016. – 88 s.
8. Vidishcheva E. V., Kopyrin A. S., Vasilenko M. S. Analiz i utochnenie klassifikatsii anomalii i vybrosov na ekonomicheskikh dannykh // Vestnik Altaiskoi akademii ekonomiki i prava. 2019. № 6-1. S. 41–46.
9. Arustamov A. Predobrabotka i ochistka dannykh pered zagruzkoi v khranilishche. URL: https://basegroup.ru/users/aleksey-arustamov (data obrashcheniya: 16.07.2019)
10. Osipova, Yu.G. Obzor intellektual'nykh metodov ochistki dannykh / Yu.G. Osipova, A.M. Fonotov // Informatsionnye upravlyayushchie sistemy i komp'yuternyi monitoring.-Donetsk: DonNTU, 2012.-S. 121-125.
11. GOST R ISO 16269-4-2017 Statisticheskie metody. Statisticheskoe predstavlenie dannykh. Chast' 4. Vyyavlenie i obrabotka vybrosov.
12. Emtsov V.S. Problema «gryaznykh dannykh» pri vnedrenii sredstv Data mining// Nauchnoe soobshchestvo studentov XXI stoletiya. Tekhnicheskie nauki: sb.st. po mat. IX mezhdunar. ctud. nauch.-prakt. konf. № 9. URL: http://sibac.info/archive/technic/9.pdf (data obrashcheniya: 16.07.2019)

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Предмет исследования – подготовка к качественному анализу слабоструктурированных временных рядов данных, изучение влияния «загрязнения» на результаты регрессионного анализа.

Методология исследования основана на сочетании теоретического и модельного подходов с применением методов анализа (в том числе регрессионного), моделирования, алгоритмизации, обобщения, сравнения, синтеза.

Актуальность исследования обусловлена широким распространением «больших» (в том числе слабоструктурированных) данных в различных отраслях современной экономики и, соответственно, необходимостью изучения и проектирования соответствующих алгоритмов, в том числе способов подготовки к качественному анализу слабоструктурированных временных рядов данных, выявления влияния «загрязнения» на результаты регрессионного анализа.

Научная новизна связана с разработанными авторами алгоритмами и моделями, а также сформулированными выводами о том, что задача структурирования данных, подготовки их к качественному анализу не может быть решена с помощью общего алгоритма. Исключение из анализа подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. Такой подход неприемлем, если будут исключены важные объекты наблюдений и нарушена целостность совокупности. Качество построенной модели при наличии аномальных значений может как ухудшаться, так и улучшаться. Указанные выводы (второй, третий) представляются не в полной мере соответствующими содержанию основного текста.

Статья написана русским литературным языком. Стиль изложения научный.

Структура рукописи включает следующие разделы: Введение (развитие информационных технологий, работа с большим объёмом данных в различных видах – текстовая информация, аудио и графические отображения, строки с адресами и т.д., неструктурированными или слабоструктурированными, подготовка и структурирование данных, цель исследования), Материал и методы исследования (слабоструктурированные / полуструктурированные / плохо структурированные данные, структура документа не может быть задана заранее, неопределённости в схеме описания, изменение в течение эксплуатации, теги и другие маркеры для отделения семантических элементов и обеспечения иерархической структуры записей и полей в наборе данных, исходная информация, выходные данные для анализа, преобразования, построения прогнозов и управления, системы преобразования данных, проблемы, связанные с обработкой и анализом слабоструктурированных данных, поиск необходимой информации среди больших объёмов данных, вычислительные ресурсы базы данных, дисковая подсистема, использованием Radix деревьев, непосредственная работа с массивом слабоструктурированных данных, применение алгоритмов Data Mining, перевод слабоструктурированных данных в необходимы формат, навигация по данным доступного формата, необходимость в разработке и применении новых многометодных подходов к подготовке к анализу слабоструктурированных данных, примеры слабоструктурированных данных и структурированных данных, качество статистических результатов анализа, процедуры подготовки слабоструктурированных данных к анализу – преобразование, поиск различных представлений значений, удаление шумов, поиск утраченных значений, сглаживание, обнаружение ошибок, дубликатов данных, недопустимых значений, редактирование аномалий, методы статистической обработки данных – взвешивание, переопределение переменой, преобразование шкалы), Результаты исследования и их обсуждение (пример, набор данных из 254228 наблюдений за различными объектами по 10 показателям, записанным в Excel-таблице, выборка и сортировка набора исходных данных, характеристики рассматриваемого набора данных, проведение регрессионного анализа, линейная модель множественной регрессии, «загрязнение» недопустимыми значениями зависимой и одной из независимых переменных, модель 1, сравнительная характеристика моделей регрессии с разной степенью очистки исходных данных, модель 2, исключение наблюдений, не удовлетворяющих принятым условиям, модель 3, модель 4), Заключение (выводы), Библиография.

Текст два рисунка, три таблицы. Дублирование названия рисунка также на изображении не представляется целесообразным. В принципе все рисунки и таблицы могут быть преобразованы в текст.

Содержание в целом соответствует названию. В то же время в формулировке заголовка подчёркиваются методы качественного анализа слабоструктурированных временных рядов. В то же время не вполне ясно, о каких именно специфических методах анализа (наряду с подготовкой данных) идёт речь. Наряду с этим в статье охарактеризованы не только временные ряды, но слабоструктурированные / полуструктурированные / плохо структурированные данные в целом. Приведённый пример желательно пояснить – насколько он адекватен практическим реалиям. В частности, кем, каким образом, в какой ситуации могли быть получены указанные данные (например, отрицательные значения объёма, площади и т.п.). В противном случае пример представляется весьма умозрительным. Приведённые выше алгоритмы в данном примере реализованы, очевидно, также не в полной мере. Так, например, упоминаемые Radix деревья, алгоритмы Data Mining, по-видимому, не используются.

Библиография включает 10 источников отечественных авторов – научные статьи, учебные пособия, нормативные документы, Интернет-ресурсы. Библиографические описания некоторых источников нуждаются в корректировке в соответствии с ГОСТ и требованиями редакции, например:
1. Слабоструктурированные данные. URL: https://ru.bmstu.wiki/Слабоструктурированные_данные (дата обращения: 14.07.2019).
2. Бритков В. Б., Булычев А. В. Методы анализа больших объемов слабоструктурированной информации. URL: http://www.isa.ru/jitcs/images/ documents/2010-01/36_44.pdf (дата обращения: 14.07.2019).
4. Ратникова Т. А., Фурманов К. К. Анализ панельных данных и данных о длительности состояний : учеб. пособие. М. : Изд. дом Высшей школы экономики, 2014. 373 с.
6. Видищева Е. В., Копырин А. С., Василенко М. С. Анализ и уточнение классификации аномалий и выбросов на экономических данных // Вестник Алтайской академии экономики и права. 2019. № 6-1. С. 41–46.
Библиографическое описание завершается точкой. Дублирование (полное библиографическое описание и URL) не представляется целесообразным.

Апелляция к оппонентам (Бритков В. Б., Булычев А. В., Ратникова Т. А., Фурманов К. К., Поручиков М. А., Видищева Е. В., Копырин А. С., Василенко М. С., Арустамов А., Осипова Ю. Г., Емцов В. С. и др.) имеет место. Желательно обращение к работам зарубежных исследователей в рассматриваемой области.

Замечен ряд опечаток: а также может изменяться в течении эксплуатации – а также может изменяться в течение эксплуатации; это проблема перевода слабоструктурированных данных в необходимы формат – это проблема перевода слабоструктурированных данных в необходимый формат.

Аббревиатуру БД следует привести полностью при первом упоминании.

В целом рукопись соответствует основным требованиям, предъявляемым к научным статьям. Материал представляет интерес для читательской аудитории и после доработки может быть опубликован в журнале «Программные системы и вычислительные методы» (рубрика «Системный анализ, поиск, анализ и фильтрация информации»).

Журналы

Книги

Методы подготовки данных к анализу слабоструктурированных временных рядов