Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных

Копырин А.С., Макарова И.Л.

doi:10.7256/2454-0714.2020.3.33958

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Вернуться к содержанию

Программные системы и вычислительные методы

Правильная ссылка на статью:

Копырин А.С., Макарова И.Л. Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных // Программные системы и вычислительные методы. 2020. № 3. С. 40-50. DOI: 10.7256/2454-0714.2020.3.33958 URL: https://nbpublish.com/library_read_article.php?id=33958

Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных

Копырин Андрей Сергеевич

кандидат экономических наук

заведующий кафедрой, кафедра информационных технологий, ФГБОУ ВО Сочинский государственный университет

354000, Россия, Краснодарский край, г. Сочи, ул. Пластунская, 94

Kopyrin Andrey Sergeevich

PhD in Economics

Head of Department, Department of Information Technology, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

kopyrin_a@mail.ru

Другие публикации этого автора

Макарова Ирина Леонидовна

кандидат технических наук

заведующий кафедрой, кафедра прикладной математики и информатики, ФГБОУ ВО Сочинский государственный университет

354000, Россия, Краснодарский край, г. Сочи, ул. Пластунская, 94

Makarova Irina Leonidovna

PhD in Technical Science

Head of Department, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

ratton@mail.ru

Другие публикации этого автора

DOI:

10.7256/2454-0714.2020.3.33958

Дата направления статьи в редакцию:

23-09-2020

Дата публикации:

26-10-2020

Аннотация: Предметом исследования является процесс сбора и предварительной подготовки данных из гетерогенных источников. Экономическая информация является гетерогенной и полуструктурированной или неструктурированной по своей природе. Из-за неоднородности первичных документов, а также человеческого фактора исходные статистические данные могут содержать большое количество шумов, а также записей автоматическая обработка которых может быть весьма затруднена. Это делает предварительную обработку входных динамических данных важным предварительным условием для обнаружения значимых паттернов и знаний в предметной области, а тему исследования актуальной Предварительная обработка данных представляет собой ряд уникальных задач, которые привели к появлению различных алгоритмов и эвристических методов для решения таких задач предварительной обработки, как слияние и очистка, идентификация переменных В данной работе формулируется алгоритм препроцессинга, позволяющий сводить в единую базу данных и структурировать информацию по временным рядам из разных источников. Ключевой модификацией метода препроцессинга, которую предлагают авторы является технология автоматизированной интеграции данных. Предложенная авторами технология предполагает совместное использование методов построения нечеткого временного ряда и машинного лексического сопоставления на сети тезауруса, а также использования универсальной базы данных, построенной с использованием концепции МИВАР. Алгоритм препроцессинга формирует единую модель данных с возможностью транформации периодичности и семантики набора данных и интеграцию в единый информационный банк данные, которые могут поступать из различных источников.

Ключевые слова:

машинное обучение, препроцессинг, унификация данных, очистка данных, прогнозирование, нечеткий временной ряд, МИВАР, временной ряд, data mining, база знаний

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-01-00370.

Abstract: The subject of the research is the process of collecting and preliminary preparation of data from heterogeneous sources. Economic information is heterogeneous and semi-structured or unstructured in nature. Due to the heterogeneity of the primary documents, as well as the human factor, the initial statistical data may contain a large amount of noise, as well as records, the automatic processing of which may be very difficult. This makes preprocessing dynamic input data an important precondition for discovering meaningful patterns and domain knowledge, and making the research topic relevant.Data preprocessing is a series of unique tasks that have led to the emergence of various algorithms and heuristic methods for solving preprocessing tasks such as merge and cleanup, identification of variablesIn this work, a preprocessing algorithm is formulated that allows you to bring together into a single database and structure information on time series from different sources. The key modification of the preprocessing method proposed by the authors is the technology of automated data integration.The technology proposed by the authors involves the combined use of methods for constructing a fuzzy time series and machine lexical comparison on the thesaurus network, as well as the use of a universal database built using the MIVAR concept.The preprocessing algorithm forms a single data model with the ability to transform the periodicity and semantics of the data set and integrate data that can come from various sources into a single information bank.

Keywords:

machine learning, preprocessing, data unification, clearing data, forecasting, fuzzy time series, MIVAR, time series, data mining, knowledge base

Введение

В настоящее время анализ данных и принятие решений на их основе является критически важным во многих сферах экономики и общества. По мере того, как все большее количество данных генерируется, собирается и анализируется во все возрастающих масштабах, возрастает потребность в методах очистки исходной информации и обнаружения знаний на ее основе. Низкое качество данных является серьезной проблемой так как они часто создаются автоматически, вводятся вручную или интегрируются из разрозненных, разнородных источников. Таким образом, прежде чем анализировать данные, их необходимо предварительно обработать, чтобы исправить ошибки, опечатки необработанных данных и преобразовать необработанные данные в однородные данные ^[13], сделав их пригодными для использования. Этот процесс является одновременно трудоемким и утомительным.

По данным исследования ^[5] более половины специалистов-аналитиков считают, что очистка и подготовка данных занимают более 60% общего времени анализа. Качество результатов предварительной обработки данных влияет на результат обнаружения и анализа паттернов ^[1].

Экономическая информация является гетерогенной и полуструктурированной или неструктурированной по своей природе.

Из-за неоднородности первичных документов и человеческого фактора исходные статистические данные могут содержать большое количество шумов, а также записей автоматическая обработка которых может быть весьма затруднена. Это делает предварительную обработку входных динамических данных важным предварительным условием для обнаружения значимых паттернов и знаний в предметной области.

Целью предварительной обработки является преобразование необработанных данных из различных источников в набор нечетких временных рядов, имеющих упорядоченную структуру. Предварительная обработка данных представляет собой ряд уникальных задач, которые привели к появлению различных алгоритмов и эвристических методов для решения таких задач предварительной обработки, как слияние и очистка, идентификация переменных и т.д.^[4].

В данной работе формулируется алгоритм препроцессинга, позволяющий сводить в единую базу данных и структурировать информацию по временным рядам из разных источников.

Материалы и методы

Современные методологии обработки данных предполагают широкое использование машинного обучения. Между машинным обучением и традиционными статистическими методами есть существенные различия. Во-первых, машинное обучение концентрируется на задаче «прогнозирования», используя универсальные алгоритмы обучения для поиска закономерностей в вариативных и объемных данных ^[9]. Напротив, статистические методы в основном ориентированы на подтверждение гипотез, основанных на умозаключениях, которые достигаются путем определения и аппроксимации вероятностных функций для конкретного модели ^[3]. Во-вторых, большинство методов машинного обучения не содержат гипотез, поскольку их цель – обнаружить неочевидные ассоциации в данных, тогда как традиционная статистика обычно полагается на определенные предположения и гипотезы, часто те, которые вытекают из модели, которая сгенерировала данные ^[16]. В-третьих, наборы инструментов, используемые для оценки ошибок построения модели машинного обучения, как правило, отличаются от инструментов традиционных статистических методов, которые в основном полагаются на вычисление значения p для нулевой гипотезы ^{[3, 12]}. В-четвертых, традиционное статистическое моделирование, как правило, позволяет получить простую в понимании модель, представляющую результат, который легко понять и интерпретировать.

Однако факторы реальной экономики обычно не независимы друг от друга, и их связи могут быть нелинейными. Подходы машинного обучения, в свою очередь, рассматривают все возможные взаимодействия между переменными в соответствии с многомерными нелинейными паттернами, независимо от степени сложности, при этом стремясь уловить как можно больше информативных и потенциальных особенностей и корреляций. Это ведет к тому, что созданную с помощью данных методов модель нелегко понять или интерпретировать. Фундаментальная цель машинного обучения - обобщение, выходящее за рамки примеров в обучающей выборке. Обобщение возможно потому, что модели основаны на гораздо большем наборе данных, затем проверяются в независимом наборе данных и далее настраиваются для достижения наилучшей производительности ^[6].

Исторически концепция обнаружения полезных паттернов в данных получила множество названий таких как: интеллектуальный анализ данных, извлечение знаний, data mining, археология данных и обработка паттернов данных и т. п.

Многие задачи обработки данных предполагают, что данные соответствуют идеальным распределениям без каких-либо (или при наличии очень незначительного количества) пропущенных, неверных или несогласованных значений. Однако в действительности это происходит достаточно редко. Большинство существующих методов очистки данных используют реляционные модели, в которых предполагается, что данные находятся в структурированном табличном формате. Однако структурированные наборы данных (или организованные наборы данных, мы используем эти термины взаимозаменяемо) не всегда имеют реляционный формат. На самом деле многие наборы данных, такие как XML, можно описать с помощью языков разметки и шаблонов. Это определяет необходимость разработки более общей теории, способной обрабатывать структурированные наборы данных, независимо от того, является ли набор данных таблицей или другим структурированным форматом ^[8].

Необработанные данные обычно не находятся в структуре удобной для работы исследователей и недостаточно организованы.

Термин «предварительная обработка данных» относится к любому преобразованию данных до применения алгоритма обучения. Предварительная обработка данных решает целый ряд проблем качества данных, связанных с выбросами и шумом. Основной целью удаления выбросов является удаление объектов данных, которые не имеют отношения или только слабо относятся к базовому анализу ключевых отношений. Основное внимание на этом этапе уделяется удалению объектов, препятствующих анализу данных. Кластерный анализ аналогичен обнаружению выбросов, поскольку оба метода имеют дело с устранением слабо релевантных или нерелевантных объектов.

Она включает в себя поиск примеров и устранение несоответствий; замену недостающих значений; идентификацию, удаление или замену выбросов; дискретизацию числовых данных или генерацию числовых фиктивных переменных для категориальных данных; уменьшение размерности; извлечение/отбор признаков; и масштабирование признаков (нормализация, стандартизация или преобразование Бокса-Кокса) ^[11]. Также предполагается, что масштабирование объектов посредством стандартизации (или нормализации Z-score) является важным этапом предварительной обработки для многих алгоритмов машинного обучения.

Предикторные переменные с диапазонами различных порядков величины могут оказывать непропорциональное влияние на результаты. Другими словами, в контексте алгоритма могут доминировать переменные-предикторы с большим диапазоном масштабирования. Масштабирование значений признаков неявно обеспечивает равные веса всех признаков в их представлении и должно быть применяемым подходом предварительной обработки в алгоритмах машинного обучения, таких как дерево решений, линейная регрессия, SVM и другие ^[12].

Результаты

В качестве основы алгоритма был использован процесс представленный в работе ^[15]

Как показано на рисунке 1, общий процесс предобработки данных включает очистку данных, интеграцию и унификацию, трансформацию к единой форме и преобразование в вид, который необходим для дальнейшей обработки интеллектуальными методами.

Рис. 1. Общая схема алгоритма препроцессинга.

Рассмотрим каждый из указанных этапов подробнее.

1. Очистка данных. Данные из первичных документов (экономические показатели, курсы валют и т.п.), которые являются неполными, шумными и несогласованными, должны быть улучшены путём заполнения значений по умолчанию, сглаживания шума и исправления несогласованности данных.

а. Устранение неполноты временного ряда. При сборе данных некоторые атрибуты данных могут быть потеряны из-за человеческого фактора и/или сбоя системы сбора и фиксации информации. Существует несколько способов обойти эту проблему. Пропущенные значения могут игнорироваться, заполняться некоторыми значениями, заданными по умолчанию, использоваться средние значения атрибутов для заполнения. Также можно подставлять в пропущенные записи значения наиболее вероятные с использованием статистической корреляционной модели.

В случае, когда пропущенное значение оказывает большое влияние на процесс обработки, недостающие данные обычно игнорируются. Например, при обработке информации о валютной операции, если наименование и идентификатор валюты потеряны, данные должны быть проигнорированы; но, если пропущено время операции при наличии даты, данные не могут быть проигнорированы. В случае, когда набор данных относительно невелик, значения по умолчанию могут быть заполнены вручную. Однако, при работе с большими наборами с большим количеством значений такой метод не является целесообразными, так как он трудоемкий и дорогостоящий.

В случае, когда распределение данных является равномерным, значения по умолчанию могут быть заполнены средними значениями атрибутов. Кроме того, для данных по умолчанию можно использовать методы машинного обучения для определения оптимального значения, включая регрессию, байесовские формальные методы и индукцию дерева решений. Хотя прогноз может показать относительно большое отклонение в крайних случаях, эти методы все еще способны лучше справляться с восстановлением пропущенных данных. Таким образом, пользователь должен определить метод (или их сочетание) восстановления пропущенных данных перед загрузкой информации из источника.

б. Шум в данном контексте отнесём к заведомо некорректному значению атрибута в источнике данных, которое выходит за множество допустимых значений данного свойства. Например, к подобным данным можно отнести отрицательное потребление коммунальных услуг или объем продаж превышающий складские остатки и текущее производство. Обработка зашумленных данных включает бининг ^[17], поиск регрессии, анализ выбросов.

Методы биннинга сглаживают упорядоченные значения данных, исследуя значения вокруг данных. Ключевым параметром методов биннинга является размер вложенного поля. Регрессионный метод заключается в изменении значения шума путем настройки функциональной модели, соответствующей значению атрибута данных. Анализ выбросов заключается в построении кластеров методом кластеризации. Атрибуты точек данных внутри одного кластера схожи, но значения атрибутов точек данных между различными кластерами могут иметь значительное отклонение ^[19].

в. Приведение данных к согласованному виду. В различных источниках данные об одном и том же атрибуте могут содержать несоответствия, например, в единицах измерения или в периодичности значений. Несогласованность данных может быть исправлена путём анализа корреляции между данными и автоматизированного применения функций перевода данных от одной периодичности к другой.

2. Интеграция данных. На данном этапе данные, хранящиеся в различных источниках, должны быть объединены, и задача состоит в том, чтобы унифицировать гетерогенные данные и разрешить возможную избыточность. Благодаря интеграции данных можно повысить точность и скорость интеллектуального анализа данных.

a. Унификация гетерогенных данных Так как экономические данные могут быть собраны из разных источников, то общий набор будет иметь проблемы с гетерогенностью содержания. Указанная проблема в основном представлена несоответствиями в атрибутах данных, таких как имена атрибутов и единицы измерения. Например, показатель затрат может быть назван «Затраты», «Издержки», «Costs», а единица измерения может быть руб., тыс. руб. USD и т.п.

б. Обработка избыточных данных. В упрощенной формулировке, если атрибут может быть получен из других атрибутов, то он является избыточным, и его следует очистить. Избыточность в основном отражается в повторяющихся записях атрибутов данных или несоответствиях в способе выражения атрибутов. Большинство избыточных данных можно обнаружить с помощью корреляционного анализа. Для численных данных обычно используется метод анализа метрики хи-квадрат.

Ключевой модификацией метода препроцессинга, которую предлагают авторы, является технология автоматизированной интеграции данных.

Для автоматизированного решения указанных проблем авторы предлагают совместное использование методов построения нечеткого временного ряда и машинного лексического сопоставления на сети тезауруса, а также использования универсальной базы данных, построенной с использованием концепции МИВАР ^[2] нечеткий временной ряд можно определить следующим образом:

Нечеткое множество А универсального множества U, U={u₁, u2, ..., un}, имеет вид

A = f A(u₁)/u₁ + f A(u₂)/u2 +···+ f A(u_n)/u_n (1)

где fA -функция принадлежности нечеткого множества A, fA: U→(0, 1), fA(u_i) представляет степень, в которой U_I соответствует нечеткому множеству A, и 1 ≤i ≤n.

Пусть Y(t)(t=..., 0, 1, 2, ...), подмножество R (реального времени), будет универсальным множеством на котором нечеткие множества f_i(t)(i =1, 2, ...) определены и пусть F(t) состоит из f₁(t), f2(t)... Тогда F(t) назовем нечетким временным рядом определенным на Y(t)(t=..., 0, 1, 2, ...)

Есть два вида моделей нечетких временных рядов: изменяющиеся во времени и инвариантные во времени. Если для любого времени t R (t, t − 1) не зависит от t, то F (t) называется нечетким временным рядом, инвариантным во времени. В противном случае это называется изменяющимся во времени нечетким временным рядом ^[14].

Представим неинтегрированный временной ряд как изменяющийся во времени нечеткий временной ряд, где с одной стороны изменяется распределение временных промежутков наблюдений (так как данные из разных источников варьируются), а с другой стороны различные значения ряда в большей или меньшей степени относятся к исследуемому явлению (различается семантика наименований переменных). Проблему интеграции предлагается решать с использованием машинного обучения следующим образом: по графовой семантической сети Wordnet с использованием нечетких алгоритмов определяется функция принадлежности каждой переменной к эталонному значению ^[18]. Данная функция определяется как степень близости семантики исследуемой переменной к эталонной, где 1 – эквивалентные понятия, 0 – несвязанные категории.

Все полученные переменные записываются в разработанную авторами базу знаний имеющую структуру (объект, свойство, отношения) ^[10], формируя набор данных с установленными первичными отношениями. При дальнейшем реализации алгоритма от пользователя запрашивается коэффициент достоверности в интервале (0, 1) и для последующей трансформации из базы знаний извлекается интегрированный нечеткий временной ряд, функция принадлежности значений которого выше указанного коэффициента.

3. Трансформация данных. Исходя из предпосылки сохранения целостности данных, трансформация данных, включающая их сокращение, может уменьшить размер набора данных, что повысит удобность и эффективность интеллектуального анализа данных. В Китае большое количество данных по хозяйственной деятельности будет генерироваться каждый день. Учитывая обстоятельства, сокращение данных совершенно необходимо выполнить для повышения эффективности анализа. Методы сокращения данных включают уменьшение размеров набора данных, уменьшение количества наблюдений и сжатие данных.

Метод уменьшения размеров набора данных обычно управляет размером путем уменьшения числа случайных величин или атрибутов. Он предполагает использование вейвлет-преобразования и метода анализа главных компонент, которые проецируют исходные данные в меньшую совокупность переменных.

4. Преобразование данных. Преобразование данных предполагает приведение набора данных в единую форму, пригодную для интеллектуального анализа данных. Методы преобразования данных включают сглаживание вторичного шума, агрегацию данных и нормализацию данных. В соответствии с направлением и целью интеллектуального анализа данных метод преобразования данных фильтрует и суммирует данные, хранящиеся в базе знаний временные ряды. Анализ данных может быть более эффективным при наличии направленной, целенаправленной агрегации данных.

Чтобы избежать зависимости атрибутов данных от единиц измерения, данные должны быть нормализованы так, чтобы значения имели единую область допустимых значений, например, от (0, 1). Существует линейная и нелинейная нормализация. Применение указанных методик особенно важно если дальнейший анализ предполагает использование алгоритмов нейронной сети или алгоритмов классификации, основанных на измерениях расстояния (таких как метод k-ближайших соседей).

Заключение

Таким образом задача предварительной обработки данных перед последующим машинным обучением является весьма актуальной. Указанная обработка или препроцессинг должна ставить своей задачей сбор и интеграцию в единый информационный банк данных, которые могут поступать из различных источников.

Практические различия, с которыми столкнулись авторы при проведении эмпирических исследований имеют вид:

1. Разные форматы входных данных.

2. Разное семантическое наполнение – отличающиеся наименования переменных.

3. Различная периодичность данных (день, неделя, месяц и т.п.).

Авторами разработана и предложена доработанная техника интеграции данных в процессе предварительной обработки и унификации данных.

Предложенный алгоритм препроцессинга позволяет сформировать единую модель данных с возможностью трансформации периодичности и семантики набора данных.

Предлагаются следующие этапы обработки:

1. Подключение различных источников данных (csv, xlsx, использование драйверов odbc, ado и т.д.).

2. Формирование загружаемого временного ряда по образцу (имя – период – значение – тип периода).

3. Запись сформированного ряда в универсальную базу знаний исходного временного ряда (формируются записи в следующие фреймы: FrObject FrProperty, FrDescription, более подробно о структуре базы знаний в ^[10]).

4. Обработка и запись в базу знаний нечеткого временного ряда:

a. При наличии имеющихся расхождений по семантике переменной (названии объекта или свойств) производится установление взаимоотношений с текущими записями с использованием тезауруса и лингвистических графов (Wordnet).

b. Выбор алгоритма перевода в другую периодичность для приведения нечеткого временного ряда в инвариантную форму.

5. Сводка единого временного ряда и запись его в базу знаний.

Использование указанного алгоритма позволяет повысить качество анализируемых данных по сравнению с традиционными статистическими методами и снизить трудоемкость предварительной стадии интеллектуального анализа.

Библиография

1. Anand S., Aggarwal R. R. An efficient algorithm for data cleaning of log file using file extensions // International Journal of Computer Applications. 2012. № 8 (48).
2. Bose M., Mali K. Designing fuzzy time series forecasting models: A survey // International Journal of Approximate Reasoning. 2019.
3. Bzdok D., Altman N., Krzywinski M. Points of Significance: Statistics versus machine learning // Nature Methods. 2018. № 4 (15). C. 233–234.
4. Gama J. [и др.]. Knowledge discovery from data streams // Intelligent Data Analysis. 2009.
5. Han Q., Gao X., Wu W. Study on Web Mining Algorithm based on usage mining 2008.
6. Handelman G. S. [и др.]. eDoctor: machine learning and the future of medicine // Journal of Internal Medicine. 2018. № 6 (284). C. 603–619.
7. Ivanchenko N. O. MIVAR technologies modelling of enterprise’s technical and technological potential // Actual Problems of Economics. 2014.
8. Khedri R., Chiang F., Sabri K. E. An algebraic approach towards data cleaning 2013.C. 50–59.
9. Kim K.-J., Tagkopoulos I. Application of machine learning in rheumatic disease research // Korean Journal of Internal Medicine. 2019. № 4 (34). C. 708–722.
10. Kopyrin A., Vidishcheva E., Makarova I. Development of the General Structure of the Knowledge Base for Neuro-Fuzzy Models 2020.
11. Kotsiantis S. B., Kanellopoulos D., Pintelas P. E. Data Preprocessing for Supervised Leaning // World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2007.
12. Kuhn M., Johnson K. Applied predictive modeling / M. Kuhn, K. Johnson, 2013. 1–600 c.
13. Rahm E., Do H. Data cleaning: Problems and current approaches // IEEE Data Eng. Bull. 2000.
14. Song Q., Chissom B. S. Fuzzy time series and its models // Fuzzy Sets and Systems. 1993.
15. Sun W. [и др.]. Data processing and text mining technologies on electronic medical records: A review // Journal of Healthcare Engineering. 2018. (2018).
16. Waljee A. K., Higgins P. D. R. Machine learning in medicine: A primer for physicians // American Journal of Gastroenterology. 2010. № 6 (105). C. 1224–1226.
17. Xiong X., Dubin J. A. A binning method for analyzing mixed longitudinal data measured at distinct time points // Statistics in Medicine. 2010.
18. Zhu X. [и др.]. Measuring similarity and relatedness using multiple semantic relations in WordNet // Knowledge and Information Systems. 2020.
19. Видищева Е. В., Копырин А. С., Василенко М. С. Анализ и уточнение классификации аномалий и выбросов на экономических данных // Вестник Алтайской академии экономики и права. 2019. № 6–1. C. 41

References

1. Anand S., Aggarwal R. R. An efficient algorithm for data cleaning of log file using file extensions // International Journal of Computer Applications. 2012. № 8 (48).
2. Bose M., Mali K. Designing fuzzy time series forecasting models: A survey // International Journal of Approximate Reasoning. 2019.
3. Bzdok D., Altman N., Krzywinski M. Points of Significance: Statistics versus machine learning // Nature Methods. 2018. № 4 (15). C. 233–234.
4. Gama J. [i dr.]. Knowledge discovery from data streams // Intelligent Data Analysis. 2009.
5. Han Q., Gao X., Wu W. Study on Web Mining Algorithm based on usage mining 2008.
6. Handelman G. S. [i dr.]. eDoctor: machine learning and the future of medicine // Journal of Internal Medicine. 2018. № 6 (284). C. 603–619.
7. Ivanchenko N. O. MIVAR technologies modelling of enterprise’s technical and technological potential // Actual Problems of Economics. 2014.
8. Khedri R., Chiang F., Sabri K. E. An algebraic approach towards data cleaning 2013.C. 50–59.
9. Kim K.-J., Tagkopoulos I. Application of machine learning in rheumatic disease research // Korean Journal of Internal Medicine. 2019. № 4 (34). C. 708–722.
10. Kopyrin A., Vidishcheva E., Makarova I. Development of the General Structure of the Knowledge Base for Neuro-Fuzzy Models 2020.
11. Kotsiantis S. B., Kanellopoulos D., Pintelas P. E. Data Preprocessing for Supervised Leaning // World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2007.
12. Kuhn M., Johnson K. Applied predictive modeling / M. Kuhn, K. Johnson, 2013. 1–600 c.
13. Rahm E., Do H. Data cleaning: Problems and current approaches // IEEE Data Eng. Bull. 2000.
14. Song Q., Chissom B. S. Fuzzy time series and its models // Fuzzy Sets and Systems. 1993.
15. Sun W. [i dr.]. Data processing and text mining technologies on electronic medical records: A review // Journal of Healthcare Engineering. 2018. (2018).
16. Waljee A. K., Higgins P. D. R. Machine learning in medicine: A primer for physicians // American Journal of Gastroenterology. 2010. № 6 (105). C. 1224–1226.
17. Xiong X., Dubin J. A. A binning method for analyzing mixed longitudinal data measured at distinct time points // Statistics in Medicine. 2010.
18. Zhu X. [i dr.]. Measuring similarity and relatedness using multiple semantic relations in WordNet // Knowledge and Information Systems. 2020.
19. Vidishcheva E. V., Kopyrin A. S., Vasilenko M. S. Analiz i utochnenie klassifikatsii anomalii i vybrosov na ekonomicheskikh dannykh // Vestnik Altaiskoi akademii ekonomiki i prava. 2019. № 6–1. C. 41

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Актуальность темы рецензируемой статьи ее автор справедливо связывает с низким качеством данных, которые либо по-прежнему вводятся вручную, что сопряжено с возможными ошибками, либо создаются автоматически и интегрируются из разрозненных, разнородных источников. Возрастающие масштабы генерации, сбора и обработки данных порождают спрос на адекватные методы очистки исходной информации и обнаружения знаний. Процесс очистки и подготовка данных актуален не только в силу особой его трудоемкости, но по причине влияния на результаты последующего анализа. Предметом исследования является преобразование необработанных данных, разработка алгоритма препроцессинга, позволяющего сводить в единую базу данных и структурировать информацию по временным рядам из разных источников. Автор ориентируется, прежде всего на обработку экономической информации, которая является гетерогенной и полуструктурированной или неструктурированной по своей природе.
Методология исследования базируется на обобщении современных зарубежных и российских публикаций по рассматриваемой теме, выявлении различий между машинным обучением и традиционными статистическими методами, применении элементов интеллектуального анализа данных, data mining, археологии данных, обработки паттернов данных.
Научная новизна представленного исследования, по мнению рецензента, заключается в разработке предложенных процедур интеграции данных в процессе предварительной обработки и унификации данных, приращение научного знания отражено в предложенном алгоритме препроцессинга, позволяющем сформировать единую модель данных с возможностью трансформации периодичности и семантики набора данных.
Стиль изложения материала в целом соответствует сложившейся при оформлении результатов научных исследований практике публикаций. Представленный материал надлежащим образом структурирован с выделением общепринятых в научных статьях разделов: ведение, материал и методы, результаты, заключение, библиография.
В представленных материалах раскрывается содержание термина «предварительная обработка данных», рассматриваются ее цели, устранение несоответствий; замена недостающих значений; идентификация, удаление или замена выбросов; дискретизация числовых данных, генерация числовых фиктивных переменных; уменьшение размерности; извлечение/отбор признаков; масштабирование признаков (нормализация, стандартизация или преобразование Бокса-Кокса), масштабирование значений признаков. В статье представлена общая схема алгоритма препроцессинга, включающая очистку данных, интеграцию и унификацию, трансформацию к единой форме и преобразование в вид, который необходим для дальнейшей обработки интеллектуальными методами. Далее автор подробно рассматривает каждый из указанных этапов. Авторы предлагают технологию автоматизированной интеграции данных на основе совместного использования методов построения нечеткого временного ряда и машинного лексического сопоставления на сети тезауруса, а также универсальной базы данных, построенной с использованием концепции МИВАР. Для решения проблемы интеграции предлагается по графовой семантической сети Wordnet с использованием нечетких алгоритмов определять функцию принадлежности каждой переменной к эталонному значению. Предлагаемый алгоритм предусматривает предварительную обработку данных (сбор и интеграцию в единый информационный банк данных, которые могут поступать из различных источников) перед последующим машинным обучением. Разработки ориентированы на повышение качества анализируемых данных по сравнению с традиционными статистическими методами и снижение трудоемкости предварительной стадии интеллектуального анализа.
Библиография статьи включает 19 источников, среди которых преобладают современные публикации иностранных и отечественных ученых в зарубежных научных журналах. На каждый из приведенных в списке литературы источников в тексте имеется адресная ссылка, что свидетельствует о наличии в публикации апелляции к оппонентам.
Однако, рецензируемая статья не лишена недоработок, в частности, в отдельных случаях употребляются условные обозначения без их расшифровки, например, в предпоследнем предложении первого абзаца раздела «Материалы и методы». Кроме этого не во всех случаях надлежащим образом отражены индексы в формулах и используемых обозначениях.
Актуальность темы статьи, ее соответствие тематике журнала, наличие элементов приращения научного знания, практическая значимость результатов исследования подтверждают возможность опубликования рецензируемой статьи.

Журналы

Книги

Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных