Макарова И.Л., Игнатенко А.М., Копырин А.С. —
Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов.
// Программные системы и вычислительные методы. – 2021. – № 3.
– С. 40 - 51.
DOI: 10.7256/2454-0714.2021.3.36564
URL: https://e-notabene.ru/itmag/article_36564.html
Читать статью
Аннотация: Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании
Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений.
Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.
Abstract: Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms.
Копырин А.С., Макарова И.Л. —
Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных
// Программные системы и вычислительные методы. – 2020. – № 3.
– С. 40 - 50.
DOI: 10.7256/2454-0714.2020.3.33958
URL: https://e-notabene.ru/itmag/article_33958.html
Читать статью
Аннотация: Предметом исследования является процесс сбора и предварительной подготовки данных из гетерогенных источников. Экономическая информация является гетерогенной и полуструктурированной или неструктурированной по своей природе. Из-за неоднородности первичных документов, а также человеческого фактора исходные статистические данные могут содержать большое количество шумов, а также записей автоматическая обработка которых может быть весьма затруднена. Это делает предварительную обработку входных динамических данных важным предварительным условием для обнаружения значимых паттернов и знаний в предметной области, а тему исследования актуальной
Предварительная обработка данных представляет собой ряд уникальных задач, которые привели к появлению различных алгоритмов и эвристических методов для решения таких задач предварительной обработки, как слияние и очистка, идентификация переменных
В данной работе формулируется алгоритм препроцессинга, позволяющий сводить в единую базу данных и структурировать информацию по временным рядам из разных источников. Ключевой модификацией метода препроцессинга, которую предлагают авторы является технология автоматизированной интеграции данных.
Предложенная авторами технология предполагает совместное использование методов построения нечеткого временного ряда и машинного лексического сопоставления на сети тезауруса, а также использования универсальной базы данных, построенной с использованием концепции МИВАР.
Алгоритм препроцессинга формирует единую модель данных с возможностью транформации периодичности и семантики набора данных и интеграцию в единый информационный банк данные, которые могут поступать из различных источников.
Abstract: The subject of the research is the process of collecting and preliminary preparation of data from heterogeneous sources. Economic information is heterogeneous and semi-structured or unstructured in nature. Due to the heterogeneity of the primary documents, as well as the human factor, the initial statistical data may contain a large amount of noise, as well as records, the automatic processing of which may be very difficult. This makes preprocessing dynamic input data an important precondition for discovering meaningful patterns and domain knowledge, and making the research topic relevant.Data preprocessing is a series of unique tasks that have led to the emergence of various algorithms and heuristic methods for solving preprocessing tasks such as merge and cleanup, identification of variablesIn this work, a preprocessing algorithm is formulated that allows you to bring together into a single database and structure information on time series from different sources. The key modification of the preprocessing method proposed by the authors is the technology of automated data integration.The technology proposed by the authors involves the combined use of methods for constructing a fuzzy time series and machine lexical comparison on the thesaurus network, as well as the use of a universal database built using the MIVAR concept.The preprocessing algorithm forms a single data model with the ability to transform the periodicity and semantics of the data set and integrate data that can come from various sources into a single information bank.