Димитриченко Д.П. —
Анализ целесообразного поведения различных типов автоматов в условиях игры в размещения
// Программные системы и вычислительные методы. – 2024. – № 4.
– С. 49 - 65.
DOI: 10.7256/2454-0714.2024.4.72488
URL: https://e-notabene.ru/itmag/article_72488.html
Читать статью
Аннотация: Объектом исследования настоящей работы являются однородные коллективы автоматов, обладающие свойством целенаправленного поведения. Предметом настоящего исследования является сравнение различных конструкций таких автоматов при реализации условий игры в размещения. Целью настоящего исследования является количественная оценка влияния инерционных свойств автоматов и значений глубины памяти на эффективность функционирования коллектива автоматов в рамках игры в размещения. В рассматриваемых коллективах автоматы выполняют действия в заданной среде обитания с различной степенью результативности. Автоматы, в соответствии со своей конструкцией, реагируют на поданный входной сигнал очередным действием. Оценка эффективности автомата определяется, как сумма положительных сигналов, или отрицательных сигналов, полученных автоматом за рассматриваемый промежуток времени. Указанная характеристика зависит, как от заявленной конструкции автомата, так и от глубины его памяти. Требуется определить наиболее простые конструкции автоматов, позволяющие достигать оптимума эффективности в заданной окружающей среде наискорейшим образом. Формализация, как свойство окружающей среды, так и действий автоматов, а также обработка полученных результатов производится при помощи аппарата теории игр. В этом случае значения эффективности функционирования автоматов представляются, как совокупные суммы выигрышей и проигрышей игроков-автоматов. Новизной проведенного исследования является построение интегральной оценки эффективности поведения коллектива автоматов, позволяющей проследить не только стремление коллектива к маскимизации суммы поощрений, но и к минимизации внутриколлективной конкуренции. Полученный результат позволяет проследить влияние инерционных качеств автоматов, реализованных в виде соответствующих конструкций, на эффективность функционирования в заданной окружающей среде, формализованной в виде игры в размещения. Автомат с линейной тактикой и автомат Крылова образуют две предельные реализации автоматной стратегии приближения к оптимуму. Первые за счет высокой скорости смены действий, вторые за счет длительного пребывания в состояниях, близких к оптимальным. Областью применения полученных результатов является дальнейшее исследование более сложных динамических сред при помощи наиболее простых конструкций автоматов, так как синхронные коллективы автоматов в процессе вычислительной реализации плохо поддаются распараллеливанию, что приводит к значительному росту временных и вычислительных затрат при усложнении структуры динамических сред или при увеличении данных оптимизационных задач.
Abstract: The object of research in this work is homogeneous collectives of automata with the property of purposeful behavior. The subject of this study is a comparison of different designs of such machines in the implementation of the conditions of the game of placement. The aim of the study is to establish the best (or similar) structures in terms of properties in order to optimize the time and computational costs of more complex machine learning models based on the principle of reinforcement learning. In the collectives under consideration, automata perform actions in a given habitat (functioning) with varying degrees of effectiveness. The automata, in accordance with their design, react to the input signal with another action. The evaluation of the effectiveness of the machine is defined as the sum of positive signals (rewards) or negative signals (penalties) received by the machine during the considered period of time. This characteristic depends on both the declared design of the machine and the depth of its memory. It is necessary to determine the simplest designs of automata that allow achieving optimal efficiency in a given environment in the shortest possible way. The formalization of both the properties of the environment and the actions of automata, as well as the processing of the results obtained, is carried out using the apparatus of game theory. In this case, the values of the effectiveness of the functioning of the machines are represented as the cumulative amounts of winnings and losses of the slot machine players. As result of the research the designs of automata that provide a given efficiency of functioning with a minimum depth of memory (the least complex design) are presented. The result obtained makes it possible to trace the influence of the inertial qualities of automata, implemented in the form of appropriate structures, on the efficiency of functioning in a given environment, formalized in the form of a game of placement. An automaton with linear tactics and a Krylov automaton form two marginal implementations of an automaton strategy for approaching the optimum. The first is due to the high speed of changing actions, the second is due to a long stay in states close to optimal. The field of application of the results obtained is further investigation of more complex dynamic environments using the simplest designs of automata, since synchronous collectives of automata in the process of computational implementation are difficult to parallelize, which leads to a significant increase in time and computational costs with the complication of the structure of dynamic environments or with an increase in these optimization tasks.
Димитриченко Д.П. —
Оптимизация рекуррентной нейронной сети при помощи автоматов с переменной структурой
// Программные системы и вычислительные методы. – 2023. – № 4.
– С. 30 - 43.
DOI: 10.7256/2454-0714.2023.4.69011
URL: https://e-notabene.ru/itmag/article_69011.html
Читать статью
Аннотация: Предметом исследования настоящей работы является выявление совокупности общих структурных свойств, присущих рекуррентным нейронным сетям и стохастическим автоматам, особенностью которых является целенаправленное поведение в динамических средах.
При этом, выявляется необходимая общность свойств как в процессе их функционирования, так и в процессе их обучения (настройки).
Автор подробно рассматривает такие аспекты темы, как: формализация целенаправленного поведения, рассмотрение конструкции автоматов, такое поведение обеспечивающих, а также, сравнительный анализ рассмотренных конструкций автоматов.
Из выявленной общности функционирования и установленного взаимно однозначного соответствия нейронов полносвязной рекуррентной нейронной сети и состояний вероятностного автомата с переменной структурой вытекает возможность рассмотрения структуры настроенного стохастического автомата в качестве эталона для совокупности связей рекуррентной нейронной сети. Это приводит еще на этапе настройки к удалению избыточных состояний (нейронов) и связей между ними, опираясь на параметры соответствующего автомата.
Методологией проведенного исследования является построение взаимно однозначного соответствия между нейронами полносвязной рекуррентной нейронной сети и актуальными после процесса настройки внутренними состояниями автомата с переменной структурой и вероятностями переходов между ними. При взаимно однозначном соответствии вероятности переходов автомата соответствуют весам связей между нейронами оптимальной конфигурации. Основные выводы проведенного исследования:
1. Сопоставление структур рекуррентных нейронных сетей и автоматов с переменной структурой позволяет воспользоваться преимуществами автомата с переменной структурой для решения задачи целесообразного поведения в динамических средах и построить на его основе рекуррентную нейронную сеть;
2. Соответствие внутренней структуры рекуррентной нейронной сети и автомата с переменной структурой позволяет уже на этапе обучения высвобождать обучаемую рекуррентную нейронную сеть от избыточных нейронов и избыточных связей в ее структуре;
3. В силу того, что автомат с переменной структурой приближается в процессе настройки к оптимальному для данных условий автомату с линейной тактикой при нелинейных значениях скорости обучения, то это позволяет провести логический анализ структуры итоговой рекуррентной нейронной сети.
Abstract: The subject of this study is to identify a set of common structural properties inherent in recurrent neural networks and stochastic automata, the feature of which is purposeful behavior in dynamic environments.
At the same time, the necessary commonality of properties is revealed both in the process of their functioning and in the process of their training (tuning).
The author considers in detail such topics as: formalization of purposeful behavior, consideration of the design of automata, as well as a comparative analysis of the considered designs of automata. From the revealed commonality of functioning and the established one-to-one correspondence of neurons of a fully connected recurrent neural network and states of a probabilistic automaton with a variable structure, it follows that the structure of a tuned stochastic automaton can be considered as a reference for a set of connections of a recurrent neural network. This leads, even at the setup stage, to the removal of redundant states (neurons) and connections between them, based on the parameters of the corresponding automaton. The methodology of the conducted research is the construction of a one-to-one correspondence between the neurons of a fully connected recurrent neural network and the internal states of an automaton with a variable structure and the probabilities of transitions between them that are relevant after the tuning process. With a one-to-one correspondence, the probabilities of transitions of the automaton correspond to the weights of connections between neurons of the optimal configuration. The main conclusions of the study:
1. Comparing the structures of recurrent neural networks and automata with a variable structure allows one to take advantage of an automaton with a variable structure to solve the problem of appropriate behavior in dynamic environments and build a recurrent neural network based on it;
2. The correspondence of the internal structure of a recurrent neural network and an automaton with a variable structure allows already at the training stage to release the trained recurrent neural network from redundant neurons and redundant connections in its structure;
3. Due to the fact that an automaton with a variable structure approaches the optimal automaton with linear tactics for these conditions with nonlinear values of the learning rate, this allows a logical analysis of the structure of the final recurrent neural network.