Ay, NihatNihatAy11426485910000-0002-8527-2579Várady, Csongor-HubaCsongor-HubaVárady2025-01-172025-01-172025https://tore.tuhh.de/handle/11420/52903In this thesis, we use concepts from Information Geometry (IG), such as Natural Gradient Descent (NG), to improve the training of a Helmholtz Machine (HM) through the design and implementation of a novel algorithm called the Natural Reweighted Wake-Sleep (NRWS). First, we prove that for any Directed Acyclic Graph (DAG) the associated Fisher Information Matrix (FIM), which describes the geometry of the statistical manifold, has a fine-grained block-diagonal structure that is efficient to invert. By exploiting the fact that the HM is composed of two DAG networks, we adapt its training algorithm into the NRWS implementing NG. The NRWS not only achieves better performance in the minimum of the optimization loss compared to other training methods, such as the Reweighted Wake-Sleep (RWS) and Bidirectional Helmholtz Machine but also outperforms them in both epochs and wall-clock time. In particular, we present how the NRWS achieves state-of-the-art performance on standard benchmark datasets (MNIST, FashionMNIST, and Toronto Face Dataset) based on the importance sampling estimation of the log-likelihood of the HM. By adapting Accelerated Gradients (AG) methods to operate within the geometry defined by the FIM of the HM, we further improve the performance of the NRWS. Using first-order AG methods, such as Momentum and Nesterov Momentum, improves the convergence rate of the NRWS without any computational overhead. Additionally, we develop a regularizer method based on the Maximum Entropy Principle, named the Entropy Regularizer (ER), which we show further improves the NRWS by reaching lower optimization loss and narrowing the generalization gap of the algorithm without extra time penalty, which can also be applied to non-geometric training methods. Conveniently, the NRWS framework is compatible with continuous random variables; hence, we show how the FIM can be derived for normally distributed hidden variables. Finally, we explore the possibilities of using HMs with Convolutional Neural Networks (CNNs) by computing the FIM for such network topologies and showing that the resulting matrix also has a finely-grained block-diagonal structure. We finish by presenting a hypothesis on the difficulties of using CNNs with HMs and NRWS. We make significant contributions to the field of IG and HM, with numerous findings that could be further explored or reused in other research fields. Our results can represent a starting point for future research on improving training algorithms for neural networks and deep learning models using geometric methods, such as the NG.In dieser Dissertation verwenden wir Konzepte der Informationstheorie (IG), wie das natürliche Gradientenverfahren (NG), um das Training der Helmholtz-Maschine (HM) durch die Entwicklung und Implementierung eines neuartigen Algorithmus, des sogenannten Natural Reweighted Wake-Sleep (NRWS), zu verbessern. Zunächst beweisen wir, dass die zu einem beliebigen gerichteten azyklischen Graphen (DAG) assoziierte Fisher-Informationsmatrix (FIM), die die Geometrie der statistischen Mannigfaltigkeit beschreibt, eine fein abgestufte blockdiagonale Struktur aufweist, die sich effizient invertieren lässt. Wir nutzen diese Beobachtung zusammen mit der Tatsache, dass die HM aus zwei DAG-Netzwerken besteht, um deren Trainingsalgorithmus, das Wake-Sleep Algoritmus (WS), in das NRWS umzuwandeln, das NG implementiert. Das NRWS erreicht nicht nur eine bessere Performance beim Minimieren des Optimierungsverlustes im Vergleich zu anderen Trainingsmethoden, wie dem Reweighted Wake-Sleep (RWS) und der Bidirectional Helmholtz-Maschine, sondern übertrifft diese auch hinsichtlich der benötigten Epochen und der Laufzeit. Insbesondere zeigen wir, wie das NRWS auf Standard-Benchmark-Datensätzen (MNIST, FashionMNIST und Toronto Face Dataset) eine Spitzenleistung erreicht, basierend auf der Importance-Sampling-Schätzung der Log-Likelihood der HM. Durch die Anpassung beschleunigter Gradientenverfahren (AG) an die Geometrie, die durch die FIM der HM definiert wird, verbessern wir die Leistung des NRWS weiter. Der Einsatz von AG-Methoden erster Ordnung, wie Momentum und Nesterov-Momentum, beschleunigt die Konvergenzrate des NRWS ohne zusätzlichen Rechenaufwand. Darüber hinaus entwickeln wir eine Regularisierungsmethode, die auf dem Prinzip der maximalen Entropie basiert, den sogenannten Entropieregularisator (ER). Dieser verbessert das NRWS zusätzlich, indem er niedrigere Optimierungsverluste erreicht und die Generalisierungslücke des Algorithmus ohne zusätzlichen Zeitaufwand verringert. Diese Methode kann auch auf nicht-geometrische Trainingsmethoden wie das RWS angewendet werden. Praktischerweise ist das gesamte NRWS-Framework mit kontinuierlichen Zufallsvariablen kompatibel, sodass wir zeigen, wie die FIM für normalverteilte verborgene Variablen abgeleitet werden kann. Schließlich untersuchen wir die Möglichkeit, HMs mit Convolutional Neural Networks (CNNs) zu verwenden, indem wir die FIM für solche Netzwerktopologien berechnen und zeigen, dass die resultierende Matrix ebenfalls eine fein abgestufte blockdiagonale Struktur aufweist. Wir schließen mit einer Hypothese zu den Schwierigkeiten, CNNs mit HMs und NRWS zu kombinieren. Wir leisten bedeutende Beiträge auf dem Gebiet der IG und HM mit zahlreichen Erkenntnissen, die weiter erforscht oder in anderen Forschungsfeldern wiederverwendet werden könnten. Unsere Ergebnisse können einen Ausgangspunkt für zukünftige Forschungen mit dem Ziel Trainingsalgorithmen für neuronale Netzwerke und Deep-Learning-Modelle mithilfe geometrischer Methoden wie NG zu verbessern darstellen.enhttps://creativecommons.org/licenses/by/4.0/Helmholtz machineNatural gradientNatural reweighted wake sleepComputer Science, Information and General Works::006: Special computer methods::006.3: Artificial IntelligenceNatural Sciences and Mathematics::510: MathematicsGeometric learning of latent parameters with Helmholtz MachinesDoctoral Thesishttps://doi.org/10.15480/882.1421310.15480/882.14213Zemke, JensJensZemkeOther