Stochastische Dynamica van On-Line Leren in Neurale Netwerken.

Wim Wiegerinck


Samenvatting

Neurale netwerken zijn informatieverwerkende systemen die voor een belangrijk deel geinspireerd zijn op huidige inzichten in de werking van het brein. Een neuraal netwerk (de naam zegt het al) bestaat uit een netwerk van onderling verbonden neuronen. De neuronen zijn eenvoudige rekenelementjes. Door de onderlinge verbindingen kunnen de neuronen gegevens met elkaar uitwisselen. Tenslotte zorgen de input en output neuronen ervoor dat het neuraal netwerk met zijn omgeving kan communiceren. De sterktes van de verbindingen oftewel de gewichten reguleren de gegevensuitwisseling in het neuraal netwerk. Zodoende bepalen uiteindelijk de gewichten hoe het neuraal netwerk functioneert.

Neurale netwerken staan erom bekend dat zij kunnen leren. Hierbij is leren het proces waarbij een neuraal netwerk zijn gewichten volgens een bepaalde leerregel stap voor stap aanpast aan de hand van voorbeelden uit zijn omgeving. Dit kunnen bijvoorbeeld gewenste input-output relaties zijn. Leren heeft als groot voordeel dat de gewichten van een neuraal netwerk niet precies door een programmeur ingesteld hoeven te worden.

Een zeer natuurlijke vorm van leren is het zogenaamde on-line leren. In on-line leren worden er in de omgeving voortdurend -- en in het algemeen met een zekere willekeur -- voorbeelden gegenereerd en een voor een aan het neuraal netwerk aangeboden. Na ieder voorbeeld maakt het neuraal netwerk onmiddellijk een leerstap. (In het zogenaamde batch-mode leren moet er eerst een set voorbeelden verzameld worden. Vervolgens kan er worden geleerd. Hierbij wordt iedere leerstap gemaakt op basis van de totale set voorbeelden.) Vaak bestaat bij on-line leren het leerproces uit vele kleine leerstapjes. Dit is om ervoor te zorgen dat het neuraal netwerk een goede representatie van de omgeving krijgt en zich niet bij elke leerstap teveel instelt op het voorbeeld dat toevallig op dat moment wordt aangeboden.

On-line leren in neurale netwerken kan op een wiskundige manier worden gemodelleerd en bestudeerd. Het toeval in de gepresenteerde voorbeelden maakt het leren tot een stochastisch (= toevals)proces. Om dit proces te analyseren zijn er een groot aantal technieken uit de kansrekening en de theorie van stochastische processen beschikbaar.

Er is al veel onderzoek gedaan aan de theorie van on-line leren. In een van de onderzoeksrichtingen wordt er uitgegaan van een algemeen, niet nader beschreven neuraal netwerk met een algemene, niet nader beschreven leerregel die de leerstap definieert. Deze algemene aanpak heeft als voordeel dat de resultaten geldig zijn voor een groot aantal soorten neurale netwerken waaronder het meerlaags perceptron met de bekende backpropagation leerregel in on-line mode en de topologisch geordende kaart met de zelforganiserende leerregel van Kohonen. De belangrijkste aanname in deze theorie is dat de leerstappen schalen met een zogenaamde leerparameter die klein verondersteld mag worden. Uit deze theorie volgt dat het leerproces goed beschreven wordt door een trend -- het gemiddelde van veel kleine leerstappen -- en fluctuaties hierop. Deze fluctuaties worden veroorzaakt door de afwijkingen van individuele leerstappen ten opzichte van de trend.

Binnen dit algemene theoretische kader wordt er in het grootste gedeelte van dit proefschrift gekeken naar leerprocessen waarbij opeenvolgende leerstappen gecorreleerd zijn, m.a.w. meer (of wellicht juist minder) op elkaar lijken dan op grond van puur toeval verwacht zou mogen worden. De analyse van leren met gecorreleerde leerstappen heeft als extra complicatie dat als je de kans op het maken van een leerstap op een bepaald tijdstip t wilt berekenen, je het verleden voor t niet buiten beschouwing kunt laten. Correlaties tussen de opeenvolgende leerstappen kunnen verschillende oorzaken hebben. Zij kunnen bijvoorbeeld simpelweg het directe gevolg zijn van correlaties tussen de aangeboden voorbeelden. Er zijn ook leeralgoritmes waarbij bewust correlaties tussen de leerstappen zijn aangebracht. De bekendste hiervan is het leren met een {\em momentum term}. Een momentum term zorgt ervoor dat opeenvolgende leerstappen op elkaar lijken met als bedoeling om de (ongewenste) fluctuaties die optreden in het leerproces te dempen. Dit proefschrift richt zich in het bijzonder op deze twee gevallen. Vragen die worden gesteld zijn bijvoorbeeld: Hebben correlaties tussen de voorbeelden invloed op de trend en de fluctuaties in het leerproces? In hoeverre helpt een momentum term om fluctuaties in het leerproces te dempen?

Het blijkt dat correlaties tussen voorbeelden geen invloed hebben op de trend in het leerproces. Hier is alleen de gemiddelde kans om een voorbeeld aan te treffen van belang. Op de fluctuaties hebben zij wel degelijk invloed. Dit is als volgt samen te vatten: hoe groter de kans dat twee opeenvolgende voorbeelden door de onderlinge correlaties op elkaar lijken, des te groter zijn de fluctuaties in het leerproces. Een ander resultaat in dit proefschrift is de quantitatieve verklaring waarom neurale netwerken sommige taken wel kunnen leren met gecorreleerde voorbeelden die ze met ongecorreleerde voorbeelden niet of veel moeilijker kunnen leren. Het blijkt dat er in zo'n situatie sprake is van een `plateau in het foutenlandschap', waardoor het leerproces vrijwel stil komt te liggen. De correlaties tussen de voorbeelden zorgen voor een klein additioneel effect dat in reguliere situaties niet van belang is, maar in geval van een plateau net het leerproces weer aan de gang kan helpen. Tenslotte blijkt het toevoegen van een momentum term in on-line leren niet of nauwelijks zin te hebben. Het toevoegen van een momentum term komt in het algemeen effectief slechts neer op een herschaling van de leerparameter.

Tenslotte is er in een hoofdstuk wel naar een specifiek neuraal netwerk met een specifieke leerregel gekeken. Voor grote een-laags perceptrons met de bekende perceptron leerregel is onderzocht wat het resultaat van het leerproces is. Als de trainingset uit alle mogelijke inputvectoren bestaat blijkt dit resultaat in laagste orde door de regel van Hebb beschreven te worden. Als de trainingset bestaat uit clusters van op elkaar lijkende voorbeelden, waarbij het aantal clusters schaalt met de grootte van het perceptron, dan kan er een zelf-consistent stelsel vergelijkingen voor de gewichten worden afgeleid. In de limiet waarin de groottes van de clusters naar nul gaat, worden de oplossingen van dit stelsel gegeven door de gewichten met maximale stabiliteit.