Neural networks and Information theory - autumn 2011

Vereiste voorkennis

Linear algebra; Calculus; Kansrekenen

Cursus informatie

Half semester cursus (3 Euro points)
Format: hoorcollege, werkcollege
Doelgroep: BA studenten natuurkunde en wiskunde
Hoorcolleges: Woensdag van 15.30-17:30, Hg00.206
Werkcolleges: Vrijdag van 10.30-12.30, HG00.206
Docenten: Bert Kappen en Wim Wiegerinck
Werkcollegedocent: Patrick Lessmann

Beschrijving

Dit vak geeft een inleiding in machine learning en neurale netwerken vanuit een probabilistisch perspectief. Deze ideen gaan terug naar de tijd van de cybernetica in de jaren 60, toen natuurkundigen, wiskundigen en informatici begonnen met het bestuderen van intelligentie in mensen en machines in engineering termen. De probabilistische aanpak is zeer generiek en is momenteel dominant in de machine Learning, robotiek, vision, kunstmatige intelligentie en modellering van de hersenen. Zie Bert Kappen en SNN voor meer informatie.

De cursus geeft een eerste inleiding in dit fascinerende onderwerp en wordt in de Master fase vervolgd door een college Machine Learning waarin dit verder wordt uitgediept.

De cursus is geschikt voor bachelor studenten natuurkunde of wiskunde. Informatica studenten kunnen ook deelnemen, maar worden aangeraden om eerst de cursus 'Introduction to Pattern Recognition' te volgen.

Literatuur

David MacKay, Information Theory, Inference and Learning Algorithms, Cambridge University press. Het hele boek kan gedownload worden op: book

Inhoud

	Date	Topic	Chapter	Exercises
1	31 Aug	Probability, entropy and inference	Ch 2, except 2.5	In college: 2.3, 2.6 +continued Werkcollege: 2.4, 2.8, 2.10, 2.14, 2.26 Extra: 2.16ab, 2.18, 2.19
	7 Sept	No class
2	14 Sept	More about inference	3	In college: 3.3, 3.4, 3.8, 3.9, 3.15 Werkcollege: 3.6, 3.7, 3.10, 3.12, 3.14 Extra: 3.1, 3.2, 3.5
3	21 Sept	Model comparison	28	Werkcollege 28.1-3
4	28 Sept	Monte Carlo Methods	29.1-2, 29.4-5, 30.1 Check sheets 15 and 16 for proof convergence Metropolis method	Extra Exercise Ch 29 (ask Alberto); 29.1, 29.3, 29.4
5	5 Oct	Ising models	31 tm 31.1, pg 401 bottom "I find this an almost..." tot onder 31.12 niet; pg 404 Schottky anomaly niet;	31.1, 31.3, Computer exercise 2
6	12 Oct	Neural networks Perceptrons Learning as inference	38, 39, 41.1-4	Opgaven: Show that when the learning rule (39.20) is applied and eta is small, the error (39.11) is decreasing in each step; 39.5; extra exercise Ch. 41 (ask Alberto); Computer exercise 1
7	19 Oct	Multi-layered perceptrons Graphical models	44 Directed graphical models: Chapter 8.1 until 8.1.1, 8.2 until 8.2.2; Undirected graphical models: Chapter 8.3.3 of Chris Bishops book [ pdf]; Short note on Promedas	44.1 Bishop 8.3, 8.4, 8.10, 8.11
8	27 Oct	Summary of course; Research overview	Research overview

Tentamen

De stof voor het tentamen bestaat uit de stof die tijdens het college behandeld is, zoals hierboven aangegeven (muv Research overview in college 7). Bij het tentamen mag het boek van MacKay en hoofdstuk 8 van Bishop gebruikt worden, maar niet de uitwerkingen van de werkcollegeopgaven. Het tentamen is op 25 januari van 9-12 uur

Voor de werkcollege opgaven kan maximaal 1 extra punt worden behaald. Daarnaast is het inleveren van 1 van de 2 computer opgaven verplicht. Met het inleveren van de tweede computeropgave kan een deel van het werkcollegepunt worden behaald.

Ch 2: Probabilities, forward and inverse probabilities, Bayes rule, Entropy, KL divergence, Jensen inequality
Ch 3: Model evidence, model comparison
Ch 28: Model comparison, except 28.3
Ch 29: Different approaches to sample from a distribution: Uniform sampling, Importance sampling, Metropolis-Hasting sampling (detailed balance proof not), Gibbs sampling
Ch 31: Ising model as an undirected graphical model, free energy, heat capacity average energy and their relations; understand the behavior of Ising model for large coupling (low temperature) and small coupling (high temperature; signatures of phase transition: large range correlations; frustration; the impact of coupling strength/frustration on success of sampling
Ch 39: Classifying data with a perceptron, classification error, learning rule as error minimization by gradient descent, regularization
Ch 41: Learning as inference, relation data likelihood to classification error, relation prior to regularization, Bayesian solution to classification
Ch 44: Multi-layered perceptron, training and test error, overfitting, Bayesian approach to control model complexity

Computer exercise 1:
Voorbeeld van Baysian inference voor het leren van een perceptron met behulp van MCMC. De files (Matlab files and handleiding) voor deze opgaven staan hier: [mcmc_mackay.tar]. Deze opgaven worden behandeld op het werkcollege. Om tijd te sparen zijn de uitwerkingen van de opgaven reeds gegeven als Matlab m-files. Als je niet vertrouwd bent met Matlab, kan je via Matlab tutorials verdere informatie vinden. Je mag natuurlijk ook je eigen programmas schrijven.

Computer exercise 2:
In deze opgave wordt de energie van een binair spin model geminimaliseerd met behulp van simulated annealing. Deze methode vervangt het minimalisatie probleem door een sampling probleem in de kansverdeling p(x)=exp(-beta E(x))/Z. Voor kleine beta is dit samplingsprobleem eenvoudig. Voor beta naar oneindig is p(x) een delta verdeling gecentreerd op het minimum van E. De opgave staat hier: [simulated_annealing.tar.gz]