Als derde module van mijn AI-master aan de Open Universiteit volgde ik de Deep Neural Engineering module over architecturen voor neurale netwerken. Tijdens deze module werk je onder andere aan een project met medestudenten. Tijdens ons project richten wij ons op het verbeteren van de performance van de Transformer-architectuur voor het voorspellen van tijdseries, geïnspireerd op de simplexprojectie.
Transformers zijn de afgelopen jaar steeds populairder geworden, maar voor tijdreeksvoorspellingen blijkt de performance regelmatig nog achter te lopen op de simpelere algoritmes. In dit project combineren we inzichten uit klassieke modellen met moderne architecturen door een nieuw mechanisme te introduceren: Multi-Head Simplex Attention (MHSA). Deze methode gebruikt afstandsmetingen, geïnspireerd op de Simplex-projectie, binnen een Transformer-structuur.
We vergeleken zestien varianten van MHSA met twee sterke basismodellen: de klassieke Simplex-methode en een Transformer met convolutionele aandacht. Ondanks het ontwerp presteerde MHSA structureel slechter, met aanzienlijk hogere foutmarges (MSE tussen 80 en 158, tegenover slechts ~1 voor de baselines). De resultaten tonen aan dat het nabootsen van Simplex-gedrag binnen een Transformer veel moeilijker is dan gedacht. Foutopbouw in autoregressieve voorspellingen speelt hierin een grote rol. Daarnaast blijkt dat meer complexe architecturen niet automatisch leiden tot betere prestaties.
Dit onderzoek dat het aanpassen van bestaande modellen met klassieke principes uitdagend blijft. Toch bieden de inzichten uit deze studie waardevolle handvatten voor verdere verfijning en toekomstig onderzoek naar hybride architecturen.
Enkele bestanden die je kan downloaden.
Seduced by the Transformer, Humbled by Simplex: Revisiting Attention for Time Series Forecasting