Gedurende de laatste 15 jaar heeft automatische gezichtsherkenning zich ontwikkeld tot een breed geaccepteerde en betrouwbare technologie voor het herkennen van personen. Onder gecontroleerde omstandigheden werken professionele automatische gezichtsherkenningssystemen soms zelfs beter dan mensen. In surveillance toepassingen, in het bijzonder wanneer we te maken hebben met beelden van gezichten van zeer lage resolutie, is betrouwbare automatische gezichtsherkenning echter nog steeds een uitdaging.
> Lees ook Test met gezichtsherkenning leidt tot ophef
Automatische gezichtsherkenning wordt bijvoorbeeld gebruikt bij de paspoortcontrole in de e-gates op Schiphol. Hier wordt een opname van een reiziger automatisch vergeleken met een beeld van het gezicht opgeslagen in de chip van diens paspoort. Als beide beelden voldoende overeenkomen concludeert het systeem dat ze van dezelfde persoon afkomstig moeten zijn en dat de reiziger dus de legitieme eigenaar van het paspoort is. Als de beelden onvoldoende op elkaar lijken zal een grensbewaker van de Koninklijke Marechaussee de zaak verder onderzoeken.
> Download hier de whitepaper Cameratoezicht – De impact van deep learning
Onder gecontroleerde omstandigheden werkt automatische gezichtsherkenning soms betrouwbaarder
Automatische gezichtsherkenning in e-gates is een voorbeeld van gezichtsherkenning onder gecontroleerde omstandigheden. Dat wil zeggen dat de afbeeldingen van gezichten die vergeleken worden van goede kwaliteit zijn, frontaal genomen met uniforme belichting en voldoende hoge resolutie. Onder deze omstandigheden werken professionele automatische gezichtsherkenningssystemen betrouwbaar, soms zelfs beter dan mensen. We zien de betrouwbaarheid van deze systemen langzamerhand ook steeds beter worden onder minder goede omstandigheden. Veel automatische gezichtsherkenners kunnen nu ook goed omgaan met niet-frontale en niet-uniform belichte opnamen. Vooral gezichtsherkenners gebaseerd op zogenaamde Diepe Neurale Netwerken (Engels Deep Neural Nets, DNNs) laten indrukwekkende herkenningsprestaties zien.
Betrouwbare gezichtsherkenning bij surveillance-toepassingen is nog steeds een uitdaging
Gezichtsherkenning bij lage resolutie-beelden hebben verbetering nodig
In surveillance-toepassingen werkt men vaak met beelden van zeer lage resolutie. Hier is de situatie compleet anders en is betrouwbare automatische gezichtsherkenning nog steeds een uitdaging. Verbetering van de herkenningsprestaties is hier van belang, omdat het bijdraagt aan de opsporing en identificatie van overtreders op basis van bewakingsbeelden. De resolutie van beelden van gezichten wordt vaak uitgedrukt in het aantal beeldpunten tussen het midden van de ogen. Voor een digitale paspoortfoto moet dit minimaal 60 beeldpunten zijn, maar 90 is aanbevolen. In bewakingsbeelden komen we beelden van gezichten tegen met minder dan 10 beeldpunten tussen de ogen. Onderstaande afbeelding laat voorbeelden zien van dit soort beelden zoals ze met een bewakingscamera op verschillende afstanden worden opgenomen.

Beelden van gezichten zoals ze met een bewakingscamera worden opgenomen op verschillende afstanden. Alleen het gedeelte van het gezicht dat wordt gebruikt voor gezichtsherkenning wordt getoond. Het beeld met het label ‘Gallery’ wordt gebruikt om de lage resolutiebeelden mee te vergelijken.
Uit experimenten blijkt dat de herkenningsprestaties van high-end gezichtsherkenningsystemen, die in hoge mate gebruikmaken van de details in het beeld, abrupt afnemen als de beeldresolutie te laag wordt. Tegelijkertijd zien we ook dat eenvoudiger gezichtsherkenningsystemen minder gevoelig zijn voor vermindering van de resolutie en het op lage resolutie juist beter doen dan de high-end systemen. Niettemin is er nog een groot verschil tussen de beste herkenningsprestaties op lage en op hoge resolutie. Om dit te illustreren moeten we eerst iets meer weten over de herkenningsprestaties van gezichtsherkenning.
Gezichtsherkenning kan twee beslissingsfouten maken
In principe kan een gezichtsherkenner twee beslissingsfouten maken. De eerste is de zogenaamde false match. Het systeem beslist dan dat twee afbeeldingen van gezichten van verschillende personen van dezelfde person afkomstig zijn. De tweede beslissingsfout is de false nonmatch. Het systeem herkent dan niet dat twee afbeeldingen wel van dezelfde person komen.
Hoe kunnen we lage resolutie-beelden inzetten om de personen op te sporen en te identificeren?
De herkenningsprestaties van een gezichtsherkenner worden uitgedrukt in de kansen op deze twee fouten: respectievelijk de false match rate en de false nonmatch rate. Tussen deze kansen is een uitruil mogelijk; we kunnen de ene kans lager instellen, maar dan wordt de andere vanzelf hoger. High-end systemen kunnen op hoge resolutie beelden van goede kwaliteit een false nonmatch rate van 1 procent halen bij een false match rate ingesteld op 0.1 procent. Tot nu toe is het maximaal haalbare op lage resolutie beelden, met 10 pixels tussen de ogen, een stuk slechter, namelijk een false nonmatch rate van circa 80 procent bij een false match rate van 10 procent.
De grote vraag is dus: “Hoe en in welke mate kunnen we de prestaties van gezichtsherkenning op lage resolutie verbeteren, zodat het beter inzetbaar wordt voor de opsporing en identificatie van personen in bewakingsbeelden?” Er is nog geen volledig antwoord, maar hieronder geven we richtingen aan naar mogelijke oplossingen.
Ontwerp van systemen voor de vergelijking van gezichten op ongelijke resolutie
Standaardsystemen voor gezichtsherkenning vergelijken gezichten van (ongeveer) gelijke, hoge resolutie. In bewakings- en opsporingstoepassingen is meestal één beeld, de referentie, van hoge en het andere van lage resolutie. Dit vraagt om een systeem dat specifiek ontworpen is om beelden van verschillende resoluties te vergelijken.
Training op relevant beeldmateriaal
Gezichtsherkenners zijn classificatiesystemen die voor gebruik getraind moeten worden op relevante afbeeldingen van gezichten. Onderstaande afbeelding laat zien hoe echte bewakingsbeelden op lage resolutie kunnen verschillen van beelden op hoge resolutie. De middelste kolom laat gezichten op hoge resolutie zien. Rechts dezelfde beelden maar op lagere resolutie weergegeven, links echte bewakingsbeelden. Het is duidelijk dat de echte bewakingsbeelden op meer punten afwijken dan alleen de lage resolutie. Bij de training van gezichtsherkenners moet daar dan ook rekening mee worden gehouden. Dit betekent dat aandacht moet worden besteed aan het verzamelen en beschikbaar stellen van relevant beeldmateriaal om systemen te trainen en te testen. Op dit moment is er wel ruim voldoende trainingsmateriaal beschikbaar met hoge resolutie, maar onvoldoende met lage resolutie.

De middelste kolom laat gezichten op hoge resolutie zien. Rechts dezelfde beelden maar op lagere resolutie weergegeven, links echte bewakingsbeelden.
Diepe neurale netwerken (DNNs)
DNNs vormen een nieuwe categorie classificatiesystemen die met veel succes zijn toegepast in de (hoge resolutie) gezichtsherkenning. Ze zouden ook succesvol kunnen worden toegepast in gezichtsherkenning op lage resolutie, maar deze systemen hebben zeer veel trainingsdata nodig. In de orde van miljoenen beelden en dat is, zoals eerder opgemerkt, nu nog niet beschikbaar. Het simpelweg verlagen van de resolutie van de trainingsdata op hoge resolutie, die wel uitgebreid beschikbaar is, is geen oplossing, omdat – zoals eerder uitgelegd – bewakingsbeelden wezenlijk anders zijn. Als dit dataprobleem wordt opgelost, kunnen ook gemengde resolutie DNNs worden ontworpen en getraind.
Goede uitlijning en posecorrectie
Voordat twee beelden van gezichten worden vergeleken, worden ze eerst uitgelijnd. Dat wil zeggen dat door schaling, draaiing en verschuiving de gezichten op een standaardgrootte en in een standaardpositie worden weergegeven. Ook worden door middel van beeldbewerkingstechnieken kleine afwijkingen van een frontale pose gecorrigeerd. Deze voorbewerkingen zijn essentieel voor een goede gezichtsherkenning. Bij hoge resolutiebeelden zijn deze operaties gebaseerd op automatisch gedetecteerde referentiepunten in het gezicht, zoals ooghoeken, mondhoeken, en neuspunt. Deze zijn echter in beelden van lage resolutie slecht of niet detecteerbaar, waardoor de uitlijning en posecorrectie onnauwkeurig zijn. Dit beïnvloedt de herkenningsprestaties nadelig. Daarom zijn methoden nodig voor uitlijning en posecorrectie die niet afhangen van referentiepunten.
Met de stappen hierboven zal het prestatieverschil tussen gezichtsherkenning op hoge en lage resolutie niet volledig verdwijnen, maar verkennende experimenten laten zien dat het verschil nog wel aanzienlijk kleiner gemaakt kan worden.
Raymond Veldhuis schreef dit artikel. Hij is Full Professor Biometric Pattern Recognition, Faculty Electrical Engineering, Mathematics and Computer Science (EEMCS) op de Universiteit Twente.
> Lees ook Biometrie: toegangscontrole van de toekomst