Vidéosurveillance : trop de caméras, pas assez d'yeux ?

Les laboratoires rivalisent d'invention pour offrir des outils de reconnaissance et d'interprétation des comportements.AFP/MARTIN BUREAU

Un homme déambule entre les allées d'un parking et s'attarde "anormalement" près d'une voiture. A 3 kilomètres de là, devant son mur d'écrans relié à une trentaine de caméras, un opérateur se lasse de voir passer des anonymes et s'assoupit. Mais un signal d'alarme attire son attention sur l'écran 15, où la silhouette du maraudeur est cerclée de rouge. Si l'opérateur en croit l'"intelligence" de la caméra, cet homme s'apprête à voler un véhicule. Il avertit donc la police, qui sera sur les lieux cinq minutes plus tard. Et trouvera un voleur... ou un rêveur.

Après avoir été présentées comme la panacée pour lutter contre la délinquance, les caméras de vidéosurveillance sont jugées assez inefficaces par les professionnels de la sécurité : la capacité d'attention d'un opérateur ne dépasserait pas deux heures pour huit écrans. Les caméras ont sans doute un effet dissuasif, mais n'ont pas fait chuter la délinquance (Le Monde du 29 octobre 2011).

Les logiciels de "détection des comportements anormaux" vont changer la donne, assurent les promoteurs de la vidéosurveillance intelligente (VSI). En 2006, l'Agence nationale de la recherche (ANR) finance un projet du laboratoire d'informatique de Lille (LIFL-CNRS) : CAnADA, acronyme de "comportements anormaux : analyse, détection, alerte"... Objectif : "Classer les comportements d'individus afin de les interpréter en termes de menace", et "établir une typologie des signaux visuels de dangerosité". Dès le départ, des chercheurs en droit et sciences politiques sont associés au projet, coordonné par l'Ecole des mines de Douai, pour en discuter les questions éthiques. Leurs réflexions ont bien été publiées, mais, sur le terrain, elles ne font plus l'objet de débat...

Pour l'instant, les comportements détectés se résument à quelques actions basiques - courir, marcher, lever les bras, tomber - qui font déjà le bonheur de certains services de sécurité. A la réunion intitulée "Mise en oeuvre d'une détection automatique d'anormalité", organisée en décembre 2011 par l'AN2V (Association nationale de la vidéoprotection), plusieurs sociétés présentaient des logiciels qui donnent automatiquement l'alarme si une personne chute dans une foule, si une autre déambule trop longtemps, si un petit groupe se met brusquement à courir, etc. Les villes de Cannes, Nice, et bientôt Lyon, installent des logiciels programmés pour détecter les colis suspects, les voitures en contresens, le maraudage, les attroupements. Différentes sociétés comme Keeneo (issue de l'Inria), Kaolab, Foxstream (issue du Liris) proposent de tels produits.

Certaines caméras ont une fonction "tracking", pour suivre un individu et se passer le relais entre elles sans le perdre de vue. Ce qui fonctionne assez bien dans des lieux fermés (sur un site industriel), beaucoup moins en milieu urbain : en cas de rixe par exemple, les protagonistes ont une fâcheuse tendance à fuir chacun dans une direction. Pas facile pour une caméra, si intelligente soit-elle, de choisir qui suivre... Le système sur lequel travaille la société Thales fonctionne d'ailleurs en mode "assisté". Imaginez un salon grand public, truffé de caméras : sur son écran, l'opérateur sélectionne l'individu suspect, affiche sa "signature visuelle" (image entière de l'individu), ce qui permet aux différentes caméras de le traquer. Les informations de suivi sont transmises sur une tablette numérique dont dispose un second opérateur qui se trouve, lui, dans les allées du salon et peut se rapprocher de l'individu pour l'appréhender.

Pour l'instant, ce sont les utilisateurs du système qui décident que dans telle situation (un parking) le comportement normal pour un individu consiste à aller directement à sa voiture, alors que dans telle autre (un magasin) il est normal de déambuler dans les allées mais anormal de rester planté plus de cinq minutes devant un rayon. Bien sûr, il n'est pas simple de tracer la frontière entre le normal et l'anormal.

Une étude menée par le sociologue Tanguy Le Goff (Institut d'aménagement et d'urbanisme d'Ile-de-France) sur des opérateurs de vidéosurveillance a montré que les jeunes sont moins "ciblés" (suivis sur écran) pour ce qu'ils font (souvent d'ailleurs ils ne font rien, ce qui est jugé suspect) que pour leur apparence vestimentaire et physique. Les caméras donneront-elles l'alerte en cas d'apparition d'une casquette sur une personne au visage basané et, circonstance aggravante, avachie sur un banc ?

Toujours dans l'optique d'assistance aux opérateurs, certaines sociétés (Orélia par exemple) proposent d'ajouter aux caméras des capteurs audio. Un bris de verre, des cris perçants, et la caméra zoome vers la scène supposée violente. Inconvénient : la portée ne dépasse pas les 20 à 50 mètres selon le bruit de fond ambiant. A moins de truffer les réverbères de micros, l'efficacité n'est pas garantie. La société Survision, elle, s'est spécialisée dans la lecture automatisée des plaques d'immatriculation. Intégré à une caméra placée sur un véhicule de police, le bloc optique infrarouge fonctionne aussi la nuit, et compare toute plaque d'immatriculation croisée dans son champ de vision au fichier des voitures volées. Il lit même les plaques d'un véhicule roulant en sens inverse à grande vitesse...

Dans les laboratoires de recherche, la compétition est intense. Christian Wolf, chercheur au Liris (Laboratoire d'informatique en images et systèmes d'information ; CNRS-INSA de Lyon), explique : "Nous avons lancé une compétition internationale, à laquelle sont inscrits 40 laboratoires de recherches. Objectif : reconnaître des comportements complexes impliquant plusieurs individus qui agissent en même temps sur une vidéo, ou une interaction humain-objet. Nous avons réalisé des vidéos types : une personne entre et sort d'une pièce, une autre passe un petit objet à son voisin, une troisième parle au téléphone puis laisse en partant un bagage à ses pieds, etc. Dans quelques mois, nous saurons quelles équipes identifient et nomment automatiquement les scènes-clés avec le plus de précision."

Autre défaut de la vidéosurveillance classique : en recherche de suspect a posteriori, elle mobilise des heures de l'attention d'un opérateur. "Même en défilement rapide, nos hommes regardent parfois des heures d'images pour rien !", souligne Fabrice Sierra, chef de la circonscription de sécurité publique d'Aubenas (Ardèche). Les images des 42 caméras de Vals-les-Bains et Aubenas peuvent désormais être traitées par un nouveau logiciel (Video Synopsis, société Briefcam) qui leur mâche le travail : il élimine les plages où il ne se passe rien et par ailleurs il condense et étiquette un maximum d'événements sur un temps très court (jusqu'à douze heures d'images condensées en quelques minutes).

Sur une même image sont ainsi superposées des actions qui ne se sont pas déroulées en même temps, dans lesquelles des piétons marchent donc les uns sur les autres ou des voitures roulent en même temps sur le même parcours. "Si vous souhaitez retrouver un break bleu par exemple, vous allez regarder la synthèse des images de voitures qui se sont garées sur tel rond-point, commente Fabrice Sierra. Vous sélectionnez votre break et replongez dans la vidéo originale... où vous retrouvez l'heure à laquelle il a stationné, éventuellement vous voyez le suspect en sortir, etc."

Laurent Mucchielli, sociologue au CNRS, spécialiste de la délinquance, doute totalement de l'efficacité de tous ces systèmes. "Ce qui m'inquiète le plus, ce ne sont pas ces techniques mais la façon dont les élus tombent dans le panneau. Il y a une croyance magique dans ces outils. Les centres de surveillance vont se heurter à une augmentation des alarmes (dont les fausses alarmes), et devoir augmenter encore le nombre de personnes derrière les écrans ! Cette offensive marketing va coûter très cher."

Les professionnels de la sécurité, eux, continuent de miser sur la technique. Après la détection du comportement suspect, ils comptent bien identifier le suspect lui-même. Problème : les techniques biométriques actuelles requièrent sa coopération. Il doit poser sa main si on veut reconnaître ses empreintes digitales, ou regarder fixement une caméra pour l'identification de son iris.

L'avenir appartient donc aux biométries que l'on peut collecter à la volée, comme la forme du visage. "Les systèmes basés sur les images 2D ont montré leurs faiblesses face aux variabilités causées par le changement de la pose, des conditions d'éclairages ou encore des expressions faciales, explique Mohsen Ardabilian, maître de conférences à l'Ecole centrale de Lyon-Liris. Les caméras 3D, en revanche, permettent de reconnaître un visage même quand il n'est pas de face et s'il est illuminé différemment. Une de nos techniques consiste à repérer sur le visage des points d'intérêt ayant une information de courbure ou de texture discriminante ainsi que leur position. Ce qui nous donne des taux de reconnaissance proches de 98 %." Mais ces données s'entendent sur une base test de quelques centaines de visages, non représentatifs de la population.

Bernard Didier, directeur général adjoint de Morpho (groupe Safran), leader mondial dans les systèmes d'identification, confirme : "En mode participatif (la personne est volontaire pour être contrôlée), nos systèmes de reconnaissance, utilisés dans les aéroports en Australie et en Nouvelle-Zélande, sont efficaces à 98 %. En non participatif, et en environnement ouvert, nous n'atteignons pas cette performance."

Principales difficultés à résoudre : le positionnement du visage et l'éclairage. "Dans les tests effectués par le NIST (National Institute of Technology), on constate qu'une différence d'angle d'une dizaine de degrés par rapport à une photo témoin suffit à diminuer la performance de reconnaissance. Pour la reconnaissance à la volée, nous devons donc utiliser plusieurs caméras pilotées de manière coordonnée, qui repositionnent de façon dynamique le visage de la personne suivie et la reconnaissent sans qu'il soit besoin d'interrompre sa marche", précise M. Didier

Tout cela n'est donc pas au point, mais de nombreuses sociétés, petites (Facing it) ou plus importantes (Cognitec), mettent déjà sur le marché des produits. L'aéroport de Francfort teste EasyPass, système de contrôle aux frontières faisant appel à un logiciel de reconnaissance des visages à la volée. Et aux Etats-Unis, la société Sarnof commercialise Iris on the Move, capable de "traiter" les iris de 30 personnes par minute, si elles marchent tranquillement devant une borne d'identification.

"Le défi réside dans l'exécution de ces tâches dans le contexte de la vidéosurveillance, plus difficile que lors des contrôles biométriques, et là, les systèmes "classiques" vont avoir de la peine", estime Rudy Guyonneau, docteur de neurosciences à Spikenet Technology. Issue du Laboratoire cerveau et cognition (CNRS-université Toulouse-III), cette start-up mise sur les réseaux de neurones. "Notre originalité, et nous verrons si elle paye, est de nous inspirer des dernières avancées en neurosciences computationnelles, sur le traitement de l'information à base de décharges (spikes) de neurones, pour proposer des systèmes logiciels rapides, simples, et capables de s'adapter, même dans ces contextes-là."

Avec le programme FAST ("technologie de surveillance des attributs futurs"), les Américains souhaitent repérer à leur insu les individus ayant l'intention de commettre un délit, en développant des capteurs mesurant, à distance, le rythme cardiaque des personnes passant aux points de contrôle, les contractions des pupilles, la température du visage, les expressions faciales... Un scénario à la Minority Report, ce film de Steven Spielberg où trois mutants doués d'un don de prescience préviennent le gouvernement qu'un crime va être commis, ce qui mène à l'arrestation des meurtriers potentiels... alors qu'ils n'ont encore rien fait. Sommes-nous si loin d'un tel scénario ?

La prochaine caméra Kinect 2, de la console de jeu XBox 360 de Microsoft, pourrait détecter les expressions du visage, mesurer notre degré de satisfaction ou d'agacement. Une fonction transposable pour des applications de vidéosurveillance ? De nombreux laboratoires y travaillent. "Mais la technologie est neutre, c'est l'usage qu'on en fait qui doit être arbitré par la société", estime Bernard Didier.

Pour l'instant, la réglementation interdit totalement l'identification à la volée, et encore plus la reconnaissance des émotions. Jusqu'à ce qu'un bon argument marketing convainque nos élus qu'un individu à l'air stressé dans un parking constitue une sérieuse menace pour la sécurité...

Marina Julienne

José Luiz Quadros de Magalhães

Páginas

domingo, 11 de março de 2012

1130- Vidéosurveillance: trop de caméras, pas assez d'yeux? - Marina Julienne

Vidéosurveillance : trop de caméras, pas assez d'yeux ?

Nenhum comentário:

Postar um comentário