#Qualité de vie

Smart city et big data

15 Nov 2017

Alors que les villes intelligentes se connectent et captent de plus en plus de données, l’affirmation d’une politique de transparence publique apparaît comme une équation complexe à résoudre. Car même anonyme, le contenu d’une base de données peut être recoupé et exploité. Comment concilier la publication des données publiques et la protection de la vie privée ?

Le Marina City Park à Singapour / Crédit : DavidWebb / Shutterstock.com

La smart city en data

Les initiatives de smart city ont le vent en poupe. De Singapour, à Barcelone en passant par le nouveau quartier Confluences à Lyon, la volonté de mettre en réseau les infrastructures urbaines pour en optimiser le fonctionnement est un rêve futuriste qui devient lentement une réalité. Cette tendance actuelle vers plus d’interfaces connectées décuple implacablement la quantité de données captées et la question de leur utilisation fait débat. Faut-il revendre ces données ? Les rendre publiques ? Les garder secrètes ? Dans le domaine de la santé par exemple, l’utilisation du big data aurait des bénéfices indéniables : meilleure compréhension des facteurs (environnementaux, nutritionnels…) agissant sur l’état de santé, meilleurs diagnostics, ou optimisation des parcours de soin. Mais il semble tout aussi évident que les données et statistiques médicales détiennent des informations sensibles, qui relèvent de la vie privée. Dès lors, le compromis entre transparence et vie privée semble passer par l’anonymisation des données.

Mais voyons déjà quelles sont les données. Le rapport de la mission Cytermann menée en 2015 cherche à mettre en place un cadre législatif permettant d’ouvrir l’accès aux informations détenues par des acteurs du privé. Le rapport distingue les données produites et détenues par les services publics (recensement, statistiques de pollution, police, hôpitaux…), celles produites par des agents public ou privé dans le cadre de mission d’intérêt général (type SNCF, gestion de l’eau…), et les autres données dont les acteurs privés sont propriétaires exclusifs (Uber, Google…).

Données d’intérêt général

Data center Equinix en France – Crédit Le Parisien

Le rapport reconnaît la démarche de transparence mise en place par les services publics de la première catégorie tout en regrettant l’absence d’évaluation de l’activité économique générée par cette transparence. Pour les organismes relevant de la deuxième catégorie, le rapport préconise d’imposer la publication des données essentielles. Il propose également l’instauration d’une clause open data pour prévoir l’exploitation de ces données. Enfin les données de la troisième catégorie, le rapport reconnaît qu’il serait difficile d’en imposer la publication gratuite sans aller à l’encontre du droit de propriété.

Dans la lignée du rapport Cytermann, la loi pour la république numérique publiée en 2016 adresse ces problématiques en affirmant haut et fort le principe de transparence des données publiques. En effet, elle instaure un régime d’ouverture par défaut des données publiques et d’intérêt général. La logique de demande d’accès des bases de données se transforme en une logique d’offre par défaut, ce qui ouvre très largement le champ d’accès aux administrés et citoyens. Au lieu de transmettre les données à toute personne qui les demandait, l’administration les publiera a priori, sans attendre de demande spécifique. Une seule réserve : la base de donnée doit être anonymisée, ne pas porter atteinte à la propriété intellectuelle et au secret industriel et commercial.

Vie privée malmenée

Le revers de la médaille de cette transparence est la question de la vie privée : rendre publiques des informations par défaut, c’est exposer leur contenu sans vérification. En 2014, la commission de régulation des taxis new yorkais publiait les données de l’intégralité des trajets enregistrés sur l’année précédente. En principe anonymisée, la base de données a tout de même permis à un journaliste d’identifier les trajets réalisés par des célébrités. La base de données avait été publiée dans le cadre de la transparence des données publiques suite à la demande d’un chercheur.

Des taxis à New York Crédit Shutterstock

Pour se prémunir contre ce type d’accident, la ville de Seattle a décidé en 2016 de modifier légèrement sa politique de transparence des données publiques : d’une publication « par défaut », elle est passé à une publication « par préférence ». Au lieu de publier des bases de données par défaut, la municipalité veille à les traiter en amont, de manière à les anonymiser rigoureusement. Mais comme l’indique l’affaire des taxis new yorkais, masquer les informations sensibles ne suffit pas à rendre une base de donnée inoffensive. De la même manière, il ne suffit pas de supprimer les noms et prénoms d’une liste d’électeurs pour la rendre anonyme. Le croisement d’informations simples sur plusieurs bases de données peut parfaitement permettre d’identifier des individus, et donc de porter atteinte à leur vie privée.

« K-anonymes », ou la méthodologie d’anonymisation

Latanya Sweeney – Crédit : Rose Lincoln/Harvard Staff Photographer

C’est ce qu’explique l’experte américaine Latanya Sweeney qui constatait en 1998 que 87% de la population américaine pouvait être identifiée via les trois « identifiants indirects » que sont le genre, la date de naissance et le code postal. La chercheuse donc met au point le concept de k-anonymité – où k est le nombre d’individus partageant plusieurs informations au sein d’une base de donnée – permettant de s‘assurer qu’aucun individu ne possède un jeu d’informations unique. Considérée comme un levier de sécurité fiable pour les propriétaires de data, cette méthode est appliquée par la ville de Seattle. En instaurant ce principe de précaution, la municipalité souhaite prendre les devants et déplacer le cœur du débat vers une méthodologie d’anonymisation fiable.

Depuis 2001, la France regroupe ses données sur le site data.gouv.fr, dans cette démarche de transparence. L’ONU l’a d’ailleurs classée en juillet 2014, 4ème pays au monde en matière d’administration numérique (et 1er européen). Pour autant, la libéralisation des données numériques des collectivités territoriales n’en est encore qu’à ses balbutiements en France : de nombreuses administrations n’ont pas encore embrayé le pas, faute de ressources et la jurisprudence concernant la publication de ces données est encore très jeune. Grâce au laboratoire des innovations numériques (LINC) créé en 2016, la CNIL (Commission nationale de l’informatique et des libertés) entend mener un travail d’expérimentation, d’éclairage et de réflexion prospective sur ses propres missions. Un travail nécessaire pour déterminer le vrai visage de la smart city.