Data on Cloudinthealps

La data, une amie qui vous veut du bien

Wed, 29 Jan 2020 00:00:00 +0000

L’heure est à l’inquiétude face à la reconnaissance faciale. La Chine nous inquiète par ses pratiques de contrôle permanent, l’Europe et la France suggèrent de l’interdire pour quelques années, le temps de bien poser la réflexion et les enjeux, et pourtant les applications se multiplient. Forcément, l’idée de ne plus pouvoir être anonyme, d’être tracké dans la moindre de nos actions peut inquiéter. Sans être un dissident, je n’ai pas forcément envie qu’un gouvernement, ou une entreprise transnationale, puisse tout savoir de moi. Sauf que, il est déjà trop tard. Pas pour la reconnaissance faciale, mais une technologie bien plus simple et déjà très établie vous tracke en permanence : votre smartphone. Le pire, c’est qu’il le fait à votre demande, ou en tout cas avec votre accord. Nous avons pour la plupart activé le GPS de notre téléphone, et accepté que notre position soit partagée avec certaines applications. Mais savez-vous lesquelles à un moment précis ? Et savez-vous ce que les entreprises qui collectent ces données en font ? Et savez-vous ce que ces données indiquent ? Petit tour d’horizon d’un monde digne de 1984. Commençons simplement : vous avez sûrement installé Google Maps, et accepté de partager votre position avec cette application. Cela semble une évidence pour son utilisation correcte. Avez-vous déjà vérifié ce que l’application enregistre à propos de vous sur le Cloud de Google ? Rendez-vous, via leur site web, sur votre historique de cartographie. Vous pourrez ainsi constater que la firme californienne possède parfois un historique de vos déplacements remontant à plusieurs années. A priori, Google est une société en qui nous devrions pouvoir avoir confiance, et qui ne devrait pas partager ces données avec n’importe qui. Ces données ne servent en principe qu’à vous aider lors de vos recherches ou de vos déplacements, et à « améliorer » les services Google. Qu’est-ce qui se cache derrière ce terme, Améliorer ? Bonne question. Pour le moment, il s’agit surtout de mieux cibler les publicités qui vous sont présentées. Seulement rappelez-vous Cambdrige Analytica. Pour résumer, cette société a acheté des jeux de données similaires à Facebook, et les a utilisés pour définir des profils d’électeurs. En fonction de leur lieu de vie, de leurs relations, des groupes qu’ils suivent etc, Cambridge a ensuite défini avec son client (un certain M. Donald T.) quelles étaient les meilleures communications à envoyer pour inciter ces personnes à voter pour eux, ou bien à ne pas aller voter du tout. Si l’on en croit les résultats de cette élection, ou bien ceux du référendum du Brexit en 2016, il semble que la méthode soit efficace. Seulement, vous allez me dire : pas de ça chez moi, je suis attentif et éclairé et je garde mon objectivité. Alors rendons-nous à l’étape numéro deux. Avez-vous déjà vérifié quelles applications ont accès à votre position sur votre smartphone ? Il est si vite fait d’accepter des conditions lorsque l’on veut utiliser sa nouvelle application. Je vous invite à le faire. En fonction de votre téléphone, le menu est différent mais vous devriez rapidement trouver une liste des applications qui possèdent cette autorisation. Vérifiez dans la liste si chacune des applications est bien légitime à collecter votre position, et sous quelles conditions. Cela peut sembler un peu extrémiste, surtout dans notre métier de s’inquiéter de cela. Je ne peux que vous conseiller la lecture d’un excellent dossier du NY Times dédié à cette problématique : https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html Comme nous ne sommes pas reporter, je vous propose de rester dans le domaine de la théorie. Vous avez installé des applications, dont certaines vous réclament l’accès à votre position, d’une manière qui semble légitime. Vous êtes vous demandé ce que les entreprises qui publient ces applications font de ces données ? La loi n’est d’aucune aide, pour le moment, car vous avez accepté le partage et la société a sûrement écrit de belles conditions d’utilisation. Conditions que vous n’avez pas lu, comme tout le monde. Et quand bien même, le texte doit contenir une vague référence à un usage sécurisé et raisonnable de vos données, pour l’amélioration de vos services. Bon, inutile de pleurer sur le lait renversé, ce qui est fait est fait. Vous vous dites sûrement : mais qui peut bien s’intéresser à mon parcours quotidien, et se passionner pour ma visite hebdomadaire au club de gym ? Soit dit en passant, il est étonnant que chaque visite au club de gym ne dure que 30 minutes, alors que vous aviez dit à votre cher.e et tendre que vous feriez une heure de sport par semaine. D’autant plus que chaque visite à la salle est suivie d’un arrêt à la boulangerie. Mais cela ne nous regarde pas. Prenons le problème dans l’autre sens : si je suis quelqu’un de mal intentionné, je peux acquérir des fichiers contenant les données de positionnement de milliers de personnes, moyennant quelques centaines ou milliers de dollars. Il existe quelques dizaines de sociétés qui vendent ces données de manière tout à fait légale. Etonnamment, ce sont elles qui fournissent des services d’applications gratuites, ou des kits de développement permettant aux auteurs d’application de mieux monétiser leurs propres services. Rappelez-vous : si le produit est gratuit, c’est que vous êtes le produit. Nous pouvons rester rassurés malgré tout, ces données sont dites anonymisées. C’est-à-dire que le collecteur en a retiré votre email, votre nom… pour ne laisser qu’un identifiant unique mais anonyme. Personne n’a de moyen de savoir que

De l'usage des datas et de l'IA

Wed, 03 Jul 2019 00:00:00 +0000

Le buzz autour de l’IA semble se cristalliser autour de deux principaux sujets : les possibilités offertes par la technologie, et les risques liés à son utilisation. La question des risques est un sujet de choix pour les détracteurs et les récalcitrants. Nombre d’articles et de livres listent les problèmes posés par l’IA et souhaiteraient nous voir jeter le bébé avec l’eau du bain, et la baignoire au passage. Ce qui me trouble beaucoup dans cette démarche, en dehors du danger que l’on fait courir aux bébés qui prennent leur bain, c’est que l’IA focalise l’attention, alors que le problème est humain avant tout. L’IA ne fait rien de nouveau ou de plus que d’autres systèmes précédents. Et même le terme IA est galvaudé, particulièrement dans ces cas-là. Prenons quelques exemples. Le plus ancien me concerne directement. Il y a une dizaine d’années, j’ai déménagé au Royaume-Uni, et j’ai voulu ouvrir un compte en banque. Nous avons choisi une banque connue et répandue. Nous avons passé quelques heures à remplir des formulaires, puis avons attendu de recevoir nos moyens de paiement. Le jour où nous les avons enfin obtenus, nous avons aussi eu un lettre nous indiquant que notre compte allait être fermé car nous n’étions pas conformes à la politique de la banque. Aucune autre information n’était donnée. Ayant noté une erreur dans le nom auquel le courrier était adressé, j’ai voulu rentrer en contact avec la banque, pour savoir quelle était la raison réelle de ce refus et vérifier s’ils n’avaient pas suivi le dossier de quelqu’un d’autre (le credit score existant dans ce pays, j’aurais pu être confondu avec une personne ayant un mauvais score). Après de multiples emails et coups de téléphone, la seule réponse que j’ai obtenu a été “le système Phoenix nous indique que nous ne pouvons pas vous octroyer un compte”. Impossible d’en savoir plus. Ce qui m’a dérangé, en bon français habitué à la CNIL, a été de me voir opposer un mur anonyme, sans avoir aucun moyen d’accéder aux données me concernant. La banque pouvait me refuser un service, sans aucune justification ni explication. Aucune IA à cette époque, quelques recherches m’ont montré que je n’étais pas le seul à avoir des problèmes avec Phoenix, et que celui-ci était un simple système de vérification qui pouvait se déclencher pour des raisons obscures. Et bien sûr impossible de faire corriger mon dossier d’application pour que le contrôle effectué corresponde bien à ma propre situation (il reste très probable que l’erreur de nom dans le courrier de refus prouve que les données de contrôle ne me concernaient pas). Pour l’épilogue, nous sommes allés dans une autre banque, avec le même dossier. Nous avons expliqué la situation, et après quelques échanges avons obtenu notre compte. Je peux utiliser d’autres exemples, comme les systèmes de logement aux US qui se basent sur des données plus ou moins publiques pour déterminer si vous êtes aptes à recevoir un logement. Je ne parle pas de système de logements sociaux, mais de sociétés privées qui fournissent des service de background check pour les bailleurs privés. L’expérience malheureuse de quelques-uns a montré que, comme dans le cas de Phoenix, il est impossible d’accéder à nos propres données, de savoir quel critère nous a rendu indésirable et encore moins de pouvoir corriger les données si jamais il y a une erreur. Ou bien pensez au système de social scoring chinois. Si vous trouvez le credit score anglo-saxon désagréable, je n’ose imaginer les dérives possibles du social scoring. Accessoirement cela peut créer des cercles vicieux, rappelez-vous l’épisode Nosedive de Black Mirror. Tant que vous êtes un blanc mouton, gentil et hypocrite, tout va bien. Au moment où un grain de sable vous fait dérailler, tout aprt de travers. Votre score se dégradant, vous vous trouvez dans des situations plus compliquées (difficultés à obtenir un prêt, un travail, un billet d’avion etc…) et le risque que votre score se dégrade augmente. Bon il s’agissait de fiction, mais finalement très proche de la réalité. Revenons au credit score américain : si votre score est mauvais, vous aurez du mal à obtenir un prêt de bonne qualité. Mais vous finirez par en obtenir un à de très mauvaises conditions, ce qui signifie souvent qu’il vous coûtera cher et que vous augmenterez le risque de défaut de paiement, même temporaire. Ce qui va dégrader votre credit score, etc. etc etc. Mais tout ceci n’est pas lié à de l’IA. Certes, parfois ce sont des algorithmes obscurs qui ne rendent pas d’explication sur leur décision. Et ce ci doit être combattu et corrigé. Mais la plupart du temps la sélection se fait sur des critères cachés mais très simples. La discrimination existe, avec ou sans IA. Ce à quoi il faut être attentif reste l’accès aux données et l’explicabilité des modèles. Pour la première, nous avons en Europe le règlement RGPD qui oblige à cette transparence (et à la protection de nos données). C’est un pas dans la bonne direction, au moins dans notre juridiction. Pour l’explicabilité des modèles, il n’existe pas encore de règle, à ma connaissance, mais cela devrait être obligatoire pour tout ce qui touche aux besoins primaires, à minima.

Sharding your data, and protecting it

Wed, 17 May 2017 00:00:00 +0000

I am quite certain that there are many articles, posts and even books already written on that subject. To be honest, I did not search for any of those. For some reason, I had to figure out sharding almost by myself building a customer design. So this post will just be my way of walking through the process, and confirm that I can explain it again. If someone finds this useful, I will be happy :) Here is the information I started with. We want to build an application that uses a database. In our case, we chose DocumentDB, but the technology itself is irrelevant. The pain point was that we wanted to be able to expand the application worldwide, but also to keep a single data set for all the users, wherever they were living, connecting from. That meant finding a way of having a local copy of the data, writable, in every location we needed. Having a readable replica of a database is quite standard. You may even be able to get multiple replicas of this kind. Having a writable replica is not very standard, and certainly not a simple operation to setup. Having multiple writable replicas… let’s say that even with reading the official guide from Microsoft (https://docs.microsoft.com/fr-fr/azure/cosmos-db/multi-region-writers) it took us a while to fully understand. As I said, we chose to use DocumentDB, which already provides the creation a readable replica with a few clicks. This is not enough, as we need to have a locally writable database. But we also need to be able to read data that is written from the other locations. What we can start with is to create a multiple ways replica set. We could have a writable database in our three locations, with a readable copy in each of the other two regions : Dessin