Suite

Comment CartoDB fait-il le géocodage international ?


Je travaille sur des projets à l'étranger, donc je voulais voir comment il fait le géocodage international - peut-il ou utilise-t-il des adresses, des noms de villes, des noms de quartiers, ou quoi ? Et quels domaines cela couvre-t-il ?


Nous avons deux options pour le géocodeur. Vous pouvez cartographier des adresses à l'aide du géocodeur de haute précision (option "Par adresses") ou vous pouvez utiliser les autres si vous souhaitez cartographier des données "communes", telles que des pays, des comtés, des États, des noms de ville ou d'autres régions administratives. Nous couvrons également des zones pour les codes postaux au Canada, USA, France, Australie, Espagne…

Nous travaillons tous les jours pour améliorer le géocodeur interne en ajoutant de nouveaux noms de villes, de nouvelles régions administratives. Outre le géocodeur, nous avons une section de données communes où nous ajoutons des ensembles de données utiles (comme les districts du Congrès aux États-Unis) qui peuvent vous intéresser. Vous pouvez consulter cette section en cliquant sur le lien Common Data dans le coin supérieur droit de votre tableau de bord.

J'espère que cela t'aides. Si vous avez besoin d'informations de couverture spécifiques sur un pays, faites-le nous savoir et nous vous donnerons plus de détails sur le statut du géocodeur concernant ce pays.


Unité 46 : Correspondance d'adresses

La correspondance d'adresses permet à l'utilisateur de convertir des adresses postales et/ou des codes postaux en coordonnées géographiques, de créer une nouvelle couche de données contenant ces points et d'afficher les informations sur une carte. Trois éléments sont nécessaires pour compléter le processus d'appariement des adresses : un fichier de base géographique (GBF), un tableau contenant des informations sur les adresses et un progiciel informatique qui effectue la conversion. La fonctionnalité de géocodage des adresses est disponible dans la plupart des progiciels de système d'information géographique (SIG). La nouvelle couche de données ponctuelles résultante peut ensuite être utilisée pour analyser des modèles spatiaux.

Les exemples suivants sont des problèmes typiques où le géocodage d'adresse peut être appliqué. Souvent, il suffit de visualiser les informations sur une carte pour répondre aux questions. Cependant, le processus de géocodage est fréquemment une étape préliminaire utilisée dans la préparation des informations pour une analyse spatiale ultérieure.

Vous maintenez plusieurs bases de données, y compris des informations sur les entreprises participantes, les individus, les médecins et les hôpitaux locaux et les installations de diagnostic. Il est difficile de visualiser où vivent les patients, où se trouvent les médecins et les établissements en triant et en étudiant ces bases de données. Heureusement, toutes les bases de données incluent un champ contenant des informations d'adresse.


La liste suivante décrit les compétences attendues que les étudiants doivent maîtriser pour chaque niveau de formation, c'est-à-dire Conscience/Compétence/Maîtrise.

Conscience:

Les objectifs d'apprentissage sont d'identifier les sources et de développer une connaissance pratique des trois éléments nécessaires à la réalisation du processus de géocodage : le fichier de base géographique, le fichier d'adresses et le logiciel. (Durée suggérée : une unité de 50 minutes)

Les objectifs d'apprentissage sont de définir et d'évaluer les fichiers de base appropriés, de comprendre l'importance des fichiers d'adresses standardisés, d'intégrer les fichiers nécessaires dans un progiciel, d'effectuer le processus de géocodage et de visualiser les résultats. (Durée suggérée : une unité de 50 minutes et un laboratoire de 50 minutes)

Les objectifs d'apprentissage sont d'évaluer efficacement l'exactitude des fichiers de base et des fichiers d'adresses, de normaliser les fichiers d'adresses, d'évaluer les non-correspondances, de comprendre le processus de réappariement et d'effectuer une analyse de reclassement de base à l'aide des informations d'attribut fournies dans le fichier d'adresses. (Durée suggérée : une unité de 50 minutes)


Unités préparatoires :

Unité 19 Planification d'une base de données tabulaire

Contexte hautement recommandé pour l'instructeur

Unité 016 NCGIA Core Curriculum in GIScience : Géoréférencement discret

  • Identifier les sources des fichiers de base géographique (référence).
  • Identifier les sources des fichiers d'adresses.
  • Déterminer les applications de géocodage d'adresses.
  • Évaluer le logiciel de cartographie de bureau.
  • Comprendre les composants du géocodage des adresses.
  • Sources gouvernementales
    • Disponible sur CD, dans les bibliothèques, en ligne (Census Tiger Files)
    • Doit être converti au format logiciel approprié
    • Fichiers de ligne organisés par comté et contenant :
        Routes, chemins de fer, rivières
        Limites statistiques du recensement
        Frontières politiques
        Plages d'adresses métropolitaines et codes postaux pour les rues
      • Administration locale : organismes de cartographie du comté
        • Normalement disponible uniquement dans le format pris en charge par le comté
        • Nécessite une conversion au format logiciel approprié
        • Peut être acheté auprès d'une variété de fournisseurs
        • Fichiers TIGER améliorés
        • Peut être plus précis et à jour (emplacement et attribut)
        • Converti au format logiciel spécifique
        • Toute base de données organisationnelle qui contient un champ avec des informations d'adresse
        • Peut être acheté des fichiers d'adresses, généralement collectés via des entrées de pages jaunes
        • Disponible en ligne, sur CD-ROM (Unité 016 NCGIA Core Curriculum in GeoScience, section 5.1.1)
        • Identification de l'emplacement
            c'est-à-dire clients, concurrents, permis, crimes, incendies, biens immobiliers disponibles
          • c'est-à-dire les centres de distribution existants, les fournisseurs de soins de santé, les installations de service
            ex., incendies près des écoles, clients potentiels non desservis par un magasin
            c'est-à-dire courrier, envoi de masse, biens, services
            c'est-à-dire l'emplacement des concurrents
          • La plupart des packages de bureau ont des capacités de correspondance d'adresses
          • Certains packages sont livrés avec des fichiers de base géographique
          • Le logiciel doit intégrer la capacité de :
            • Soyez tolérant aux erreurs dans les fichiers d'adresses
            • Permettre l'examen et l'examen des correspondances "presque"
            • Prévoir de changer le
            • Fonctionne à la fois en mode batch séquentiel et en mode événement unique
            • Fichiers de référence (Fichiers de base géographique (GBF))
            • Tableau des adresses et autres informations sur les attributs
            • Logiciel
            • Évaluer les fichiers de référence appropriés.
            • Évaluez l'exhaustivité et la standardisation des fichiers d'adresses.
            • Effectuer des opérations de correspondance d'adresses.
            • Effectuez une analyse visuelle des couches de données ponctuelles résultantes.
            • Exercice pratique : géocodage.
            • Détail et exactitude du fichier d'adresses
            • Gamme de détails dans les fichiers de référence
              c'est-à-dire numéro de maison, rang le long d'une rue, aucune information sur ce qui se trouve à gauche ou à droite de la rue
            • c'est-à-dire maison, rang le long d'une rue, informations sur ce qui se trouve à gauche ou à droite de la rue
            • Déterminer l'étendue géographique de l'application
              Demandez : L'application prend-elle en charge une résolution accrue du fichier de référence ?
              (c'est-à-dire que les routes rurales ne doivent pas utiliser d'adresses de type rue)
            • Une mise en œuvre réussie nécessite
            • Les adresses fournissent des informations sur le lieu d'un événement ou d'un incident
            • Généralement collecté sans tenir compte du format standard : pas de méthode standard pour identifier les caractéristiques
            • Les fichiers peuvent être commercialement standardisés en utilisant le format U.S. Postal Service
            • Plus le fichier d'adresses est complet et standardisé, plus le processus d'appariement d'adresses est réussi
            • Préparer les données
              • Identifier les fichiers de base et d'adresse
              • Définir le style d'adresse
              • Définir des stratégies de correspondance pour les fichiers de référence et d'adresses

              Quels champs seront mis en correspondance ?

                • Standardiser les fichiers de base et d'adresses
                • Préparez le fichier de base : séparez les données dans des champs individuels et normalisez les abréviations (cela est généralement fait par le fournisseur de données)
                • Indice
                  • Préparez le tableau d'adresses en séparant les données en champs individuels et en les triant (ceci est fait par le logiciel)
                  • Configurez le processus de correspondance en identifiant comment le fichier d'adresses sera lié au fichier de référence de base en définissant les méthodes de comparaison (ceci est fait par le logiciel en fonction des paramètres que vous avez définis)
                    • Compare le fichier d'adresses au fichier de référence de base champ par champ
                    • Compare l'adresse caractère par caractère
                    • Spécifier les probabilités pour calculer le score de correspondance
                    • Faire le match
                      • Le logiciel évalue la proximité d'une correspondance
                      • Interpole le long du réseau routier pour déterminer l'emplacement de l'adresse
                      • Créer la nouvelle couche de données géographiques contenant un point pour chaque adresse trouvée
                      • Afficher la couche de données de points géographiques résultante
                      • Relier les nouvelles informations à d'autres informations

                      Vous travaillez pour l'Office of Economic Development à San Antonio, au Texas, et effectuez une étude de marché pour déterminer combien d'usines de fabrication d'avions se trouvent à San Antonio et où elles se trouvent. Vous souhaitez utiliser le géocodage des adresses pour créer une carte des installations. Les trois étapes que vous suivrez sont : 1) préparer les données
                      2) faire correspondre les adresses et,
                      3) afficher les résultats. Préparez les données : Vous obtenez les adresses des usines de fabrication par le biais des pages jaunes électroniques ( http://www.bigbook.com est l'un des nombreux endroits à consulter.) Vous créez une base de données contenant ces informations et obtenez un fichier de référence de base géographique d'un fournisseur de données local. Votre troisième élément d'information est l'emplacement des aérodromes dans la région de San Antonio. Vous ouvrez votre logiciel de bureau SIG et ajoutez votre base de données (les avionneurs) ainsi que les deux couches de données géographiques (aéroports et rues). (Exemple de ce à quoi cette vue peut ressembler.)

                      Vous êtes maintenant prêt à indexer le fichier de base géographique afin que le logiciel puisse comparer les informations de la table d'adresses des constructeurs d'avions à votre fichier de base géographique (rues). Prenons le cas de Zee Systems, Inc., qui a un bureau au 406 West Rhapsody Drive. Le logiciel prendra l'adresse de la base de données. Il recherchera ensuite tous les segments de rue Rhapsody Drive dans le fichier de base géographique (voir exemple) . En utilisant les règles de correspondance que vous avez configurées, il exclura toutes les rues qui se trouvent sur East Rhapsody, identifiera le segment allant de 306 à 598 West Rhapsody et interpolera que le bureau se trouve à environ 2/3 de la rue du côté droit. (voir exemple) Une fois la correspondance identifiée, un nouvel enregistrement est ajouté à votre couche de données ponctuelles des installations de fabrication d'avions et les résultats sont affichés sur votre carte.

                      Pour que le logiciel effectue cette comparaison entre une couche de données géographiques et une table d'adresses, vous devez effectuer plusieurs étapes. La première étape consiste à déterminer le type de fichier de base dont vous disposez. Dans cet exemple, vous utilisez un fichier au format US Streets. Lorsque vous utilisez le format de rue américain, votre base de données doit contenir des champs contenant l'adresse de gauche, l'adresse de gauche vers, l'adresse de droite de, l'adresse de droite de et le nom de la rue. Les champs facultatifs peuvent contenir le type de rue, le préfixe ou le suffixe et la direction. (voir exemple). Notez que les champs nécessaires sont disponibles. Cette base de données est compliquée en ayant deux champs de direction (préfixe et suffixe). Vous pouvez spécifier les deux lors de la configuration des paramètres d'index. Dans ArcView, vous devez définir les préférences de thème pour reconnaître que la couche de données contient des informations sur la rue US. Une fois que vous avez défini les préférences, le logiciel vous demande de créer l'index. Le processus d'indexation permet au logiciel de faire la comparaison entre la couche de base géographique et le fichier d'adresses.

                      Faites correspondre les adresses : Vous êtes maintenant prêt à géocoder votre table de fabricants. Vous mettez en place le lien entre le fichier de base géographique et le champ d'adresse dans la table des fabricants. Dans ArcView, vous choisirez Afficher, Géocoder les adresses (voir exemple) et configurer la relation (voir exemple) . Votre thème de référence est le fichier de base géographique (rues). Vous avez déjà défini le type de fichier de base que vous utilisez sur US Streets. Aircraft Manufacturer est la table d'adresses que vous devez indiquer au logiciel que vous utiliserez Adresse comme champ d'adresse. Vous devez également créer un nouveau fichier qui contiendra le point où se trouve chaque fabricant. Lorsque vous choisissez de faire correspondre les deux bases de données, le logiciel prend le premier enregistrement de la table d'adresses et essaie de trouver la rue appropriée (voir exemple ). Il parcourt chaque enregistrement et identifie les enregistrements qui correspondent et ceux qui ne le sont pas (voir l'exemple ). Notez que 73 % des enregistrements d'adresses ont été appariés. Dans cet exemple, ne vous inquiétez pas des non-correspondances.

                      Afficher les résultats : Le logiciel crée maintenant la nouvelle couche de données ponctuelles contenant les entreprises aéronautiques (voir les résultats) . Vous pouvez voir que les installations de fabrication sont regroupées autour de l'aéroport international de San Antonio et de la base aérienne de Kelly.

                      La maîtrise

                      • Déterminez les problèmes potentiels avec les fichiers d'adresses et de référence.
                      • Terminez le processus de jumelage, y compris
                        • Évaluation des enregistrements non appariés
                        • Modification d'un fichier de référence
                        • Standardiser une table d'adresses
                        • Exercice pratique : créer une carte à l'aide d'informations attributaires.
                        • Problèmes généraux
                          • Le géocodage est basé sur des hypothèses
                          • les adresses sont dans une plage et équidistantes le long de la plage
                          • les nombres impairs sont d'un côté de la rue et pairs de l'autre
                          • les lieux ont des adresses
                          • Fichier de base
                            • Pas à jour : c'est-à-dire, les rues ne figurent pas dans le fichier
                            • Emplacements inexacts
                            • Rues incorrectes ou non identifiées
                            • Plages d'adresses incorrectes ou non identifiées
                            • Attribution incohérente, c'est-à-dire que I10 est également McArthur Freeway
                            • Incomplet
                            • Inexacte
                            • Non standardisé
                            • Sensibilité à l'orthographe trop élevée ou trop faible
                            • Le score à considérer est trop élevé ou trop bas
                            • Évaluer les non-appariés pour déterminer le problème
                            • fichier GBF
                              • Augmenter la zone géographique couverte
                              • Ajouter de nouveaux développements
                              • Standardiser
                              • Ajuster la recherche d'index (règles de blocage)
                              • Ajuster les poids de correspondance (à quel point une correspondance est-elle nécessaire)
                              • Ajuster le score minimum pour être considéré comme un match
                                Dans l'exemple précédent, 73 % du fichier d'adresses correspondait à un emplacement géographique dans le GBF. Sur la base des paramètres initiaux, il y avait une correspondance partielle et trois adresses qui ne correspondaient pas. Le processus de rematch vous permet d'évaluer pourquoi l'enregistrement ne correspond pas, de résoudre les problèmes et de trouver d'autres correspondances. Les enregistrements non appariés sont causés par :
                                  enregistrements de fichiers d'adresses incorrects ou incomplets,
                                  des erreurs ou des omissions dans le fichier de base géographique, ou
                                  en définissant les préférences de manière incorrecte pour les données mises en correspondance.

                                Regardons les records inégalés. (voir exemple) Le dossier Alcor Aviation est un exemple d'adresse incomplète. Colwick Street n'a pas de numéro de rue. Une fois qu'un numéro de rue est entré dans la base de données, vous pouvez réapparier l'enregistrement et trouver une correspondance. Alternativement, vous pouvez localiser Colwick de manière interactive, voir qu'il s'agit d'une petite rue près de l'aéroport et interpoler l'emplacement du point. (voir exemple)

                                Erreurs ou omissions dans le fichier de base géographique : Les deux autres enregistrements non appariés semblent avoir des adresses adéquates. (voir exemple) L'étape suivante consiste à évaluer le fichier GBF. Vous pouvez trier la base de données des rues pour afficher toutes les rues nommées "410". (voir exemple) Plusieurs problèmes deviennent évidents. Notez que le nom est incohérent et qu'il n'y a pas de plages d'adresses. Quels autres problèmes voyez-vous ?


                                Arrière-plan

                                L'épidémiologie environnementale nécessite une évaluation fiable des composantes temporelles et spatiales de l'exposition. En réponse à ces défis, les études épidémiologiques utilisent de plus en plus les adresses résidentielles des participants à l'étude et les systèmes d'information géographique (SIG) pour améliorer la caractérisation des expositions environnementales et examiner leur association avec les risques pour la santé humaine pour une grande variété de maladies [1]. Les SIG, par exemple, ont été utilisés pour étudier la relation entre les expositions environnementales et le risque de cancer du sein [2–4], de leucémie [5–7], de maladies de Parkinson [8, 9], d'issues défavorables à la naissance [10, 11], et la santé respiratoire [12–15]. L'évaluation de l'exposition basée sur le SIG utilisant la proximité résidentielle de la source d'exposition environnementale (par exemple, des terres agricoles traitées avec des pesticides, des installations industrielles ou des routes de circulation) en tant que substitut d'exposition repose sur la précision de la position des résidences des sujets pour éviter une mauvaise classification de l'exposition [16]. Les cohortes prospectives existantes sont de plus en plus utilisées pour étudier les causes environnementales des maladies, bien que la plupart d'entre elles n'aient pas été initialement conçues pour l'évaluation de l'exposition environnementale [17, 18]. Alors que la force de l'utilisation des cohortes existantes repose sur la collecte de données prospectives au niveau individuel sur de nombreuses années permettant d'ajuster les facteurs de risque de maladie individuels, les adresses postales des sujets ont rarement été collectées pour être géocodées (c'est-à-dire pour être converties en coordonnées géographiques précises ) pour leur utilisation dans les SIG. Cela peut entraîner une mauvaise précision de la position des adresses des sujets et peut représenter une source importante d'erreur de classification et d'imprécision dans l'évaluation de l'exposition environnementale [13, 16, 19-24].

                                Le processus de géocodage et d'attribution de coordonnées géographiques (latitude et longitude) aux adresses résidentielles du sujet d'étude est l'une des premières étapes des études épidémiologiques basées sur le SIG [20, 24-26]. La qualité du géocodage dépend de l'exhaustivité et du niveau de précision de positionnement des adresses localisées. L'exhaustivité est la proportion d'adresses qui peuvent être géocodées et dépend de la qualité des données collectées sur les adresses. La précision de la position reflète le niveau de proximité des objets géocodés par rapport à leur véritable emplacement [27, 28]. Le géocodage des adresses résidentielles peut être effectué selon trois méthodes. Une première méthode consiste à utiliser des services de géocodage en ligne pour obtenir les coordonnées des sujets ou pour créer des cartes en ligne avec les lieux de résidence des sujets [29, 30]. Ces services gratuits sont disponibles sur Internet et ne nécessitent pas d'expertise spécifique en géocodage [21]. Une seconde approche consiste à utiliser un service commercial capable de gérer toutes les étapes de géocodage depuis la vérification orthographique des adresses jusqu'à leur localisation sur la carte [11, 13, 24, 31]. La troisième méthode est l'utilisation d'une méthode de géocodage interne où le processus de géocodage est géré par l'équipe de recherche à l'aide d'un logiciel SIG disponible dans le commerce équipé d'un outil de géocodage et d'une base de données des rues de référence [7, 21, 24, 32, 33] . En Europe, et particulièrement en France, les études comparant la précision du géocodage entre différents outils de géocodage, ainsi qu'en fonction des caractéristiques des lieux d'habitation et de la date de résidence, font défaut.

                                Plusieurs études américaines et européennes ont évalué la précision de différentes méthodes de géocodage et de leur base de données de réseau de référence par rapport à la localisation sur le terrain en utilisant le système de positionnement global (GPS) [13, 20, 27, 34] et la localisation manuelle basée sur la photographie aérienne [28 , 35]. Ces études ont permis de prendre conscience de la divergence de précision du géocodage entre les méthodes, avec des variations d'erreurs de position médianes allant de 25 m à 201 m. De plus, les niveaux de précision du géocodage peuvent varier selon le statut urbain ou rural du lieu de résidence des sujets [20, 24, 35, 36]. De plus, les études portant sur les différences dans la précision du géocodage des adresses résidentielles par date de résidence ont donné des résultats incohérents [20, 36].

                                Les quelques études ayant précédemment exploré la faisabilité et la qualité du géocodage des adresses résidentielles d'une cohorte existante dans un contexte européen ont été menées sur de petites populations (i.e. m = 30 [29], m = 100 [27] ou m = 354 [13]). De plus, ces études n'ont pas exploré la précision du géocodage sur diverses zones géographiques (urbaines ou rurales) ou périodes de temps. En outre, les caractéristiques de distribution spatiale des villes et des agglomérations rurales, le schéma des rues (par ex.type de grille, longueurs de rues) et les facteurs de densité de population dont il a été démontré qu'ils affectent la précision du géocodage [20, 24, 35, 37], diffèrent entre l'Europe et les États-Unis (où la plupart des études précédentes ont été menées). Notre étude visait à comparer la précision de deux méthodes de géocodage automatique, une méthode en ligne et une méthode interne, avec une méthode de géocodage manuel utilisée comme référence, dans une cohorte prospective nationale française initiée en 1990. La présente étude évaluera la niveaux respectifs de précision et de confiance de chaque méthode géocodée testée dans le contexte européen. Notre étude a en outre évalué la précision du géocodage en fonction du statut urbain et rural des adresses et de la période de résidence. L'étude a été réalisée afin d'utiliser par la suite la méthode la plus appropriée pour le géocodage des résidences des sujets afin d'évaluer l'exposition environnementale dans une étude cas-témoins nichée au sein de la même cohorte prospective en ce qui concerne la précision de la position, l'utilisation éthique des adresses et la protection de la vie privée. que le temps et les ressources nécessaires.


                                Comment CartoDB fait-il le géocodage international ? - Systèmes d'information géographique

                                La disponibilité généralisée d'outils de géocodage puissants dans les logiciels commerciaux de système d'information géographique (SIG) et l'intérêt pour l'analyse spatiale au niveau individuel ont fait de la cartographie des adresses résidentielles des individus une technique largement utilisée dans la recherche en santé publique [ 1 &# x2013 6 ]. L'analyse spatiale et la cartographie des données de santé géoréférencées au niveau individuel peuvent aider à identifier des modèles géographiques importants [ 1 , 2 , 7 , 8 ]. Cependant, compte tenu de la nécessité et/ou de l'obligation légale de préserver la confidentialité des microdonnées, les possibilités d'entreprendre une analyse géographique sur certains types de données de niveau individuel sont souvent limitées [ 9 , 10 ]. En raison des restrictions d'accès aux données confidentielles, des informations importantes peuvent rester inaccessibles.

                                La publication des emplacements d'individus au format numérique ou papier présente un risque de réidentification, car ces emplacements peuvent être géocodés à l'envers pour trouver les adresses et les identités associées à ces emplacements. Des techniques de masquage géographique ont été développées pour réduire le risque de réidentification. La présente revue décrit le contexte du partage et des données au niveau individuel, l'utilisation du géocodage et du géocodage inversé des ensembles de données liées à la santé, et l'efficacité des techniques de masquage géographique pour préserver la confidentialité.

                                2. Données au niveau individuel et géocodage

                                Les ensembles de données recueillies dans le cadre de la recherche en santé publique contiennent souvent des informations confidentielles. Cela peut inclure le nom, le sexe, l'âge, la race, l'origine ethnique, le revenu et d'autres caractéristiques socio-économiques de la personne, ainsi que les conditions de santé spécifiques d'intérêt dans l'étude particulière. La collecte de ce type d'informations individuelles à des fins de recherche relève de la recherche sur des sujets humains. Ce type de données ne peut pas être rendu public car cela violerait les clauses de confidentialité de la recherche sur des sujets humains [ 11 ]. En règle générale, lorsque les chercheurs publient leurs résultats, seules des données agrégées sur l'ensemble de l'échantillon ou des sous-échantillons spécifiques peuvent être publiées.

                                De plus en plus, les informations au niveau individuel recueillies dans le cadre de la recherche liée à la santé contiennent des identificateurs géographiques. Cela peut être relativement grossier sous la forme de la juridiction locale (ville ou municipalité) ou du code postal ou beaucoup plus fin sous la forme de l'adresse postale exacte. Certains protocoles de collecte de données peuvent également inclure la collecte de coordonnées à l'aide d'unités GPS sur le terrain. Ces identificateurs géographiques ajoutent de la valeur à la recherche de plusieurs manières différentes. Premièrement, si des variables démographiques et socioéconomiques limitées sont disponibles sur les sujets de l'étude, leur emplacement peut fournir des variables de substitution. Par exemple, il est très courant d'associer les sujets d'étude aux caractéristiques démographiques de l'unité de dénombrement dans laquelle ils se trouvent. Deuxièmement, l'emplacement des sujets d'étude peut donner un aperçu d'autres variables qui peuvent être liées aux résultats en matière de santé. Les exemples incluent le temps qu'il faut pour se rendre à l'établissement de santé d'intérêt le plus proche, la distance aux sources de pollution ou la qualité de l'air/de l'eau/du sol à leur emplacement résidentiel.

                                Les adresses postales représentent les identificateurs géographiques les plus couramment utilisés pour les données de niveau individuel. Les informations d'adresse peuvent être converties en emplacements sur une carte à l'aide d'un processus appelé géocodage [ 1 , 12 ]. Le géocodage peut être effectué à l'aide d'un logiciel SIG de bureau ou de services de cartographie en ligne. Les méthodes de géocodage automatisées peuvent convertir très rapidement de grandes bases de données d'adresses.

                                Le géocodage n'est pas exempt d'erreurs. Typiquement, un certain nombre d'enregistrements ne se géocodent pas en raison d'informations incomplètes ou incorrectes. Les emplacements géocodés peuvent également ne pas être précis en raison d'informations de référence incorrectes ou d'erreurs dans le processus de géocodage [1]. Ces erreurs, cependant, sont relativement bien comprises et ont reçu une attention considérable dans la littérature [ 1 , 13 – 20 ]. Les jeux de données utilisés pour le géocodage ainsi que les techniques de géocodage elles-mêmes s'améliorent également progressivement [21, 22].

                                Un examen des articles publiés dans des volumes récents de certaines des principales revues de recherche en santé publique révèle que le géocodage est très largement utilisé. En outre, plusieurs nouvelles revues de santé ont vu le jour avec un accent clair sur les dimensions spatiales de la santé, telles que l'International Journal of Health Geographics et Spatial and Spatio-temporal Epidemiology . Cela confirme que le géocodage s'est solidement établi comme outil d'analyse dans la recherche en santé publique [ 6 ].

                                L'utilisation généralisée du géocodage ne présente pas seulement des opportunités d'analyse sans précédent, par exemple [23 – 25], elle présente également des défis pour préserver la confidentialité des ensembles de données de santé publique [ 2 , 6 , 26 ]. Bref, la diffusion d'informations géographiques au niveau individuel peut porter atteinte à la confidentialité. Par exemple, la publication de l'adresse postale d'un individu permet de rechercher le(s) nom(s) associé(s) dans les annuaires et les bases de données immobilières. La publication d'un emplacement sous forme de coordonnées (par exemple, latitude/longitude) signifie que celles-ci peuvent être tracées sur une carte, puis associées à une adresse. La publication d'une carte sous forme papier ou numérique signifie également que les emplacements peuvent être associés à une adresse. La figure 1 illustre un exemple où une coordonnée publiée est publiée sur une carte pour identifier une résidence spécifique.

                                Divulgation d'informations confidentielles par la publication de coordonnées. La figure 1(a) montre un exemple d'un ensemble hypothétique de coordonnées. Les tracer sur une carte à petite échelle (b) fournit un emplacement approximatif (c'est-à-dire Rio Rancho). Un zoom avant à l'aide d'une carte à grande échelle (c) fournit un emplacement très précis, qui peut être utilisé pour identifier l'adresse postale associée à l'ensemble de coordonnées (par exemple, 1364 Peppoli Loop SE). L'imagerie aérienne (d) peut être utilisée pour confirmer la résidence spécifique.

                                Paire de coordonnées unique (hypothétique) pour décrire un emplacement spécifique

                                Paire de coordonnées tracée sur une carte à petite échelle

                                Paire de coordonnées tracée sur une carte à grande échelle

                                Imagerie aérienne oblique de l'emplacement

                                Ces techniques sont collectivement appelées “reverse geocoding” [ 27 – 34 ]. Formellement, le géocodage inversé consiste à déterminer l'adresse postale associée à un lieu publié au format papier ou numérique. Le géocodage inversé peut conduire à une réidentification car l'adresse postale peut alors être associée à un ou plusieurs individus à l'aide d'annuaires communs. D'un point de vue conceptuel, le géocodage inversé revient à inverser le géocodage d'adresse normal, comme illustré à la figure 2 .

                                Géocodage et géocodage inversé. Le géocodage (a) est le processus d'attribution d'emplacements (c'est-à-dire de coordonnées) aux informations d'adresse. Un ensemble de données tabulaires d'adresses devient une carte. Le géocodage inversé (b) met littéralement cela à l'envers et convertit les emplacements cartographiés en adresses. Des erreurs dans le processus de géocodage et de géocodage inversé peuvent entraîner des informations d'adresse non concordantes, c'est-à-dire que les adresses obtenues à l'aide du géocodage inversé peuvent ne pas être identiques à celles utilisées dans le géocodage d'origine.

                                Processus fondamental du géocodage des adresses

                                Processus fondamental de géocodage d'adresse inversée

                                La réidentification d'adresses individuelles à l'aide du géocodage inversé s'est avérée relativement facile et précise. Par exemple, [29] a créé une carte hypothétique d'adresses de patients géocodées et a pu identifier correctement 79% des adresses à l'aide de techniques manuelles de géocodage inversé dans le SIG. Les mêmes auteurs ont utilisé une approche similaire en utilisant un géocodage inversé semi-automatisé basé sur l'analyse d'images et ont pu identifier correctement 26% des adresses [35]. Dans un autre exemple, à la suite de l'ouragan Katrina, un journal local a publié une carte des lieux de mortalité. En utilisant une combinaison de méthodes SIG et de travaux sur le terrain, les chercheurs ont pu identifier correctement la résidence d'origine pour la plupart des emplacements sur la carte publiée [36]. Plus récemment, une étude d'incidents criminels à Vienne, en Autriche, a déterminé la précision du géocodage inversé pour plusieurs services de cartographie en ligne [ 28 ]. Les résultats indiquent que 68 & 25 des victimes probables pourraient être identifiées par leur nom en utilisant le géocodage inversé en ligne et les annuaires d'adresses et de téléphones en ligne.

                                Les tendances actuelles vers des données spatiales plus détaillées et la disponibilité d'outils de géocodage inversé en ligne gratuits augmentent le risque de réidentification [1]. Par exemple, les services de géocodage en ligne tels que Google Maps et Bing Maps de Microsoft fournissent un géocodage très précis au niveau du bâtiment et un géocodage inversé dans le cadre de leurs services de cartographie en ligne (gratuits). Cela a rendu des outils de piratage précis et relativement sophistiqués accessibles à toute personne disposant d'une connexion Internet et de compétences informatiques modestes. La principale plate-forme logicielle SIG, ArcGIS by Esri, a également ajouté un outil de géocodage inversé à son ensemble standard d'outils de traitement et d'analyse des données. Cela a en outre établi le géocodage inversé comme un outil SIG robuste et standard.

                                4. Avantages et risques du partage de données

                                Lorsque vous essayez de déterminer si et comment les informations de localisation sur les individus peuvent être divulguées, les considérations suivantes doivent être équilibrées : (1) la nécessité de protéger la confidentialité cela fait partie du droit d'un individu à la vie privée et le plus souvent une condition de la collecte des données d'origine, (2) le désir de préserver le modèle d'origine dans les emplacements, cela reflète l'intérêt d'essayer d'obtenir des informations utiles en utilisant des données spatiales au niveau individuel au lieu de données agrégées, (3) l'utilité de partager des données pour le au profit des chercheurs et au profit du grand public. Ces considérations sont contradictoires dans le sens où la confidentialité est protégée en maximisant les modifications apportées aux emplacements individuels, tandis que la préservation du modèle d'origine est accomplie en minimisant les modifications. L'objectif de toute méthode de protection de la confidentialité est de trouver un équilibre entre la réduction du risque de réidentification et la préservation des propriétés des données d'origine.

                                Ces défis en essayant d'équilibrer le besoin de confidentialité avec les avantages potentiels de fournir aux chercheurs et autres l'accès à des données de santé individuelles géoréférencées ont été largement reconnus. Par exemple, le National Research Council a publié en 2007 un rapport intitulé « Putting People on the Map : Protecting Confidentiality with Linked Social-Spatial Data » [37]. Le panel sur les problèmes de confidentialité découlant de l'intégration des données de télédétection et d'auto-identification a conclu que :

                                �s recherches récentes sur les approches techniques pour réduire le risque d'identification et de violation de la confidentialité se sont révélées prometteuses pour le succès futur. À l'heure actuelle, cependant, aucune stratégie technique connue ou combinaison de stratégies techniques pour gérer les données spatiales et sociales liées ne résout de manière adéquate les conflits entre les objectifs de liaison de données, d'accès ouvert, de qualité des données et de protection de la confidentialité entre les ensembles de données et les utilisations des données [37]. ”

                                La présente revue documente certains des progrès réalisés depuis la publication de ce rapport et d'autres études avec un message similaire [38, 39]. Plus précisément, l'examen résume l'état de l'art du masquage géographique comme l'une des « approches techniques » mentionnées dans le rapport du CNRC.

                                5. Stratégies de protection de la confidentialité

                                Le moyen le plus simple et le plus rigoureux de protéger la confidentialité des sujets d'étude est tout simplement de ne partager aucune des données individuelles collectées dans le cadre de la recherche. Pour de nombreux ensembles de données, cela peut être la meilleure option par défaut, à moins que des arguments convaincants ne soient disponibles pour publier les données d'une manière ou d'une autre. L'un des arguments les plus pratiques et les plus convaincants est que la mise à disposition des données est devenue une exigence de nombreux organismes de financement [ 40 , 41 ].

                                Une solution possible est de fournir un accès très restreint aux données individuelles. C'est l'approche adoptée par la plupart des registres du cancer [ 10 ]. Les enregistrements de données sur le cancer au niveau individuel sont collectés et organisés par les registres du cancer. L'accès aux dossiers individuels est limité aux chercheurs dont les protocoles ont satisfait aux exigences de l'examen des sujets humains. Les chercheurs sont souvent limités quant à l'endroit où ils peuvent utiliser les données (parfois sur place uniquement) et ce qu'ils sont autorisés à publier en termes de résultats détaillés. Ce type d'accès restreint donne aux chercheurs la possibilité de travailler avec les enregistrements individuels originaux, mais les diffusions ultérieures des données sont strictement contrôlées. Ces protocoles détaillés et institutionnalisés ne sont pas très courants pour d'autres types d'ensembles de données liés à la santé.

                                Une autre solution couramment utilisée consiste à diffuser les données sous forme agrégée spatialement [ 9 ]. Ceci est analogue à la présentation de données récapitulatives sous forme de tableau pour des sous-ensembles sélectionnés des données d'origine. Pour les données géocodées au niveau individuel, l'agrégation est généralement réalisée en combinant des emplacements individuels au sein d'une unité spatiale significative. Il peut s'agir de juridictions locales ou régionales, telles que des villes, des comtés ou des unités de dénombrement. La figure 3 illustre le processus de base pour l'agrégation spatiale. Pour préserver la confidentialité, seul l'ensemble de données agrégé est publié ou partagé.

                                Agrégation spatiale des cas individuels à l'aide des unités de dénombrement du recensement. Les emplacements géocodés individuels (à gauche) sont agrégés à l'aide des secteurs de recensement (à droite). Le décompte du nombre de cas par secteur de recensement est utilisé pour déterminer les indices pertinents pondérés en fonction de la population, tels que le nombre de cas pour 10 000 habitants. La détermination des taux d'incidence ou de maladie, par opposition aux dénombrements bruts, est l'une des principales raisons de l'agrégation. Comme avantage secondaire, l'agrégation spatiale a considérablement réduit le risque de réidentification.

                                Pour de nombreuses applications, cependant, la diffusion de données agrégées spatialement est beaucoup moins utile que l'accès aux emplacements individuels [ 26 ]. De nombreuses techniques d'analyse spatiale, telles que l'analyse générale des motifs ponctuels et la détection de grappes, sont beaucoup moins puissantes ou tout simplement impossibles à utiliser avec des données agrégées.

                                Enfin, une solution alternative consiste à modifier les données de manière à réduire considérablement le risque de réidentification sans agréger les données à des unités d'analyse plus grossières. Cela comprend la modification des emplacements d'origine d'une manière systématique, également appelée masquage géographique.

                                6. Garantir la confidentialité à l'aide du masquage géographique

                                Le masquage géographique est le processus de modification des coordonnées des données de localisation des points pour limiter le risque de réidentification lors de la publication des données. En effet, le masquage géographique a pour but de rendre beaucoup plus difficile le géocodage inversé précis des données diffusées. La figure 4 illustre le concept général de masquage géographique.

                                Illustration conceptuelle du masquage géographique. Un ensemble d'emplacements d'origine (a) est créé à l'aide du géocodage d'adresses ou de la collecte de données de terrain à l'aide du GPS. Ces emplacements correspondent très étroitement aux résidences d'intérêt, bien qu'une certaine erreur puisse être présente. Pour chaque emplacement, une représentation masquée est créée (b) en déplaçant l'emplacement d'origine en utilisant l'un de plusieurs algorithmes. La plupart des algorithmes incluent un certain degré d'aléatoire dans le déplacement. Les emplacements d'origine sont supprimés de l'ensemble de données, ce qui donne un ensemble d'emplacements masqués (c) à des fins de publication et de distribution. L'ensemble d'emplacements masqués a le même nombre d'observations que l'ensemble d'emplacements d'origine.

                                Emplacements originaux + masqués

                                Le terme masquage géographique a été décrit pour la première fois en détail en 1999 [ 26 ]. Le terme a été introduit comme une extension des techniques de masquage pour les microdonnées non spatiales [42, 43]. Alors que le masquage géographique est le terme le plus largement accepté, d'autres termes ont également été utilisés, notamment “geomasking” [ 44 – 47 ], “jittering” [ 48 , 49 ] et 𠇍ithering” [ 50 ]. La description originale des méthodes de masquage géographique [ 26 ] comprenait plusieurs types de masquage, y compris (1) les transformations affines, qui accomplissent le déplacement à l'aide de translations, de changements d'échelle et de rotation, et (2) la perturbation aléatoire, qui accomplit le déplacement en ajoutant un certaine quantité de bruit aléatoire aux coordonnées. L'approche de transformation n'a pas été largement adoptée, principalement parce que les nouvelles coordonnées n'ont plus le même contexte réel. Par exemple, une fois qu'une rotation ou une translation a été appliquée à un ensemble d'emplacements, il n'est plus logique de superposer ces coordonnées sur d'autres couches de données spatiales. En conséquence, le masquage géographique est devenu en grande partie synonyme d'application de perturbations aléatoires aux coordonnées.

                                Le masquage géographique est activement utilisé par les chercheurs en santé publique qui utilisent des données au niveau individuel. Un certain nombre d'études ont été identifiées qui remplissaient les deux conditions suivantes : (1) l'article comprenait une carte avec des emplacements géocodés d'informations sur la santé au niveau individuel et (2) une mention spécifique a été faite que les emplacements géocodés ont été modifiés d'une manière ou d'une autre pour des raisons de confidentialité (même si le terme "masquage géographique" n'a pas été utilisé explicitement). La section suivante passe en revue la nature de ces cartes et les détails rapportés sur les méthodes de masquage géographique utilisées.

                                Une étude de Cape Code a publié des cartes avec l'emplacement des adresses résidentielles des patients diagnostiqués avec un cancer [ 48 ]. L'approche de masquage géographique a été décrite comme “pour des raisons de confidentialité, les points ont été instables [48].” Une étude dans le comté de Churchill, NV (États-Unis), a publié des cartes avec l'emplacement de l'adresse résidentielle des cas de leucémie infantile [51 ]. L'approche de masquage géographique a été décrite comme « les emplacements sont agrandis et « agité(e)s » pour maintenir la confidentialité) [ 51 ]. Une étude en Angleterre a publié des cartes des emplacements des fermes où la tuberculose bovine a été trouvée [ 52 ].L'approche de masquage géographique a été décrite comme suit : « La carte montre l'emplacement de chaque ferme, agitée au hasard dans un disque circulaire d'un rayon de 5 x 2009 km pour préserver la confidentialité [ 52 ]. Une étude en Caroline du Nord a publié des cartes avec les emplacements des les adresses résidentielles des enfants dépistés pour le plomb sanguin [ 24 ]. L'approche de masquage géographique a été décrite comme suit : « pour les cartes affichées publiquement » nous avons déplacé au hasard l'emplacement réel de l'enfant dans une zone tampon radiale fixe, une technique connue sous le nom de jittering [ 24 ]. Une étude au Minnesota a publié des cartes avec le les localisations des adresses résidentielles des personnes diagnostiquées avec un cancer [ 53 ]. L'approche de masquage géographique a été décrite comme “… trace les emplacements résidentiels dans ces données, où nous avons ajouté un “jitter” aléatoire à chacun afin de protéger la confidentialité des patients (et d'expliquer pourquoi certains des cas semblent se situer en dehors du domaine spatial) [ 53 ]. Une étude menée dans le Massachusetts (États-Unis) a publié des cartes indiquant l'emplacement des adresses résidentielles des nourrissons nés de mères vivant à proximité d'un site connu du Superfund contaminé aux PCB [ 54 ]. L'approche de masquage géographique a été décrite comme « les emplacements des lieux de résidence sont agités par un bruit aléatoire pour protéger la confidentialité des participants [54]. Une étude menée à Perth, en Australie-Occidentale (États-Unis), a publié des cartes avec les emplacements des adresses résidentielles des enfants qui ont visité la salle d'urgence avec un diagnostic principal d'asthme [54, 55]. L'approche de masquage géographique a été décrite comme “ les cas et les cas témoins ont été instables [ 55 ].”

                                Bien que ces exemples ne représentent pas un aperçu complet de toutes les études publiées qui utilisent le masquage géographique, ils illustrent un certain nombre de caractéristiques. Premièrement, le terme “jittering” est largement utilisé au lieu de “geographic masking.”. Bien que le jittering soit généralement utilisé pour suggérer un certain type de perturbation aléatoire, les exemples varient dans leur utilisation du terme. Deuxièmement, un certain nombre d'exemples fournissent des détails sur la nature de la méthode de masquage géographique, tels que “jittered aléatoirement dans un disque circulaire de rayon 5 km [ 52 ]” ou “jittered avec 1% bruit aléatoire pour protéger confidentialité des participants [ 54 ].” Plusieurs autres exemples, cependant, indiquent simplement que les emplacements ont été modifiés sans autre description.

                                7. Différentes approches du masquage géographique

                                Un certain nombre de différentes techniques de masquage géographique ont été développées au fil des ans. Tous ces éléments incluent un certain degré de randomisation afin de réduire le risque de réidentification. La figure 5 fournit une représentation visuelle de chacune de ces méthodes.

                                Représentation graphique des techniques courantes de masquage géographique. Le point rouge indique l'emplacement d'origine et le point bleu l'un des nombreux emplacements masqués possibles.

                                Direction aléatoire et rayon fixe

                                Perturbation aléatoire dans un cercle

                                Déplacement gaussien bimodal

                                (1) 𠂝irection aléatoire et rayon fixe. Les points masqués sont placés à un emplacement aléatoire sur un cercle autour de l'emplacement d'origine. Les points masqués ne sont pas placés à l'intérieur du cercle lui-même.

                                (2)  Perturbation aléatoire dans un cercle. Les emplacements masqués sont placés n'importe où dans une zone circulaire autour de l'emplacement d'origine. Étant donné que chaque emplacement dans le cercle est également probable, les emplacements masqués sont plus susceptibles d'être placés à des distances plus grandes que sur de petites distances. Une variante de cette technique est l'utilisation d'une direction aléatoire et d'un rayon aléatoire. Dans cette technique, les points masqués sont déplacés à l'aide d'un vecteur avec une direction et un rayon aléatoires. Le rayon est contraint par une valeur maximale. Cela se traduit effectivement par une zone circulaire où des emplacements masqués peuvent être placés, mais les emplacements masqués sont tout aussi susceptibles d'être à de grandes distances que sur de petites distances. Ces deux techniques ne diffèrent donc que légèrement par la probabilité de proximité des emplacements masqués par rapport aux emplacements d'origine.

                                (3) 𠂝éplacement gaussien. La direction du déplacement est aléatoire, mais la distance suit une distribution gaussienne. La dispersion de la distribution peut varier en fonction d'autres paramètres d'intérêt, tels que la densité de population locale.

                                (4)  Masquage des beignets. Cette technique est similaire au déplacement aléatoire dans un cercle, mais un cercle interne plus petit est utilisé dans lequel le déplacement n'est pas autorisé. En effet, cela fixe un niveau minimum et maximum pour le déplacement. Les emplacements masqués sont placés n'importe où dans la zone autorisée. Une approche légèrement différente du masquage de l'anneau consiste à utiliser une direction aléatoire et deux rayons aléatoires : un pour le déplacement maximum et un pour le déplacement minimum. Ces deux techniques ne diffèrent que légèrement par la probabilité de la proximité des emplacements masqués par rapport aux emplacements d'origine. Les deux approches imposent un minimum de déplacement.

                                (5) 𠂝éplacement gaussien bimodal. Il s'agit d'une variante de la technique de masquage gaussien, utilisant une distribution gaussienne bimodale pour la fonction de distance aléatoire. En effet, cela se rapproche du masquage du beignet, mais avec une probabilité de placement moins uniforme.

                                Bien que ces méthodes soient présentées ici comme des méthodes distinctes, plusieurs sont des versions légèrement révisées les unes des autres. Par exemple, le masquage en anneau et le déplacement gaussien bimodal sont très similaires en termes de zone générale où les emplacements masqués sont placés par rapport aux emplacements d'origine.

                                Ces cinq techniques ont été décrites à des degrés divers dans la littérature. La direction aléatoire et le rayon fixe ont été utilisés par [ 56 ]. La perturbation aléatoire à l'intérieur d'un cercle a été étudiée par [ 26 , 50 , 56 , 57 ]. Le déplacement gaussien a été étudié par [ 57 , 58 ]. Le masquage en beignet a été initialement proposé par [ 59 ] et a été étudié dans un certain nombre d'études plus récentes [ 44 , 46 , 47 , 60 ]. Le déplacement gaussien bimodal a été étudié par [ 61 ]. Ces études portent spécifiquement sur le développement ou le test d'une ou plusieurs méthodes de masquage. L'examen antérieur des applications du masquage géographique aux ensembles de données du monde réel a indiqué que certaines études ne mentionnent pas la technique spécifique par son nom. Parmi les études qui fournissent une description de la technique, la perturbation aléatoire est de loin la plus largement utilisée. Cela suggère que les méthodes légèrement plus sophistiquées qui ont retenu l'attention dans la littérature sur le masquage géographique n'ont pas encore été adoptées.

                                Un certain nombre d'autres techniques ont été mentionnées dans la littérature, telles que le déplacement de chaque emplacement au milieu du segment de rue le plus proche ou à l'intersection de rue la plus proche [ 62 ]. Techniquement parlant, cependant, ces techniques sont des méthodes d'agrégation microspatiale puisque plusieurs emplacements d'origine peuvent se retrouver au même emplacement “mmasqué”. Bien que ces méthodes méritent une attention en tant qu'alternative à d'autres méthodes d'agrégation spatiale, elles ont reçu une attention très limitée dans la littérature.

                                La détermination de la quantité de déplacement nécessaire pour atteindre la confidentialité a été abordée par plusieurs des études sur le masquage géographique [ 56 ], mais aucune directive universelle n'a émergé. Cependant, il est largement admis que la quantité de déplacement devrait être inversement proportionnelle à la densité de population locale [ 26 , 47 , 56 , 58 , 61 ]. Par exemple, considérons une résidence dans une zone rurale à très faible densité de population. Il est fort possible qu'il n'y ait pas d'autres résidences à moins de 100 mètres de cette résidence. Un déplacement de 100 mètres ne serait donc pas très efficace pour réduire le disque de réidentification. En revanche, une résidence dans une zone urbaine très densément peuplée peut être susceptible d'avoir de nombreuses autres résidences à moins de 100 mètres, et un déplacement de 100 mètres peut être plus que suffisant pour réduire considérablement le risque de réidentification. Toutes les techniques de masquage décrites ci-dessus comprennent au moins un paramètre qui contrôle l'amplitude globale du déplacement, par exemple, le rayon correspondant au déplacement maximum ou l'écart type pour les techniques employant une distribution normale. Ce paramètre doit être mis à l'échelle de manière inversement proportionnelle à la densité de population locale (exprimée en personnes par unité de surface). Au lieu d'utiliser la densité de population des zones de dénombrement du recensement, plusieurs études ont proposé d'utiliser la densité locale des adresses résidentielles comme moyen plus fiable d'ajuster l'ampleur du déplacement [44, 47, 63].

                                Une variante du masquage géographique est l'utilisation de filtres spatiaux supplémentaires pour garantir que les emplacements masqués se situent dans des zones d'intérêt prédéfinies. Par exemple, le déplacement pourrait être limité à une base terrestre physique en excluant les plans d'eau de surface (par exemple, les océans, les baies, les rivières et les lacs) pour s'assurer qu'aucun emplacement masqué n'apparaît dans des zones qui sont manifestement inhabitées. Une autre utilisation potentielle de ces filtres est de s'assurer que les emplacements masqués restent dans les mêmes unités de dénombrement (par exemple, groupe d'îlots de recensement, code postal) que l'emplacement d'origine. L' utilisation de ces filtres spatiaux supplémentaires est illustrée à la figure 6 .

                                Exemple de technique de masquage géographique (c.-à-d. placement aléatoire dans un cercle) utilisant un filtre spatial supplémentaire pour contraindre le déplacement. Le point rouge représente l'emplacement d'origine, la zone jaune représente tous les emplacements possibles pour l'emplacement masqué et le point bleu représente un emplacement masqué possible sélectionné au hasard. Ce filtre peut être utilisé pour éviter le placement dans des zones où logiquement aucune population ne réside (comme des plans d'eau ou des parcs) ou pour limiter le déplacement à une unité de dénombrement particulière (comme le même secteur de recensement ou le même code postal).

                                Bien que conceptuellement relativement simple, aucune étude sur le masquage géographique n'a spécifiquement abordé l'utilisation de ces filtres spatiaux supplémentaires. On ne sait donc pas, par exemple, dans quelle mesure leur utilisation augmente le risque de réidentification.

                                8. Efficacité du masquage géographique pour préserver la confidentialité

                                Un aspect essentiel de l'évaluation de l'efficacité du masquage géographique consiste à déterminer comment l'algorithme de masquage a réduit le risque de réidentification. En d'autres termes, quelle est la probabilité de découverte de l'ensemble de données masqué ? Ceci est essentiel pour trouver l'équilibre tant souhaité entre la protection de la confidentialité et le maintien de l'utilité des données.

                                De nombreuses premières études sur le masquage géographique ont essentiellement postulé qu'un déplacement « substantiel » de l'emplacement du point d'origine suffirait à préserver la confidentialité [56, 64]. Plus récemment, la détermination de la nature ou de l'ampleur du déplacement requis pour accomplir efficacement cela a commencé à recevoir plus d'attention [44, 46, 61, 65].

                                Plusieurs approches ont été développées pour déterminer le degré de confidentialité fourni par des techniques de masquage géographique spécifiques. L'approche la plus largement adoptée qui a commencé à susciter de l'intérêt ces dernières années utilise le concept de « k-anonymat spatial ». Ceci étend le concept de « k -anonymat » qui fournit une estimation quantitative de la probabilité de découverte pour les données tabulaires [ 66 – 70 ]. Le k -anonymat traditionnel implique que les données pour un individu particulier ne seront publiées que s'il y a un minimum de k - 1 individus avec la même combinaison de caractéristiques. Lorsqu'une valeur particulière pour k est déterminée, les tableaux de données peuvent être examinés empiriquement pour s'assurer que l'attente de k -anonymat est satisfaite.

                                Le concept de k -anonymat est mieux illustré par un exemple, adapté de [ 66 ] et illustré à la figure 7 . Considérez un ensemble d'enregistrements liés à la santé avec des identifiants personnels tels que le nom, la date de naissance, le sexe, l'origine ethnique, l'adresse postale et le code postal, en plus des données liées à la santé telles que le diagnostic, le traitement et l'assurance. Pour protéger la confidentialité, les identifiants individuels doivent être supprimés des données avant la diffusion, y compris le nom et l'adresse. Bien que cela puisse sembler suffisant pour protéger la confidentialité, envisagez un deuxième ensemble d'enregistrements constitué d'enregistrements de vote accessibles au public. Dans de nombreuses juridictions, ces enregistrements incluent le nom, la date de naissance, le sexe, l'adresse postale et le code postal de la personne, en plus des données relatives au vote telles que l'affiliation à un parti et la nature de la participation à la dernière élection. Les dossiers de vote peuvent être utilisés pour réidentifier les personnes dans les dossiers de santé anonymisés. Dans cet exemple particulier, la combinaison du code postal, de la date de naissance et du sexe dans la plupart des cas identifiera de manière unique une seule personne. La valeur de k serait 1, ce qui est bien sûr inacceptable. Une solution possible consiste à remplacer la date de naissance exacte par l'année de naissance, bien que dans certains cas, cela puisse ne pas être suffisant. Pour un ensemble réel de fichiers de données, des valeurs empiriques pour k peuvent être déterminées pour voir les effets de techniques d'anonymisation spécifiques sur le risque de réidentification.

                                Illustration du concept d'anonymat k utilisant le couplage d'enregistrements. Les dossiers médicaux contiennent un certain nombre de champs différents qui sont supprimés pour protéger la confidentialité, y compris le nom et l'adresse. Cependant, lorsqu'il est combiné avec les dossiers de vote, il devient possible d'identifier de manière unique les individus dans les dossiers médicaux en combinant les champs pour le code postal, la date de naissance et le sexe. Le k-anonymat fourni par les données publiées est inacceptablement bas. En supprimant le champ pour la date de naissance (ou en le remplaçant par l'année de naissance), le k-anonymat est considérablement augmenté et peut atteindre des niveaux acceptables. Le concept de k-anonymat fournit une mesure quantitative de la protection de la confidentialité. Plus précisément, il s'agit d'un nombre qui peut être calculé pour chaque sous-ensemble des données. Pour l'exemple du dossier médical et des dossiers de vote, les valeurs de k -anonymat peuvent être calculées avant la diffusion pour toutes les combinaisons de code postal et de sexe ou de tout autre domaine d'intérêt. Adapté de [ 66 ].

                                Le concept d'anonymat k peut être étendu pour inclure des identifiants géographiques. Le k-anonymat spatial est un concept émergent qui a commencé à recevoir une certaine attention pour tester et comparer les techniques de masquage géographique [65, 71, 72]. Semblable au k -anonymat pour les données non spatiales, le k -anonymat spatial fournit une estimation quantitative de la probabilité de découverte, mais considère désormais le géocodage inversé au lieu du couplage d'enregistrements de base de données comme principal mécanisme de réidentification.

                                Le k-anonymat spatial a été appliqué assez largement à la protection de la vie privée dans les services basés sur la localisation [71, 73 – 75]. Dans le contexte des emplacements résidentiels individuels, cependant, le k-anonymat spatial n'a pas été bien développé. En général, la détermination d'une estimation du k -anonymat spatial pour les emplacements résidentiels repose sur une comparaison entre la quantité de déplacement d'un emplacement introduit par masquage et la densité de la population locale d'intérêt. Un déplacement relativement important dans une zone à forte densité de population fournirait un degré élevé de k-anonymat spatial. Une approche proposée pour mettre en œuvre cette logique est appelée méthode du “ n ème numéro de voisin le plus proche”, c'est-à-dire le nombre d'emplacements résidentiels potentiels qui sont plus proches de l'emplacement masqué que l'emplacement d'origine [44, 47 , 63 ]. Cette approche utilise la distribution observée empiriquement des emplacements résidentiels réels. La n ième valeur du voisin le plus proche peut être utilisée pour fournir une estimation empirique du k -anonymat spatial, semblable à l'exemple de couplage d'enregistrements de base de données discuté précédemment. L'un des inconvénients de cette approche est qu'elle repose sur la disponibilité de points d'adresse ou de bâtiments résidentiels à haute résolution. Une variante de cette approche a été développée en utilisant la densité de population pour les zones de dénombrement du recensement au lieu de la distribution des emplacements résidentiels réels [ 61 ]. Bien qu'il y ait eu peu d'études utilisant le k-anonymat spatial pour examiner le risque de réidentification associé aux ensembles de données masqués, dans un cadre typique, il a été démontré que des déplacements plus importants entraînent les valeurs les plus élevées pour le k-anonymat spatial [44, 47, 61], comme attendu.

                                Compte tenu de la nature du masquage géographique, tout type ou quantité de déplacement ou de perturbation des emplacements d'origine permettra toujours la possibilité théorique que l'emplacement masqué soit relativement proche de l'emplacement « » “true”. Cependant, la distance réelle n'est pas aussi importante que la probabilité de découverte, qui est plus efficacement caractérisée par une analyse basée sur le k -anonymat spatial. Par conséquent, si un emplacement est déplacé d'une distance substantielle, mais que la valeur spatiale du k-anonymat est encore très faible, la probabilité de découverte est toujours substantielle. Cela pourrait être le cas dans une zone rurale à faible densité où même un déplacement substantiel peut ne pas assurer une protection adéquate de la confidentialité.

                                Une norme de protection de la confidentialité lors de la publication d'emplacements au niveau individuel n'existe pas à l'heure actuelle. Cependant, en tant que ligne directrice générale pour les chercheurs, une telle norme pourrait être basée sur l'obtention d'un niveau élevé de k-anonymat spatial. La question fondamentale de la recherche sur les techniques de masquage géographique devrait donc être de savoir quels paramètres de masquage géographique sont nécessaires pour obtenir des valeurs élevées pour le k -anonymat spatial ? Plus précisément, quels paramètres de masquage géographique sont nécessaires pour fournir un niveau minimum spécifié de k-anonymat pour un ensemble de données donné ? L'utilisation d'une mesure quantifiable de la probabilité de découverte sous la forme d'un indice de k-anonymat spatial facilite grandement ce raisonnement. Par exemple, pour une étude de cas spécifique de visites aux services d'urgence dans la région de Boston, MA (États-Unis), un déplacement moyen de 0,25 x 2009 km s'est avéré entraîner une valeur d'anonymat spatial k de 20 ou plus pour 99&# x25 des emplacements d'origine [ 61 ].

                                Il y a eu étonnamment peu de recherches comparant l'efficacité de différentes techniques de masquage géographique. La plupart des études n'ont examiné qu'une seule méthode dans le contexte d'un scénario spécifique. Malgré ce manque d'études comparatives, il semble y avoir un accord général sur le fait que le masquage en beignet et le déplacement gaussien bimodal sont préférés aux autres techniques car ils imposent un minimum de déplacement. Une perturbation aléatoire à l'intérieur d'un cercle et un simple déplacement gaussien peuvent entraîner des emplacements masqués très proches des emplacements d'origine. Pour un simple déplacement gaussien, ces emplacements proches sont en fait les plus probables. Ceci n'est pas souhaitable car il présente un risque élevé de réidentification par géocodage inversé. Bien que cet argument soit soutenu par la logique, peu d'études ont fourni une analyse empirique pour démontrer ces avantages potentiels [46]. L'absence d'analyse comparative des techniques de masquage fournit une indication claire des futures orientations de recherche souhaitables.

                                9. Publications multiples de données masquées et divulgation des méthodes de masquage

                                La confidentialité peut être violée en publiant plusieurs versions des mêmes ensembles de données masqués [ 57 ]. Par exemple, une agence responsable de la publication des informations de localisation peut réexécuter l'algorithme de masquage géographique à chaque demande d'un ensemble de données particulier pour s'assurer que chaque publication est unique. Si de telles versions multiples étaient disponibles, elles pourraient être combinées pour aider à la réidentification des emplacements d'origine. Des versions multiples au moins en théorie permettent de rétro-concevoir l'algorithme de masquage utilisé pour créer les jeux de données masqués. Par conséquent, même si l'algorithme de masquage lui-même n'est pas diffusé, plusieurs diffusions des données peuvent présenter un risque accru de réidentification.

                                Différentes techniques de masquage varieront dans leur robustesse à cette forme de réidentification. Cependant, la plupart des techniques dans leur forme de base sont symétriques (c'est-à-dire que la direction du déplacement est aléatoire et que la distance de déplacement ne dépend pas de la direction). En conséquence, l'emplacement moyen d'un grand nombre d'emplacements masqués commencera à se rapprocher de l'emplacement d'origine. Une perturbation supplémentaire peut être introduite si des emplacements masqués séparés sont à proximité les uns des autres et ne peuvent donc pas être distingués dans plusieurs versions des ensembles de données masqués. Même dans ce scénario, cependant, les emplacements moyens de plusieurs emplacements dans plusieurs ensembles de données masqués fourniront des informations sur les méthodes de masquage, ce qui en soi entraînera un risque de divulgation accru. Bien que cet effet ait été reconnu dans la littérature sur le masquage géographique [57, 58], des tests empiriques très limités ont été effectués.

                                Un aspect supplémentaire à prendre en compte est la diffusion de la technique de masquage géographique spécifique avec le jeu de données masqué. En théorie, la connaissance de l'algorithme fournit des connaissances supplémentaires pour identifier l'emplacement d'origine. De la même manière que les emplacements géocodés peuvent être identifiés à l'aide du géocodage inversé, les emplacements masqués pourraient être identifiés à l'aide du masquage géographique inversé. méthodes. On s'attend à ce que différentes techniques de masquage varient dans leur robustesse à cette forme de réidentification. Par exemple, la méthode de direction aléatoire et de rayon fixe ne devrait pas être très robuste à cet égard.

                                10. Effets du masquage sur les méthodes d'analyse spatiale

                                Généralement, la raison la plus impérieuse de publier des ensembles de données sur la santé au niveau individuel sous une forme ou une autre est qu'ils fournissent des informations plus utiles que les versions résumées ou agrégées spatialement des mêmes données. De nombreux types d'analyse ne sont possibles qu'en utilisant les points individuels. Il est donc essentiel de déterminer dans quelle mesure les propriétés de ces jeux de données sont préservées par masquage géographique. Si le masquage géographique donne un motif de points dont les propriétés ne ressemblent pas étroitement à celles des emplacements des points d'origine, le jeu de données au niveau individuel a une valeur analytique bien inférieure.

                                La recherche sur les effets du masquage géographique sur les propriétés d'analyse spatiale d'un ensemble de lieux est essentielle afin de déterminer si la technique de masquage établit un équilibre significatif entre la protection de la confidentialité et la capacité de déduire des relations spatiales pertinentes. Ce qui suit est un résumé des études à ce jour sur ce sujet. Une étude dans le comté de Franklin, Ohio, Kwan et al. [ 56 ] ont utilisé les adresses résidentielles de 541 décès dus au cancer du poumon pour examiner les effets de deux techniques de masquage différentes : direction aléatoire avec un rayon fixe et placement aléatoire dans un cercle, en utilisant des rayons différents pour les deux méthodes. Les effets du masquage ont été déterminés en utilisant l'estimation de la densité par noyau et la fonction K croisée. Les résultats ont indiqué un compromis cohérent entre la quantité de perturbation et la précision des résultats analytiques [ 56 ]. Une étude utilisant des amas artificiels d'emplacements de points masqués à l'aide d'un déplacement gaussien bimodal a examiné la robustesse de la détection d'amas à l'aide de SaTScan [61]. Les résultats ont montré une diminution progressive de la sensibilité et de la spécificité de détection des grappes avec une augmentation de la distance de déplacement moyenne. Une étude sur les enquêtes sur les déplacements des ménages a utilisé le masquage des beignets pour un ensemble de ménages sélectionnés et a examiné l'influence du masquage sur les mesures de l'environnement bâti [ 60 ]. Les résultats ont montré une réduction progressive de l'utilité de ces mesures avec des distances de déplacement plus grandes. Une étude sur la localisation des cambriolages a déterminé l'effet du masquage sur les mesures de motifs spatiaux ponctuels (indice de voisinage le plus proche) et sur les mesures de regroupement après agrégation spatiale (Moran&# x2019s I) [ 47 ]. Les résultats ont indiqué des effets très mineurs du masquage géographique pour des déplacements allant jusqu'à 250 m. Une étude utilisant des versions masquées de points simulés a déterminé la robustesse de l'estimation de la densité du noyau [ 50 ] et a trouvé une forte influence du rayon de recherche (ou de la bande passante). Des déplacements supérieurs à 1/5e du rayon de recherche se sont avérés entraîner des différences substantielles dans les résultats finaux.

                                La littérature sur les effets du masquage géographique sur la robustesse de la technique d'analyse spatiale est relativement limitée. Cependant, des leçons peuvent être tirées du corpus beaucoup plus vaste de la littérature sur les effets des erreurs de position dans le géocodage sur les analyses spatiales [ 1 , 13 – 16 , 18 , 20 , 76 – 82 ]. Bien que le masquage géographique ne soit pas un type d'erreur de géocodage, l'effet net sur l'analyse spatiale est très similaire : les emplacements sont déplacés de manière systématique, ce qui introduit une certaine erreur dans les procédures d'analyse spatiale utilisant ces emplacements en entrée. La principale différence est que les déplacements dans le masquage géographique se situent dans une plage très spécifique et suivent souvent une distribution uniforme ou normale, tandis que les erreurs de position dans le géocodage suivent une distribution log-normale [16, 83]. Cela signifie qu'un ensemble d'emplacements obtenu à l'aide du géocodage contient généralement une grande proportion d'emplacements avec une erreur relativement faible (jusqu'à 100 mètres environ) et une proportion beaucoup plus petite mais non négligeable d'emplacements avec une erreur beaucoup plus grande (jusqu'à plusieurs centaines de mètres voire kilomètres). Malgré cette différence, la littérature sur le géocodage fournit des informations utiles sur les effets du déplacement de l'emplacement sur les résultats de l'analyse spatiale. En général, cette recherche suggère que les effets dépendent fortement du type de méthode d'analyse et de l'échelle spécifique de l'analyse. Par exemple, la recherche sur l'analyse de la densité du noyau suggère que la robustesse des résultats dépend fortement du rayon de recherche utilisé dans la construction du noyau [ 15 ] avec de très petites valeurs pour le rayon produisant des résultats très peu fiables. De même, la concordance avec les unités de dénombrement du recensement dépend de la taille typique des polygones utilisés, des unités plus petites entraînant des erreurs d'analyse plus importantes [15, 84].

                                Alors que la plupart des études ont examiné l'effet du masquage géographique à l'aide de procédures d'analyse spatiale très spécifiques, d'autres approches moins techniques ont également été utilisées. Par exemple, [62, 64] ont utilisé des sujets d'étude humains pour identifier l'effet des techniques de masquage sur l'impact visuel des motifs ponctuels.

                                11. Alternatives au masquage

                                Les méthodes de masquage géographique sont en cours de développement depuis plus de 10 ans. Malgré le développement de plusieurs techniques de masquage différentes, il n'y a pas de consensus général sur la technique la plus adaptée à une tâche particulière. Sur la base des progrès réalisés dans le développement et le test des techniques de masquage, il n'est pas clair si les progrès du masquage géographique conduiront à l'adoption et à la recommandation à grande échelle d'un ensemble particulier de techniques. Il vaut donc la peine d'examiner les alternatives disponibles. Ces alternatives se répartissent en plusieurs catégories.

                                Une approche du masquage géographique plus traditionnel consiste à utiliser des manipulations spatiales plus complexes des données. Les approches proposées incluent le lissage spatial [ 85 ], l'imputation multiple [ 86 ] et la programmation linéaire [ 65 ]. Bien que ces méthodes manipulent les emplacements d'origine à l'aide de méthodes d'analyse spatiale, elles ne relèvent pas de ce que l'on appelle communément les techniques de masquage géographique.

                                Une alternative plus radicale au masquage géographique est l'utilisation de données synthétiques. Dans cette approche, un ensemble de données est créé qui a des propriétés très similaires à celles des données d'origine, mais les identités de tous les individus ont été modifiées. Cette approche a été développée avec succès pour les jeux de données tabulaires [ 87 ].

                                Les agents logiciels présentent une autre alternative. Dans cette approche, un logiciel est utilisé pour fournir un accès contrôlé aux enregistrements de données individuelles d'origine sans divulguer de détails identifiables [ 88 ]. Les résultats de l'analyse sont renvoyés en fonction des enregistrements individuels. Cette approche ne souffre pas des limitations présentées par la diffusion de données agrégées spatialement. On craint que certaines propriétés des données d'origine puissent être déduites des résultats de l'analyse, mais en général, le risque de réidentification est beaucoup plus faible par rapport à la publication d'ensembles de données masqués au niveau individuel [ 88 ]. Bien que très prometteuse dans son concept, l'utilisation d'agents logiciels pour gérer des ensembles de données de santé confidentiels n'est pas très répandue, en partie à cause des défis liés à l'établissement de l'infrastructure informatique sécurisée pour mettre en œuvre l'approche.

                                Une autre alternative encore consiste à utiliser des méthodes d'agrégation flexibles qui sont beaucoup plus fines que les unités de recensement traditionnelles, mais qui ne révèlent pas les emplacements individuels exacts [ 89 ]. Ces méthodes d'agrégation flexibles fournissent une mesure facilement quantifiable du risque de réidentification, tout en minimisant en même temps le degré d'agrégation pour limiter la diminution de l'utilité des données.

                                Bien qu'un certain nombre d'alternatives au masquage géographique aient émergé, il n'y a pas eu d'études comparatives pour examiner les forces relatives de diverses approches pour une application spécifique. En conséquence, il n'y a actuellement aucune indication claire sur le moment où la méthode de masquage géographique doit être utilisée et quand des alternatives doivent être envisagées.

                                Le corpus croissant de connaissances sur le masquage géographique indique qu'il est possible de fournir une estimation quantitative du degré de confidentialité fourni par une technique de masquage spécifique pour une zone d'étude donnée. Il est également possible de déterminer quantitativement les effets du masquage géographique sur la robustesse de techniques analytiques spécifiques. Cela suggère que trouver un équilibre entre la protection de la confidentialité et l'utilité des données est techniquement possible pour un scénario donné. Malgré ces progrès récents, il n'existe à l'heure actuelle aucune méthode de masquage géographique universellement acceptée ou approuvée. Les agences de recherche et de financement ne fournissent aucune indication sur les méthodes de masquage à utiliser ou sur la manière de les utiliser.

                                Cet écart peut probablement être attribué à un certain nombre de facteurs. Premièrement, alors que la sensibilisation aux problèmes de confidentialité est élevée, la littératie spatiale chez la plupart des chercheurs en santé ne l'est pas. Les techniques de géocodage et d'analyse spatiale de base sont devenues largement utilisées dans la recherche en santé publique, mais des sujets tels que le géocodage inversé, le masquage géographique et le k-anonymat spatial ne font pas encore partie du vocabulaire de la recherche en santé publique traditionnelle. Deuxièmement, le nombre d'études sur le masquage géographique est encore relativement faible et la communauté des chercheurs n'a pas présenté d'arguments très solides en faveur d'un ensemble particulier de méthodes qui seraient efficaces pour une gamme de scénarios différents. Troisièmement et peut-être le plus important, il n'est pas clair que le masquage géographique représente la meilleure alternative parmi plusieurs approches pour protéger la confidentialité tout en offrant un accès contrôlé aux données individuelles à des fins d'analyse et de surveillance. Bien que le masquage géographique soit clairement prometteur, il est limité dans ce qui peut être accompli techniquement et des approches alternatives peuvent s'avérer plus efficaces pour atteindre les mêmes objectifs généraux pour des applications spécifiques.

                                Cela suggère un certain nombre de voies différentes pour de futures recherches. Premièrement, la recherche sur le masquage géographique en est clairement à ses débuts et des travaux supplémentaires sont nécessaires pour comparer les approches existantes et en développer de nouvelles. Deuxièmement, des directives techniques sont nécessaires sur l'utilisation du masquage géographique. Bien que les décisions sur l'opportunité et la manière de publier des données de santé géoréférencées au niveau individuel ne soient évidemment pas basées uniquement sur des critères techniques, une meilleure compréhension des possibilités et des limites du masquage géographique devrait contribuer à des décisions plus éclairées. Troisièmement, plusieurs alternatives au masquage géographique ont été développées et des recherches sont nécessaires pour comparer les forces et les faiblesses de ces approches par rapport aux techniques de masquage plus établies.

                                Les chercheurs, quant à eux, publient des cartes en masquant géographiquement des emplacements confidentiels, en l'absence de directives claires sur la meilleure façon d'y parvenir. Il est conseillé à tout chercheur publiant de telles cartes de se familiariser avec les différentes techniques disponibles et les risques de réidentification associés.


                                Concepts d'adressage courants : une brève étude de cas

                                Afin de vérifier si l'ensemble de concepts présenté précédemment est suffisamment large, et pour renforcer notre argument en faveur des types de ressources définis dans cet article, considérons le cas de l'analyse et du traitement des adresses de la liste des bureaux tenue par une organisation mondiale , comme Greenpeace. Le tableau 1 répertorie 20 adresses de bureaux de Greenpeace, note de bas de page 2 chacun dans un pays différent. Nous n'avons évidemment pas choisi d'adresses postales sur la base d'un P.O. box ou autre, puisque nous nous intéressons à la structure réelle de chaque adresse et aux noms de lieux qu'elles contiennent. Le tableau 2 présente les mêmes adresses, en séparant leurs composantes de base, selon notre modèle (type de voie, nom de voie, numéro de bâtiment, nom de bâtiment, quartier, ville, état, pays, code postal et complément). Dans cette compilation, aucune adresse n'inclut tous ces composants et aucun composant n'est utilisé par toutes les adresses. Des noms de lieux célèbres sont employés comme adresses : par exemple, la succursale mexicaine de Greenpeace est située dans une rue ou une avenue nommée Andalucia, qui est aussi le nom d'une région espagnole. De telles ambiguïtés rendent les moteurs de recherche Web actuels inefficaces lorsque nous tentons de localiser des pages faisant référence à des emplacements géographiques spécifiques [2]. Ce que nous avons appelé États dans l'exemple et dans le reste de l'article peut se référer à n'importe quel niveau hiérarchique entre ville et pays, comme les comtés, les provinces ou les territoires.

                                En supposant qu'il n'y ait pas de norme universelle, nous pouvons maintenant souligner quelques traits communs entre tous ces systèmes d'adressage, compte tenu de l'intention d'attribuer des coordonnées à chaque adresse pouvant être reconnue par les autorités postales. Les notions de rue (ou, plus généralement, rue), numéro du bâtiment (ou alors nom/identifiant), quartier, et ville ou alors municipalité semblent être à peu près les mêmes partout, même si dans certaines situations des concepts de nature plus cadastrale, comme bloquer, sont utilisés comme références d'adresse. Codes postaux sont également utiles dans les adresses, car largement utilisées par la population, même si elles prennent des formats différents dans chaque partie du monde. Des adresses incomplètes, inexactes ou difficiles à utiliser peuvent être associées à références indirectes, qui peuvent être considérés comme des points de repère distincts dans la ville ou des points largement connus et reconnus par le public. Ces références peuvent être considérées comme des points, dans le cas où leurs dimensions sont petites, ou comme des zones, dans le cas où leur nom est associé à un vaste terrain.

                                En conclusion, nous observons que nous pouvons traiter les adresses comme des types de données abstraits, dans lesquels un sous-ensemble des composants est requis pour déterminer l'emplacement de manière univoque. Le rôle de chaque composant varie dans l'adresse. Il y a:

                                Composants qui indiquent l'emplacement uniquement lorsqu'ils sont utilisés comme un ensemble intégré par exemple, les numéros de bâtiment n'ont pas de sens en eux-mêmes, ils doivent toujours être associés à une voie de circulation

                                Composants qui établissent un raffinement sur l'emplacement fourni par d'autres composants ou un ensemble de composants, comme dans le cas des compléments

                                Composants qui se rapprochent hiérarchiquement de l'emplacement, tels que les codes postaux

                                Composants qui indiquent l'emplacement dans un certain contexte, tels que les noms de bâtiments ou les quartiers, pour lesquels il est souvent nécessaire d'établir la ville dans laquelle ils existent, pour la désambiguïsation.

                                En considérant la sémantique du système d'adressage et de ses composants telle que présentée précédemment, et en observant le fonctionnement de l'adressage dans plusieurs parties du monde, on peut déduire une hiérarchie d'approximations successives de la localisation géographique de l'adresse (Fig. 3).

                                Hiérarchie des concepts d'adressage.

                                En utilisant une base de données modélisée comme proposé dans cet article, et compte tenu de la hiérarchie de la figure 3, des applications peuvent être développées de sorte que (1) le géocodage puisse s'arrêter si le degré de précision requis est atteint, ou (2) un emplacement peut être fourni même en l'absence de certains composants d'adressage. A titre d'exemple du premier cas, considérons une application de géomarketing avec une couverture nationale, pour laquelle il suffit d'identifier la ville de résidence de chaque client enregistré, afin de déterminer l'emplacement idéal pour un nouveau magasin. Dans le second cas, considérons un système de santé publique sur l'épidémiologie, qui doit localiser le plus précisément possible la résidence des personnes ayant été infectées par une maladie contagieuse. Dans les zones consolidées de la ville, la localisation est obtenue grâce à des adresses individuelles dans des développements récents, pour lesquels les informations d'adressage ne sont pas assez détaillées, la localisation est approximative en utilisant les limites du quartier.

                                Afin de pouvoir reconnaître et localiser des adresses telles que celles présentées dans cette section, des bases de données contenant les noms de lieux et leur localisation sont nécessaires. Des bases de données d'adressage sont généralement disponibles dans ces pays dans le cadre d'une stratégie nationale d'infrastructure de l'information, présentant une qualité élevée et un faible coût. Les fichiers TIGER (Topologically Integrated Geographic Encoding and Referencement) sont le meilleur exemple de ce type d'informations [27]. Les entreprises du secteur privé ont accès à ce matériel et investissent dans son amélioration, démontrant ainsi que les bases de données d'adresses peuvent être un atout économique précieux. Au Royaume-Uni, l'Ordnance Survey produit et vend des licences sur une base de données de points d'adresse qui contient plus de 25 millions d'emplacements, ainsi qu'une liste de coordonnées pour les 1,6 million de codes postaux distincts dans le pays [16]. Même si une base de données d'adressage est disponible, il existe de nombreuses villes dans lesquelles le système d'adressage est considérablement différent des cas américain et britannique, et donc les méthodes de géocodage fournies par les progiciels SIG commerciaux ne fonctionneront pas comme prévu.

                                Les pays émergents, comme le Brésil et l'Inde, ne disposent généralement pas d'une base de données d'adressage aussi complète et organisée à partir de laquelle générer avec précision et rapidité des positions à partir d'adresses. Les conséquences pour les applications géographiques urbaines sont multiples, car le géoréférencement des données ponctuelles peut prendre beaucoup plus de temps, ce qui entraîne une mauvaise qualité des données en raison de problèmes de cohérence et de précision. De plus, les grandes villes des pays émergents contiennent souvent des bidonvilles, des bidonvilles et d'autres types de quartiers défavorisés caractérisés par une occupation irrégulière, et souvent dans ces quartiers il n'y a même pas de plaque d'adresse à chaque logement. En outre, dans de nombreux cas, la base de données d'adressage n'est pas aussi complète qu'elle devrait l'être, en raison du manque d'informations ou du coût de génération et de maintenance d'une base de données détaillée dans des endroits où la croissance rapide et chaotique et l'occupation irrégulière des terres sont prédominantes.

                                L'utilité des bases de données d'adressage géoréférencées est telle que, dans de nombreux endroits, les administrations locales et les prestataires de services d'infrastructure investissent en permanence dans leur création et leur maintenance, en utilisant les informations des cadastres alphanumériques et des sources cartographiques classiques. Comme il n'y a souvent pas de norme établie pour la création de telles ressources d'information, les efforts régionaux ou nationaux qui doivent travailler avec des quantités massives de données géoréférencées ponctuellement, en particulier dans des domaines tels que l'épidémiologie et la lutte contre la criminalité, sont gravement entravés [17]. Nous procédons maintenant à la définition d'outils et de techniques de géocodage à partir du schéma de base de données proposé, et en considérant la hiérarchie des concepts d'adressage.


                                Unité 46 : Correspondance d'adresses

                                Les exemples suivants sont des problèmes typiques où le géocodage d'adresse peut être appliqué. Souvent, il suffit de visualiser les informations sur une carte pour répondre aux questions. Cependant, le processus de géocodage est fréquemment une étape préliminaire utilisée dans la préparation des informations pour une analyse spatiale ultérieure.

                                Exemples d'applications

                                Vous maintenez plusieurs bases de données, y compris des informations sur les entreprises participantes, les individus, les médecins et les hôpitaux locaux et les installations de diagnostic. Il est difficile de visualiser où vivent les patients, où se trouvent les médecins et les établissements en triant et en étudiant ces bases de données. Heureusement, toutes les bases de données incluent un champ contenant des informations d'adresse.

                                Résultats d'apprentissage

                                Conscience:

                                Compétence:

                                Les objectifs d'apprentissage sont d'évaluer efficacement l'exactitude des fichiers de base et des fichiers d'adresses, de normaliser les fichiers d'adresses, d'évaluer les non-correspondances, de comprendre le processus de réappariement et d'effectuer une analyse de reclassement de base à l'aide des informations d'attribut fournies dans le fichier d'adresses. (Durée suggérée : une unité de 50 minutes)

                                Unités préparatoires :

                                Unité 19 Planification d'une base de données tabulaire

                                Contexte hautement recommandé pour l'instructeur

                                Unité 016 NCGIA Core Curriculum in GIScience : Géoréférencement discret

                                Conscience

                                Objectifs d'apprentissage:

                                  • Sources gouvernementales
                                    • Disponible sur CD, dans les bibliothèques, en ligne (http://www.census.gov/geo/www/tiger)
                                    • Doit être converti au format logiciel approprié
                                    • Fichiers linéaires organisés par comté et contenant

                                    Limites statistiques du recensement

                                      • Normalement disponible uniquement dans le format pris en charge par le comté
                                      • Nécessite une conversion au format logiciel approprié
                                      • Fournisseurs de données
                                        • Peut être acheté auprès d'une variété de fournisseurs
                                        • Fichiers TIGER améliorés
                                        • Peut être plus précis et à jour (emplacement et attribut)
                                        • Converti au format logiciel spécifique

                                        (Graphique 1 : Exemple de route GBF : encart graphic1.bmp)

                                          • Peut être acheté des fichiers d'adresses, généralement collectés via des entrées de pages jaunes
                                            • Disponible en ligne, sur CD-ROM (unité 016 NCGIA Core Curriculum in GeoScience, section 5.1.1)
                                              • Identification de l'emplacement
                                                • Installations d'implantation
                                                  • Détermination des modèles :
                                                    • Livraison:
                                                      • Analyse de marché
                                                        • À tout moment, l'emplacement ne peut pas être directement géoréférencé
                                                          • La plupart des packages de bureau ont des capacités de correspondance d'adresses
                                                          • Certains packages sont livrés avec des fichiers de base géographique
                                                          • Le logiciel doit intégrer la capacité de :
                                                            • Soyez tolérant aux erreurs dans les fichiers d'adresses
                                                            • Permettre l'examen et l'examen des correspondances « presque »
                                                            • Prévoir de changer le
                                                              • Fonctionne à la fois en mode batch séquentiel et en mode événement unique
                                                                • Fichiers de référence (Fichiers de base géographique (GBF))
                                                                  • Tableau des adresses et autres informations sur les attributs
                                                                    • Logiciel

                                                                    Compétence

                                                                    Objectifs d'apprentissage:

                                                                    1. Effectuez une analyse visuelle des couches de données ponctuelles résultantes.
                                                                    2. Exercice pratique : géocodage .

                                                                    c'est-à-dire code postal, adresse dans un seul champ, zip+4

                                                                    Maison individuelle avec rang, c'est-à-dire numéro de maison, rang le long d'une rue, aucune information sur ce qui se trouve à gauche ou à droite de la rue Rues américaines avec des zones, c'est-à-dire maison, rang le long d'une rue, informations sur ce qui se trouve à gauche ou à droite côté de la rue (Exemple de fichier de base de code postal : lien vers ziptble.jpg)

                                                                      • Les adresses fournissent des informations sur le lieu d'un événement ou d'un incident
                                                                      • Généralement collecté sans tenir compte du format standard : pas de méthode standard pour identifier les caractéristiques
                                                                        • Contiennent souvent des erreurs et des omissions
                                                                          • Les fichiers peuvent être commercialement standardisés en utilisant le format U.S. Postal Service (http://www.usps.gov/ncsc/vendors)
                                                                          • Plus le fichier d'adresses est complet et standardisé, plus le processus d'appariement d'adresses est réussi
                                                                            • Préparer les données
                                                                              • Identifier les fichiers de base et d'adresse
                                                                              • Définir le style d'adresse
                                                                                • Définir des stratégies de correspondance pour les fichiers de référence et d'adresses

                                                                                Quels champs seront mis en correspondance ?

                                                                                  • Standardiser les fichiers de base et d'adresses
                                                                                  • Préparez le fichier de base : séparez les données dans des champs individuels et normalisez les abréviations (cela est généralement fait par le fournisseur de données)
                                                                                  • Indice
                                                                                    • Préparez le tableau d'adresses en séparant les données en champs individuels et en les triant (ceci est fait par le logiciel)
                                                                                    • Faire correspondre le fichier d'adresses au GBF
                                                                                      • Configurez le processus de correspondance en identifiant comment le fichier d'adresses sera lié au fichier de référence de base en définissant les méthodes de comparaison (ceci est fait par le logiciel en fonction des paramètres que vous avez définis)
                                                                                        • Compare le fichier d'adresses au fichier de référence de base champ par champ
                                                                                          • Compare l'adresse caractère par caractère
                                                                                            • Spécifier les probabilités pour calculer le score de correspondance
                                                                                              • Faire le match
                                                                                                • Le logiciel évalue la proximité d'une correspondance
                                                                                                • Interpole le long du réseau routier pour déterminer l'emplacement de l'adresse
                                                                                                  • Créer la nouvelle couche de données géographiques contenant un point pour chaque adresse trouvée
                                                                                                    • Afficher la couche de données de points géographiques résultante
                                                                                                    • Relier les nouvelles informations à d'autres informations

                                                                                                    5. Exercice pratique : géocodage Les capacités de géocodage d'adresses sont disponibles dans la plupart des logiciels de bureau. Cet exercice utilise ArcView version 3.0a. Les ensembles de données et un projet ArcView pour l'exercice peuvent être téléchargés. Ils sont au format de fichier de formes ArcView et doivent être décompressés avant d'être utilisés.

                                                                                                    Vous travaillez pour l'Office of Economic Development à San Antonio, au Texas, et effectuez une étude de marché pour déterminer combien d'usines de fabrication d'avions se trouvent à San Antonio et où elles se trouvent. Vous souhaitez utiliser le géocodage des adresses pour créer une carte des installations. Les trois étapes que vous suivrez sont : 1) préparer les données 2) faire correspondre les adresses et, 3) afficher les résultats .

                                                                                                    Préparer les données : Vous obtenez les adresses des usines de fabrication par le biais des pages jaunes électroniques ( http://www.bigbook.com est l'un des nombreux endroits à consulter.) Vous créez une base de données contenant ces informations et obtenez un fichier de référence de base géographique d'un fournisseur de données local. Votre troisième élément d'information est l'emplacement des aérodromes dans la région de San Antonio. Vous ouvrez votre logiciel de bureau SIG et ajoutez votre base de données (les avionneurs) ainsi que les deux couches de données géographiques (aéroports et rues). (lien vers global.jpg)

                                                                                                    Vous êtes maintenant prêt à indexer le fichier de base géographique afin que le logiciel puisse comparer les informations de la table d'adresses des constructeurs d'avions (lien vers mantable.jpg) à votre fichier de base géographique (rues) (lien vers sttable.jpg) . Prenons le cas de Zee Systems, Inc., qui a un bureau au 406 West Rhapsody Drive. Le logiciel prendra l'adresse de la base de données. Il recherchera ensuite tous les segments de rue Rhapsody Drive dans le fichier de base géographique (lien vers rhaptable.jpg) . En utilisant les règles de correspondance que vous avez configurées, il exclura toutes les rues qui se trouvent sur East Rhapsody, identifiera le segment allant de 306 à 598 West Rhapsody et interpolera que le bureau se trouve à environ 2/3 de la rue du côté droit. (lien vers rhapsody.jpg) Une fois la correspondance identifiée, un nouvel enregistrement est ajouté à votre couche de données ponctuelles des installations de fabrication d'avions et les résultats sont affichés sur votre carte.

                                                                                                    Pour que le logiciel effectue cette comparaison entre une couche de données géographiques et une table d'adresses, vous devez effectuer plusieurs étapes. La première étape consiste à déterminer le type de fichier de base dont vous disposez. Dans cet exemple, vous utilisez un fichier au format US Streets (lien vers ustreet.jpg) . Lorsque vous utilisez le format de rue américain, votre base de données doit contenir des champs contenant l'adresse de gauche, l'adresse de gauche vers, l'adresse de droite de, l'adresse de droite de et le nom de la rue. Les champs facultatifs peuvent contenir le type de rue, le préfixe ou le suffixe et la direction. (lien vers sttable.jpg) . Notez que les champs nécessaires sont disponibles. Cette base de données est compliquée en ayant deux champs de direction (préfixe et suffixe). Vous pouvez spécifier les deux lors de la configuration des paramètres d'index. Dans ArcView, vous devez définir les préférences de thème pour reconnaître que la couche de données contient des informations sur les rues américaines (lien vers index.jpg) . Une fois que vous avez défini les préférences, le logiciel vous demande de créer l'index. Le processus d'indexation permet au logiciel de faire la comparaison entre la couche de base géographique et le fichier d'adresses.

                                                                                                    Faites correspondre les adresses : Vous êtes maintenant prêt à géocoder votre table de fabricants. Vous mettez en place le lien entre le fichier de base géographique et le champ d'adresse dans la table des fabricants. Dans ArcView, vous choisirez Afficher, Géocoder les adresses (lien vers match.jpg) et configurer la relation (lien vers link.jpg) . Votre thème de référence est le fichier de base géographique (rues). Vous avez déjà défini le type de fichier de base que vous utilisez sur US Streets. Aircraft Manufacturer est la table d'adresses que vous devez indiquer au logiciel que vous utiliserez Adresse comme champ d'adresse. Vous devez également créer un nouveau fichier qui contiendra le point où se trouve chaque fabricant. Lorsque vous choisissez de faire correspondre les deux bases de données, le logiciel prend le premier enregistrement dans la table d'adresses et essaie de trouver la rue appropriée (lien vers parsing.jpg ). Il parcourt chaque enregistrement et identifie les enregistrements qui correspondent et ceux qui ne le sont pas (lien vers finish1.jpg ). Notez que 73 % des enregistrements d'adresses ont été appariés. Dans cet exemple, ne vous inquiétez pas des non-correspondances.

                                                                                                    Afficher les résultats : Le logiciel crée maintenant la nouvelle couche de données ponctuelles contenant les entreprises aéronautiques (lien results.jpg) . Vous pouvez voir que les installations de fabrication sont regroupées autour de l'aéroport international de San Antonio et de la base aérienne de Kelly.

                                                                                                    La maîtrise

                                                                                                    Objectifs d'apprentissage:

                                                                                                    2. Terminez le processus de correspondance, y compris l'évaluation des enregistrements non appariés

                                                                                                    Standardiser une table d'adresses

                                                                                                    3. Exercice pratique : le processus de rematch .

                                                                                                    4. Exercice pratique : créer une carte à l'aide d'informations attributaires .

                                                                                                    Les sujets:

                                                                                                      • Problèmes généraux
                                                                                                        • Le géocodage est basé sur des hypothèses
                                                                                                        • les adresses sont dans une plage et équidistantes le long de la plage
                                                                                                        • les nombres impairs sont d'un côté de la rue et pairs de l'autre
                                                                                                        • les lieux ont des adresses
                                                                                                          • Fichier de base
                                                                                                            • Pas à jour : c'est-à-dire, les rues ne figurent pas dans le fichier
                                                                                                            • Emplacements inexacts
                                                                                                            • Rues incorrectes ou non identifiées
                                                                                                            • Plages d'adresses incorrectes ou non identifiées
                                                                                                            • Attribution incohérente, c'est-à-dire que I10 est également McArthur Freeway
                                                                                                            • Incomplet
                                                                                                            • Inexacte
                                                                                                            • Non standardisé
                                                                                                            • Sensibilité à l'orthographe trop élevée ou trop faible
                                                                                                            • Le score à considérer est trop élevé ou trop bas
                                                                                                              • Évaluer les non-appariés pour déterminer le problème
                                                                                                              • fichier GBF
                                                                                                                • Augmenter la zone géographique couverte
                                                                                                                • Ajouter de nouveaux développements
                                                                                                                • Standardiser
                                                                                                                • Ajuster la recherche d'index (règles de blocage)
                                                                                                                • Ajuster les poids de correspondance (à quel point une correspondance est-elle nécessaire)
                                                                                                                • Ajuster le score minimum pour être considéré comme un match

                                                                                                                Dans l'exemple précédent, 73 % du fichier d'adresses correspondait à un emplacement géographique dans le GBF. Sur la base des paramètres initiaux, il y avait une correspondance partielle et trois adresses qui ne correspondaient pas. Le processus de rematch vous permet d'évaluer pourquoi l'enregistrement ne correspond pas, de résoudre les problèmes et de trouver d'autres correspondances. Les enregistrements non appariés sont causés par : des enregistrements de fichier d'adresses incorrects ou incomplets, des erreurs ou des omissions dans le fichier de base géographique, ou en définissant de manière incorrecte les préférences pour les données à apparier.


                                                                                                                Exigences du programme :

                                                                                                                Loi sur les procédures administratives et Loi sur la flexibilité réglementaire

                                                                                                                Cette règle de procédure d'agence n'est pas soumise à l'obligation de fournir un préavis et la possibilité de commenter le public (voir 5 U.S.C. 553 (b) (A)). Étant donné qu'un avis de réglementation proposée et une opportunité de commentaire public ne sont pas requis par le titre 5, le Code des États-Unis (USC) 553 ou toute autre loi, une analyse de flexibilité réglementaire n'est pas requise et n'a pas été préparée (5 USC 603 (a) ).


                                                                                                                Normaliser les données pour permettre l'analyse

                                                                                                                Comme intermède nécessaire et utile pour développer une connaissance pratique des algorithmes de clustering, explorons quelques-unes des situations typiques auxquelles vous pouvez être confronté lors de la normalisation des données LinkedIn. Dans cette section, nous allons implémenter un modèle commun pour normaliser les noms d'entreprise et les intitulés de poste. Comme exercice plus avancé, nous allons également brièvement détourner et discuter du problème de la désambiguïsation et du géocodage des références géographiques à partir des informations de profil LinkedIn. (En d'autres termes, nous essaierons de convertir les étiquettes des profils LinkedIn tels que « Greater Nashville Area » en coordonnées pouvant être tracées sur une carte.)

                                                                                                                Le principal artefact des efforts de normalisation des données est que vous pouvez compter et analyser les caractéristiques importantes des données et activer des techniques avancées d'exploration de données telles que le clustering. Dans le cas des données LinkedIn, nous examinerons des entités telles que les titres de poste et les emplacements géographiques des entreprises.

                                                                                                                Normaliser et compter les entreprises

                                                                                                                Essayons de standardiser les noms d'entreprises de votre réseau professionnel. Rappelez-vous que les deux principales façons d'accéder à vos données LinkedIn sont soit en utilisant l'API LinkedIn pour récupérer par programme les champs pertinents, soit en utilisant un mécanisme légèrement moins connu qui vous permet d'exporter votre réseau professionnel sous forme de données de carnet d'adresses, qui inclut les données de base. informations telles que le nom, l'intitulé du poste, l'entreprise et les coordonnées.

                                                                                                                En supposant que vous ayez un fichier CSV de contacts que vous avez exporté depuis LinkedIn, vous pouvez normaliser et afficher les entités sélectionnées à partir d'un histogramme, comme illustré dans l'exemple 4-4.

                                                                                                                Comme vous le remarquerez dans les commentaires d'ouverture des listes de code telles que l'exemple 4-4, vous devrez copier et renommer le fichier CSV de vos connexions LinkedIn que vous avez exporté vers un répertoire particulier dans votre extraction de code source, conformément aux instructions. fourni dans « Téléchargement des connexions LinkedIn sous forme de fichier CSV ».

                                                                                                                Exemple 4-4. Normalisation simple des suffixes d'entreprise à partir des données du carnet d'adresses

                                                                                                                Ce qui suit illustre les résultats typiques de l'analyse de fréquence :

                                                                                                                Python vous permet de passer des arguments à une fonction en déréférencement une liste et un dictionnaire comme paramètres, ce qui est parfois pratique, comme illustré dans l'exemple 4-4. Par exemple, appeler f(*args, **kw) équivaut à appeler f(1,7, x=23) tant que args est défini comme [1,7] et kw est défini comme <'x' : 23 >. Voir l'annexe C pour plus de conseils Python.

                                                                                                                Gardez à l'esprit que vous devrez devenir un peu plus sophistiqué pour gérer des situations plus complexes, telles que les diverses manifestations de noms d'entreprise - comme O'Reilly Media - qui ont évolué au fil des ans. Par exemple, vous pouvez voir le nom de cette entreprise représenté par O'Reilly & Associates, O'Reilly Media, O'Reilly, Inc., ou simplement O'Reilly . 2

                                                                                                                Normaliser et compter les titres de poste

                                                                                                                Comme on pouvait s'y attendre, le même problème qui se pose avec la normalisation des noms d'entreprise se présente lors de l'examen des titres de poste, sauf que cela peut devenir beaucoup plus compliqué car les titres de poste sont beaucoup plus variables. Le tableau 4-1 répertorie quelques titres d'emploi que vous êtes susceptible de rencontrer dans une entreprise de logiciels qui incluent une certaine quantité de variation naturelle. Combien de rôles distincts voyez-vous pour les 10 titres distincts répertoriés ?

                                                                                                                Bien qu'il soit certainement possible de définir une liste d'alias ou d'abréviations qui équivaut à des titres comme PDG et PDG, il peut ne pas être pratique de définir manuellement des listes qui équivalent à des titres comme Ingénieur logiciel et Développeur pour le cas général dans tous les domaines possibles. Cependant, même pour les champs les plus compliqués dans le pire des cas, il ne devrait pas être trop difficile de mettre en œuvre une solution qui condense les données au point qu'il soit gérable pour un expert de les examiner, puis de les réintégrer dans un programme. qui peut l'appliquer de la même manière que l'expert l'aurait fait. La plupart du temps, c'est en fait l'approche que les organisations préfèrent car elle permet aux humains de s'insérer brièvement dans la boucle pour effectuer un contrôle qualité.

                                                                                                                Rappelez-vous que l'un des points de départ les plus évidents lorsque vous travaillez avec un ensemble de données est de compter les choses, et cette situation n'est pas différente. Réutilisons les mêmes concepts de la normalisation des noms d'entreprise pour implémenter un modèle de normalisation des titres de poste courants, puis effectuons une analyse de fréquence de base sur ces titres comme base initiale pour le regroupement. En supposant que vous ayez un nombre raisonnable de contacts exportés, les nuances mineures parmi les titres de poste que vous rencontrerez peuvent en fait être surprenantes, mais avant d'entrer dans le vif du sujet, introduisons un exemple de code qui établit des modèles pour normaliser les données d'enregistrement et prend une base inventaire trié par fréquence.

                                                                                                                L'exemple 4-5 inspecte les titres de poste et imprime les informations de fréquence pour les titres eux-mêmes et pour les jetons individuels qui s'y trouvent.

                                                                                                                Exemple 4-5. Standardiser les intitulés de postes communs et calculer leurs fréquences

                                                                                                                En bref, le code lit les enregistrements CSV et tente légèrement de les normaliser en séparant les titres combinés qui utilisent la barre oblique (comme un titre de « Président/PDG ») et en remplaçant les abréviations connues. Au-delà de cela, il affiche simplement les résultats d'une distribution de fréquence des titres de poste complets et des jetons individuels contenus dans les titres de poste.

                                                                                                                Ce n'est pas si différent de l'exercice précédent avec les noms d'entreprise, mais il sert de modèle de départ utile et vous donne un aperçu raisonnable de la répartition des données.

                                                                                                                Une chose remarquable à propos des résultats de l'échantillon est que le titre de poste le plus courant basé sur des correspondances exactes est « chef de la direction », qui est suivi de près par d'autres postes de direction tels que « président » et « fondateur ». Par conséquent, l'ego de ce réseau professionnel a un accès raisonnablement bon aux entrepreneurs et aux chefs d'entreprise. Les jetons les plus courants dans les titres de poste sont « Ingénieur » et « Chef ». Le jeton « Chef » est corrélé à la réflexion précédente sur les liens avec les supérieurs dans les entreprises, tandis que le jeton « Ingénieur » fournit un indice légèrement différent sur la nature du réseau professionnel. Bien que « Ingénieur » ne soit pas un jeton constitutif du titre de poste le plus courant, il apparaît dans un grand nombre de titres de poste (tels que « Ingénieur logiciel senior » et « Ingénieur logiciel ») qui apparaissent près du haut des titres de poste liste. Par conséquent, l'ego de ce réseau semble également avoir des liens avec les praticiens techniques.

                                                                                                                Dans l'analyse des données d'un titre de poste ou d'un carnet d'adresses, c'est précisément le genre d'information qui motive le besoin d'un algorithme de mise en correspondance ou de regroupement approximatif. La section suivante étudie plus en détail .

                                                                                                                Normalisation et comptage des emplacements

                                                                                                                Bien que LinkedIn inclue des informations de contact générales sur vos connexions, vous ne pouvez plus exporter d'informations géographiques générales. Cela nous amène à un problème général en science des données, à savoir que faire des informations manquantes. Et si une information géographique est ambiguë, ou a plusieurs représentations possibles ? Par exemple, "New York", "New York City", "NYC", "Manhattan" et "New York Metropolitan Area" sont tous liés au même emplacement géographique, mais peuvent avoir besoin d'être normalisés pour un comptage correct.

                                                                                                                En tant que problème généralisé, lever l'ambiguïté des références géographiques est assez difficile. La population de la ville de New York est peut-être suffisamment élevée pour que vous puissiez raisonnablement en déduire que « New York » fait référence à la ville de New York, New York, mais qu'en est-il de « Smithville » ? Il existe de nombreux Smithvilles aux États-Unis, et la plupart des États en ayant plusieurs, un contexte géographique au-delà de l'État environnant est nécessaire pour prendre la bonne décision. Ce ne sera pas le cas qu'un endroit très ambigu comme "Greater Smithville Area" soit quelque chose que vous verrez sur LinkedIn, mais il sert à illustrer le problème général de lever l'ambiguïté d'une référence géographique afin qu'elle puisse être résolue à un ensemble spécifique de coordonnées.

                                                                                                                Désambiguïser et géocoder la localisation des connexions LinkedIn est légèrement plus facile que la forme la plus généralisée du problème, car la plupart des professionnels ont tendance à s'identifier à la plus grande zone métropolitaine à laquelle ils sont associés, et il existe un nombre relativement limité de ces régions. Bien que ce ne soit pas toujours le cas, vous pouvez généralement utiliser l'hypothèse grossière que l'emplacement auquel il est fait référence dans un profil LinkedIn est un emplacement relativement bien connu et est susceptible d'être la région métropolitaine «la plus populaire» de ce nom.

                                                                                                                Dans les cas où des informations précises manquent, est-il possible de faire des estimations raisonnables ? Maintenant que LinkedIn n'exporte plus les emplacements de vos connexions, existe-t-il un autre moyen de déduire peut-être où vivent et travaillent vos contacts ?

                                                                                                                Il s'avère que nous pouvons faire des suppositions éclairées pour toute connexion en notant l'entreprise dans laquelle ils travaillent et en effectuant une recherche géographique sur l'adresse de l'entreprise. Cette approche peut échouer pour les entreprises qui ne répertorient pas une adresse publiquement. Un autre mode d'échec existe lorsque l'employeur de notre connexion a des bureaux dans plusieurs villes et que notre recherche géographique renvoie la mauvaise adresse. Néanmoins, dans une première approche, nous pouvons commencer à connaître les emplacements géographiques de nos contacts de cette façon.

                                                                                                                Vous pouvez installer un package Python appelé geopy via pip installer geopy il fournit un mécanisme généralisé pour transmettre des étiquettes pour les emplacements et récupérer des listes de coordonnées qui pourraient correspondre. Le package geopy lui-même est un proxy pour plusieurs fournisseurs de services Web tels que Bing et Google qui effectuent le géocodage, et l'avantage de son utilisation est qu'il fournit une API standardisée pour l'interfaçage avec divers services de géocodage afin que vous n'ayez pas à le faire manuellement. requêtes d'artisanat et réponses d'analyse. Le référentiel de code geopy GitHub est un bon point de départ pour lire la documentation disponible en ligne.

                                                                                                                L'exemple 4-6 illustre l'utilisation de geopy avec l'API de géocodage Google Maps. Pour exécuter le script, vous devrez demander une clé API à la console des développeurs Google.

                                                                                                                Exemple 4-6. Géocoder des emplacements avec l'API Google Maps

                                                                                                                Ensuite, nous parcourons toutes nos connexions et effectuons une recherche géographique du nom dans la colonne « Société » du fichier CSV, comme illustré dans l'exemple 4-7. Des exemples de résultats de ce script suivent et illustrent la nature de l'utilisation d'une étiquette ambiguë comme « Nashville » pour résoudre un ensemble de coordonnées :

                                                                                                                Exemple 4-7. Géocodage des noms d'entreprises

                                                                                                                Un exemple de sortie de l'exécution de l'exemple 4-7 ressemble à ceci :

                                                                                                                Plus loin dans ce chapitre, nous utiliserons les emplacements renvoyés par le géocodage dans le cadre d'un algorithme de clustering qui peut être un bon moyen d'analyser votre réseau professionnel. Tout d'abord, nous allons examiner une autre visualisation utile appelée un cartogramme ça peut être intéressant.

                                                                                                                Selon le nombre d'appels d'API à traiter, l'exécution du code de l'exemple 4-7 peut avoir pris un certain temps. Le moment est venu de sauvegarder ces données traitées. JSON est un format universel utile pour le faire, et le code de l'exemple 4-8 illustre comment.

                                                                                                                Exemple 4-8. Enregistrement des données traitées au format JSON

                                                                                                                Dans « k-means clustering », nous commencerons par lire ces données enregistrées.

                                                                                                                Visualisation des emplacements avec des cartogrammes

                                                                                                                Un cartogramme est une visualisation qui affiche une géographie en mettant à l'échelle les limites géographiques en fonction d'une variable sous-jacente. Par exemple, une carte des États-Unis peut mettre à l'échelle la taille de chaque État afin qu'elle soit plus grande ou plus petite qu'elle ne devrait être basée sur une variable telle que le taux d'obésité, le niveau de pauvreté, le nombre de millionnaires ou toute autre variable. La visualisation résultante ne présenterait pas nécessairement une vue entièrement intégrée de la géographie puisque les états individuels ne s'emboîteraient plus en raison de leur mise à l'échelle. Pourtant, vous auriez une idée de l'état général de la variable qui a conduit à la mise à l'échelle pour chaque état.

                                                                                                                Une variante spécialisée d'un cartogramme appelée Cartogramme de Dorling substitue une forme, telle qu'un cercle, pour chaque unité de surface sur une carte dans son emplacement approximatif et met à l'échelle la taille de la forme en fonction de la valeur de la variable sous-jacente. Une autre façon de décrire un cartogramme de Dorling est un « diagramme à bulles géographiquement regroupé ». C'est un excellent outil de visualisation car il vous permet d'utiliser votre instinct pour savoir où les informations doivent apparaître sur une surface cartographique 2D, et il est capable d'encoder des paramètres à l'aide des propriétés intuitives des formes, comme la zone et la couleur.

                                                                                                                Étant donné que le service de géocodage Google Maps renvoie des résultats qui incluent l'état de chaque ville géocodée, profitons de cette information et construisons un cartogramme Dorling de votre réseau professionnel où nous mettrons à l'échelle la taille de chaque état en fonction du nombre de contacts que vous avez là-bas. La boîte à outils de visualisation de pointe D3, comprend la plupart des machines pour un cartogramme Dorling et fournit un moyen hautement personnalisable d'étendre la visualisation pour inclure d'autres variables si vous le souhaitez. D3 comprend également plusieurs autres visualisations qui transmettent des informations géographiques, telles que des cartes thermiques, des cartes de symboles et des cartes choroplèthes, qui devraient être facilement adaptables aux données de travail.

                                                                                                                Il n'y a vraiment qu'une seule tâche de collecte de données qui doit être effectuée afin de visualiser vos contacts par état, et c'est l'analyse des états à partir des réponses du géocodeur. Le géocodeur Google Maps renvoie une sortie structurée qui nous permet d'extraire le nom de l'état de chaque résultat.

                                                                                                                L'exemple 4-9 illustre comment analyser la réponse du géocodeur et écrire un fichier JSON qui peut être chargé par une visualisation de cartographie Dorling basée sur D3. Étant donné que la visualisation des données que nous préparons se concentre uniquement sur les États américains, nous devons filtrer les emplacements des autres pays. Pour ce faire, nous avons écrit une fonction d'assistance, checkIfUSA , qui renvoie un booléen True si l'emplacement se trouve aux États-Unis.

                                                                                                                Exemple 4-9. Analyser les états à partir des résultats du géocodeur Google Maps à l'aide d'une expression régulière

                                                                                                                Des exemples de résultats suivent et illustrent l'efficacité de cette technique :

                                                                                                                Avec la possibilité de distiller des abréviations d'état fiables à partir de vos contacts LinkedIn, vous pouvez désormais calculer la fréquence à laquelle chaque état apparaît, ce qui est tout ce qui est nécessaire pour conduire une visualisation de cartographie Dorling clé en main avec D3. Un exemple de visualisation d'un réseau professionnel est présenté à la Figure 4-3. Malgré le fait que la visualisation ne soit constituée que de nombreux cercles soigneusement affichés sur une carte, il est relativement évident quels cercles correspondent à quels états (notez que dans de nombreux cartogrammes, l'Alaska et Hawaï sont affichés dans le coin inférieur gauche de la visualisation, comme c'est le cas le cas de nombreuses cartes qui les affichent sous forme d'incrustations). Le survol des cercles produit des info-bulles qui affichent le nom de l'état par défaut, et une personnalisation supplémentaire ne serait pas difficile à mettre en œuvre en respectant les meilleures pratiques standard D3. Le processus de génération de la sortie finale pour la consommation par D3 implique un peu plus que la génération d'une distribution de fréquence par état et sa sérialisation en tant que JSON.

                                                                                                                Figure 4-3. Cartogramme Dorling des emplacements résolus à partir d'un réseau professionnel LinkedIn - les info-bulles affichent le nom de chaque État lorsque les cercles sont survolés (dans cette figure particulière, l'État du Massachusetts est survolé avec la souris)

                                                                                                                Une partie du code permettant de créer un cartogramme Dorling à partir de vos connexions LinkedIn est omis de cette section par souci de concision, mais il est inclus en tant qu'exemple entièrement clé en main avec le Jupyter Notebook pour ce chapitre .


                                                                                                                Ressources socio-économiques du quartier et risques psychosociaux liés à la criminalité, risque d'AVC et cognition chez les personnes âgées

                                                                                                                67 ans, 40 % de non-latino-blancs) pour des problèmes de santé cardiovasculaire à l'aide du profil de risque d'AVC de Framingham sur 10 ans (FSRP-10). Les domaines cognitifs qui ont été testés comprenaient la mémoire, le fonctionnement exécutif et le traitement de l'attention/de l'information. Les ressources socioéconomiques du quartier ont été quantifiées au niveau du secteur de recensement (revenu, éducation et profession). Les risques psychosociaux liés à la criminalité ont été quantifiés au niveau du point. La modélisation par équation structurelle (SEM) n'a pas montré que le FSRP-10 modifiait la relation entre les caractéristiques du quartier et la cognition spécifique au domaine. Les résultats du SEM suggèrent que des taux de criminalité plus élevés sont associés à un FSRP-10 plus élevé ( β (105) = 2,38, p = 0,03) et qu'un FSRP-10 plus élevé est associé à une réduction de l'attention/des performances de traitement de l'information ( β (105) = −0,04, p = 0,02) après prise en compte des ressources socioéconomiques du quartier. Les cliniciens peuvent souhaiter interroger non seulement la santé individuelle mais aussi la santé au niveau du quartier lorsqu'ils envisagent la cognition.


                                                                                                                Comment CartoDB fait-il le géocodage international ? - Systèmes d'information géographique

                                                                                                                Nous nous sommes installés dans une salle de conférence magnifiquement aménagée et avons commencé à tourner une vidéo qui mettait en évidence plusieurs des SantéOutils de paysage sur un moniteur LED géant. Notre présentation a retenu l'attention du public.

                                                                                                                Pourquoi? Qu'y avait-il de si fascinant dans ces cartes interactives ?

                                                                                                                Nous avons remarqué que presque toutes les personnes qui entraient dans la pièce s'intéressaient à ce qu'elles voyaient des trois mêmes manières :

                                                                                                                Ils ont tout de suite eu un cadre de référence.

                                                                                                                Qu'ont-ils cherché en premier ? Leur quartier. Leur communauté. Leur Repères. Ils ont rapidement trouvé leur place et se sont concentrés sur les données que nous présentions. Nous n'avons pas eu à passer du temps à mettre en place le contexte. Ils l'avaient déjà.

                                                                                                                Ils ont immédiatement commencé à chercher des modèles.

                                                                                                                Les gens ont commencé à poser des questions et à faire des observations : Pourquoi sont-ils si nombreux dans cette zone ? Que représente cet ombrage ? Ce n'est pas ce à quoi je m'attendrais là-bas. Je suis surpris que le nombre ne soit pas plus élevé. Les gens ont rapidement commencé à essayer de donner un sens aux données complexes. Voir les données les dynamiser et les engager géographiquement.

                                                                                                                Ils ont immédiatement voulu pousser les données plus loin.
                                                                                                                Une fois les premières observations faites, le public a voulu approfondir. Ils voulaient trouver un sens aux données. Ils voulaient non seulement observer un modèle, mais aussi comprendre pourquoi le modèle pouvait se produire. Y a-t-il un taux de chômage élevé dans cette région? Qu'en est-il de la pauvreté ? Ce groupe de personnes atteintes d'une maladie cardiaque grave a-t-il accès à un hôpital? À cause de SantéGrâce à la conception interactive de Landscape et à la bibliothèque complète de données communautaires, leurs questions pouvaient être traitées au fur et à mesure que leurs roues mentales tournaient, alors qu'ils commençaient à imaginer des moyens de répondre au besoin identifié.
                                                                                                                Notre esprit traite les informations visuelles plus rapidement que les informations textuelles. Un écrivain le démontre en plaçant un dessin d'un cercle à côté d'un paragraphe de texte qui donne une définition d'un cercle. Qu'est-ce que vous devez travailler plus dur pour comprendre : l'image ou la définition ? Et de quoi vous souviendrez-vous ?

                                                                                                                Lequel comprenez-vous le plus rapidement - la carte ou le tableau ? Les deux affichent les mêmes données.


                                                                                                                Alors que toute visualisation a le potentiel d'être « collante », les visualisations SIG vont encore plus loin car les téléspectateurs ont le potentiel d'établir une connexion personnelle avec les données. Votre public, qu'il s'agisse d'une communauté de prestataires de soins, de décideurs politiques, de bailleurs de fonds ou des personnes mêmes que vous servez, cherchez où ils en sont par rapport aux données et demandez : « Comment cela m'affecte ? »

                                                                                                                En apprendre davantage sur SantéLes visualisations de données SIG interactives de Landscape, assistez à l'un de nos webinaires réguliers :


                                                                                                                Voir la vidéo: HYPACK: Creating a New Project (Octobre 2021).