Suite

Des techniques d'interpolation spéciales sont-elles nécessaires pour les données météorologiques ?


J'ai téléchargé une série d'observations météorologiques de l'agence météorologique locale - elle comprend environ 1 000 points répartis de manière non uniforme à travers l'Australie, avec une plus grande densité de points situés à proximité des zones peuplées.

Je souhaite afficher les températures moyennes et les précipitations mensuelles (séparément) sous forme de surfaces lisses, j'ai donc utilisé la fonction Krigeage dans Spatial Analyst (avec les valeurs par défaut) pour calculer cette grille :

[Éditer]

Les grilles seront utilisées à des fins de visualisation uniquement. Dans une carte Web, j'afficherai les grilles pour donner un contexte, mais je ne permettrai d'identifier que les stations météorologiques réelles, auquel cas j'afficherai les valeurs d'origine. Je suppose que cela signifie que la précision des grilles n'est pas d'une importance primordiale.

Mes questions:

  • Lequel des paramètres de l'outil de krigeage dois-je comprendre, afin de créer des interpolations significatives des précipitations, de la température et d'autres facteurs météorologiques ?
  • Dois-je tenir compte des effets de la topographie (par exemple, effet de pluie orographique) ou l'algorithme de krigeage gère-t-il cela ?
  • L'Analyste Géostatistique est-il un meilleur outil pour ce type d'analyse ? (Je crois qu'il est conçu pour gérer les biais dus à la géographie)
  • autre chose dont je devrais être conscient pour créer un résultat significatif ?

Merci


  • Vous ne nous dites rien sur l'utilisation de ces cartes. Voulez-vous simplement produire une carte? Les utiliserez-vous comme entrée de modèle ? Cela peut changer votre méthodologie.
  • Quelle erreur est acceptable pour l'utilisation dont vous avez besoin ?
  • La topographie ne peut être incluse que si vous l'utilisez comme variable d'entrée, dans une procédure appelée krigeage par régression. Je ne sais pas si arcgis prend en charge cela, mais arcgis ne peut pas le prendre en compte si vous ne fournissez pas les informations. Dans ce cas spécifique, il semble que vous ayez beaucoup de points de données dans les régions montagneuses, donc la différence réelle peut être faible.
  • Vous avez suffisamment de points, donc je suppose qu'arcgis sera capable d'adapter un variogramme raisonnable. Dans ce cas, l'utilisation des paramètres automatiques est acceptable (au moins mieux que l'utilisation, par exemple, de la pondération de distance inverse). Bien sûr, vous devez savoir que dans les régions avec peu d'observations, la prédiction a une grande marge d'erreur.

Le rôle des SIG dans la pratique de la santé au travail : une nouvelle approche

Comment citer : Moussavi Najarkola S A, Mirzaei R. Le rôle des SIG dans la pratique de la santé au travail : une nouvelle approche, portée de la santé. 2013 2(3):116-118. doi: 10.17795/jhealthscope-14730.

1. Introduction

Parallèlement au développement des connaissances dans la pratique de la santé au travail, l'utilisation de divers outils ou systèmes pour une meilleure compréhension de la cartographie spatiale des expositions et des maladies est inévitable. Le système d'information géographique (SIG) est l'un des logiciels les plus applicables pouvant aider les hygiénistes du travail. Le SIG est un produit commun de l'informatique et de la géographie qui intègre un ensemble de composants, notamment du matériel, des logiciels, des données géographiques, des utilisateurs géographiques et des méthodes pour afficher et gérer les données associées à des positions spatiales spécifiques, en analysant la relation entre les données spatiales et la modélisation spatiale. processus qui assistent l'utilisateur dans la gestion des données, la résolution de problèmes complexes et la prise de décision (1, 2). Par conséquent, l'utilisation du SIG dans les programmes de pratique de la santé au travail peut jouer un rôle important pour une meilleure compréhension des risques d'exposition et la prise de décisions pour la résolution de problèmes (3). La création d'une relation spatiale dans la pratique de la santé au travail telle que la relation entre les maladies et leur distribution dans différents domaines est si importante (4, 5).

2. Système d'Information Géographique (SIG)

Information liée à la localisation géographique appelée information géographique, décrivant les espaces sur la terre (3). Ces données ont principalement trois dimensions importantes : la dimension spatiale qui répond à la question du où la nature des préoccupations étudiées qui répond à la question du quoi et parfois une troisième dimension du temps pour les phénomènes dynamiques qui répond à la question du quand (1 , 2). Par conséquent, la dimension spatiale joue un rôle clé dans l'information géographique. L'emplacement des phénomènes sur la terre est défini sur le système de coordonnées géographiques comme la latitude et la longitude géographiques (2). La meilleure méthode pour afficher l'information géographique est la carte qui, grâce à une représentation graphique, offre la possibilité d'une compréhension plus efficace de l'information géographique aux utilisateurs (4). Le SIG ou la science est un outil informatique pour l'analyse et la cartographie des données spatiales (1-3). Le SIG, en tant qu'ensemble de logiciels, est un système informatique pour la saisie, le stockage, la manipulation et la sortie d'informations géographiques qui intègre du matériel, des logiciels, des données, des utilisateurs et des méthodes pour résoudre le problème, prendre la décision et aider à la planification (5). Ces capacités font du SIG un outil précieux pour expliquer les événements, prédire les résultats et planifier les stratégies dans un large éventail d'entreprises publiques et privées (2).

3. Éléments fondamentaux du SIG

Le SIG intègre plusieurs éléments clés fondamentaux, notamment : le matériel, les logiciels, les données, les utilisateurs et les méthodes (1-4). Le matériel SIG est un ordinateur ainsi qu'une imprimante et d'autres appareils complémentaires sur lesquels le SIG est configuré, mis en œuvre et affiché par des moniteurs ou fait des copies papier des résultats (2). Le logiciel SIG avec différentes versions (comme ARC/INFO GIS) fonctionne sur un large éventail de types de matériel, de l'ordinateur personnel (PC) à l'ordinateur portable ou même d'autres configurations en réseau. Le logiciel SIG permet de stocker, d'analyser et d'afficher des informations géographiques. Arc-Info et Arc-View sont deux types de logiciels SIG couramment utilisés disponibles dans le commerce (3, 4). Les données SIG semblent être l'élément le plus important de l'intégrale SIG. Un outil SIG doit être capable de convertir les données ponctuelles en données surfaciques continues et, par conséquent, en données spatiales et globales selon les besoins. Les données géographiques et tabulaires, les images de photographies aériennes et les cartes sont trois types courants de présentation de données dans les SIG (2, 3). Les utilisateurs du SIG vont des spécialistes du SIG aux utilisateurs non spécialisés tels que les hygiénistes du public, de l'environnement et du travail pour leurs différents objectifs (3). Les méthodes SIG impliquent le plan de pratique organisationnel, les procédures et les règles régissant chaque organisation. Mais certaines ressources pensent qu'il existe cinq composants principaux dans un SIG, notamment le réseau, le matériel, les logiciels, la base de données et la gestion (4). Le réseau SIG s'appuie fortement sur les réseaux Internet ou intranet pour une communication rapide et le partage électronique des informations concernant la topologie, la géographie, etc. (1, 2). La gestion du SIG comprend toutes les procédures et règles organisationnelles affectant la gestion des données, les rapports et la cartographie sur le SIG (4).

4. Fonctions du SIG

GSI utilise différentes méthodes d'interpolation, principalement la méthode d'interpolation de krigeage, pour interpoler et convertir les données ponctuelles d'origine en zone continue avec une précision adéquate et une taille de cellule appropriée (2, 4). La carte résultant de l'interpolation permet la possibilité d'analyse de l'état des données dans différentes parties des zones souhaitées sur la terre (4). Il est possible de déterminer et de comparer les aires continues des différentes classes obtenues par classification de la carte préparée (3). Enfin, la carte de contours souhaitée (lignes de contours) est obtenue à partir de la carte de données continues en utilisant les méthodes d'analyse tridimensionnelle présentées dans le SIG (4). Les coordonnées spatiales obtenues dans une zone souhaitée peuvent être facilement transférées au système de coordonnées global (5).

5. SIG dans la pratique de la santé au travail

De nos jours, la pratique de la santé au travail est l'une des préoccupations les plus importantes dans de nombreux pays industriels développés et en développement. Le SIG peut également être utilisé pour la gestion des données ponctuelles, surfaciques et spatiales, l'analyse spatiale, la configuration et la visualisation, et la cartographie dans la pratique de la santé au travail (6, 7). L'application du SIG dans la pratique de la santé au travail peut aider les hygiénistes du travail à mieux comprendre et prendre des décisions pour la résolution de problèmes (8). L'utilisation de la cartographie SIG dans la pratique de la santé au travail est une approche quelque peu nouvelle (8). Le SIG peut être utilisé pour : la surveillance du bruit (8, 9), le dépistage de la perte auditive due au bruit (NIHL) (8, 9), les rayonnements ionisants et non ionisants, l'évaluation de l'éclairage, le contrôle de la pollution atmosphérique, les modèles de dispersion de la pollution atmosphérique, les émissions atmosphériques comportements, toxines professionnelles et environnementales, santé animale et leur relation avec la santé humaine, réseau de suivi de la santé au travail, cartographie basée sur les modèles organisationnels, tendances des expositions au fil du temps, modélisation de l'exposition, population professionnelle à risque, services de santé au travail, cartographie de l'exposition professionnelle aux polluants, aiguë cartographie des sites de maladies ou maladies chroniques, informations démographiques des praticiens, évaluation des facteurs de risques professionnels, cancers professionnels, prévention des blessures, prévention des troubles musculo-squelettiques liés au travail (TMS), études épidémiologiques, surveillance des agents toxiques environnementaux (métaux lourds, matières minérales, matières organiques, gaz et vapeurs, poussières, composés organiques volatils (COV), poisons végétaux et animaux), explosion unsaf e zones, plan directeur d'intervention d'urgence et de préparation et interventions en santé au travail (8-10).

Le SIG peut fournir une relation entre les sites humains, les sources de pollution et les conditions environnementales sur une carte spatiale sous forme de couche sur couche. Le SIG peut assister les hygiénistes du travail en orientant l'analyse de la situation de santé au travail pour prévenir les problèmes de santé (maladies ou troubles professionnels) résultant de l'exposition à des agents nocifs physiques, chimiques, ergonomiques, psychologiques et biologiques en créant des cartes spatiales ou globales.

En bref, les SIG peuvent être utilisés dans les pratiques de santé au travail, principalement dans l'analyse de la situation de santé au travail pour la prévention et le contrôle des effets sur la santé dus à l'exposition à des agents nocifs physiques, chimiques, ergonomiques, psychologiques et biologiques en créant des cartes spatiales ou globales. Ainsi, l'application du SIG dans les pratiques de santé au travail, en tant que nouvelle approche, peut jouer un rôle clé dans le contrôle des maladies suite à une exposition à différents agents nocifs et aider les hygiénistes du travail et les gestionnaires à éliminer, contrôler, réduire ou minimiser ces expositions.

Remerciements

Il n'y a pas de reconnaissance dans cette étude.

Notes de bas de page

  • Implication pour la politique de santé/la pratique/la recherche/l'enseignement médical : Cet article s'intéresse particulièrement au rôle et aux applications du Système d'Information Géographique (SIG) dans la pratique de la santé au travail, principalement dans l'analyse de la situation de la santé au travail et la pratique pour la prévention et le contrôle des problèmes de santé (maladies) résultant de l'exposition aux substances physiques, chimiques, agents nocifs ergonomiques, psychologiques et biologiques en produisant des cartes spatiales ou globales.
  • Contribution des auteurs : Cette étude a été réalisée également par les auteurs.
  • Divulgation financière : Il n'y a pas de conflit d'intérêts.
  • Financement/Soutien : Il n'y a pas de support pour cette étude.

Les références

Luo W. Utilisation d'une méthode de bassin versant flottant basée sur le SIG pour évaluer les zones à pénurie de médecins. Lieu de Santé. 2004 10(1) : 1 -11 [PubMed]

Star J, Estes J. Systèmes d'information géographique. 1990

Ormsby T. Se familiariser avec ArcGIS desktop : les bases d'ArcView, ArcEditor et ArcInfo. 2004

Goodchild MF, Steyaert LT, Parks BO, Johnston C. SIG et modélisation environnementale : progrès et enjeux de recherche. 1996

Mourad AA. Création d'une application SIG pour les services de santé de la ville de Djeddah. Comput Biol Med. 2007 37(6) : 879 -89 [DOI][PubMed]

Donovan TL, Kurc A, Sambol C, Carpenter J, Moore KM. Cartographie SIG des données sur les visites de santé au travail d'un hôpital de soins tertiaires du sud-est de l'Ontario. 2008 5 : 26

Koh D, Aw TC. Surveillance en santé au travail. Occuper Environ Med. 2003 60(9) : 705-10 [PubMed]

Ko JH, Chang SI, Lee BC. Évaluation de l'impact du bruit à l'aide d'une carte du bruit et d'un SIG : une étude de cas dans la ville de Chungju, en République de Corée. Appl Acoust. 2011 72(8) : 544 -50

de Kluijver H, Stoter J. Cartographie du bruit et SIG : optimisation de la qualité et de l'efficacité des études sur les effets du bruit. Com Environ Urban Sys. 2003 27(1) : 85 -102

Wang F, Luo W. Évaluation des facteurs spatiaux et non spatiaux pour l'accès aux soins de santé : vers une approche intégrée pour définir les zones de pénurie de professionnels de la santé. Lieu de Santé. 2005 11(2) : 131 -46 [DOI][PubMed]


Indice de compétences géographiques


Photographie de Jani Bryson/iStockphoto.com

L'importance des compétences géographiques

&ldquoLes compétences géographiques fournissent les outils et les techniques nécessaires pour nous permettre de penser géographiquement. Ils sont au cœur de l'approche distinctive de la géographie pour comprendre les modèles et les processus physiques et humains de la Terre. Les compétences géographiques sont utilisées pour prendre des décisions importantes dans la vie quotidienne et où acheter ou louer une maison où trouver un emploi comment se rendre au travail ou chez un ami et où faire du shopping, des vacances ou aller à l'école. Toutes ces décisions impliquent la capacité d'acquérir, d'organiser et d'utiliser des informations géographiques. Les décisions quotidiennes et les activités communautaires sont liées à une réflexion systématique et spatiale sur les problèmes environnementaux et sociétaux.

Les décisions communautaires relatives aux problèmes de pollution de l'air, de l'eau et des sols ou à des problèmes de localisation, comme l'emplacement des industries, des écoles et des zones résidentielles, nécessitent également l'utilisation habile de l'information géographique. Les décisions commerciales et gouvernementales, du meilleur site pour un supermarché ou un aéroport régional aux problèmes d'utilisation des ressources ou de commerce international, impliquent l'analyse de données géographiques.

Les compétences géographiques aident les gens à prendre des décisions politiques raisonnées. Qu'il s'agisse de l'évaluation des affaires étrangères et de la politique économique internationale ou du zonage local et de l'utilisation des terres, les compétences géographiques permettent aux gens de collecter et d'analyser des informations, de tirer une conclusion éclairée et de prendre des décisions raisonnées sur un plan d'action. Les compétences géographiques contribuent également à l'élaboration et à la présentation d'arguments efficaces et persuasifs concernant des questions de politique publique.

Développer des compétences géographiques

Il est essentiel que les élèves développent des compétences qui leur permettront d'observer les modèles, les associations et l'ordre spatial. Bon nombre des compétences que les étudiants sont censés acquérir impliquent l'utilisation d'outils et de technologies géospatiales qui font partie du processus d'enquête géographique. Les représentations géographiques, telles que les cartes et les globes, ainsi que leurs versions numériques, sont des outils essentiels de la géographie car elles aident à visualiser les dispositions et les modèles spatiaux.

D'autres outils et technologies géospatiales, y compris les images, graphiques, croquis, diagrammes et photographies produits par satellite font également partie intégrante de l'analyse géographique. Le taux de croissance d'une zone urbaine, par exemple, peut être observé en comparant les anciennes et les nouvelles images satellites. Les changements d'utilisation des terres à grande échelle ou les changements de températures de surface de la mer peuvent être observés en comparant une série d'images satellite. Un outil important dans l'analyse géographique est le système d'information géographique (SIG). Les systèmes d'information géographique facilitent le processus d'organisation, d'analyse et de présentation de l'information géographique, accélérant ainsi l'enquête géographique. Les données de télédétection fournissent à la fois des images archivées et en temps réel qui peuvent être étudiées indépendamment ou dans le cadre d'une analyse SIG. Les globes numériques et les cartes interactives en ligne peuvent afficher des ensembles de données humaines et physiques pour aider à l'analyse systématique des phénomènes spatiaux. Un système de positionnement global (GPS) aide à identifier avec précision l'emplacement des données collectées. Les technologies GPS sont actuellement utilisées dans une large gamme d'appareils mobiles numériques.

Bon nombre des capacités dont les élèves ont besoin pour développer des compétences géographiques sont appelées « compétences de réflexion critique ». Résoudre des problèmes et prendre des décisions. Ces compétences ont des applications à tous les niveaux de l'enquête géographique et constituent les bases sur lesquelles les étudiants peuvent acquérir des compétences en appliquant les compétences géographiques à l'enquête géographique.

Les compétences géographiques se développent tout au long des années scolaires des élèves. Pour chacun des trois niveaux scolaires successifs discutés, les enseignants et autres concepteurs de programmes doivent reconnaître que la maîtrise des compétences géographiques par les élèves doit être séquencée efficacement afin que les élèves conservent et renforcent leur compréhension. Les compétences ne peuvent pas être enseignées ou appliquées de manière isolée. Ils sont interconnectés et complémentaires, et forment ensemble un processus d'investigation qui rend la complexité du lieu plus intelligible et plus compréhensible.

La justification des compétences géographiques

  1. Poser des questions géographiques
  2. Acquérir des informations géographiques
  3. Organisation de l'information géographique
  4. Analyser l'information géographique
  5. Répondre aux questions géographiques

Pour chacun des cinq ensembles de compétences, il y a une discussion sur les principes qui sous-tendent l'ensemble de compétences, puis une présentation de ce que l'élève est censé savoir, comprendre et être capable de faire aux 4e, 8e et 12e années. &rdquo

La géographie pour la vie : Normes géographiques nationales, Deuxième édition


26 septembre 2017

Analyse des données exploratoires des tempêtes tropicales en R

L'impact désastreux des récents ouragans, Harvey et Irma, a généré un afflux important de données au sein de la communauté en ligne. J'étais curieux de connaître l'histoire des ouragans et des tempêtes tropicales, j'ai donc trouvé un ensemble de données sur data.world et commencé une analyse de données exploratoire de base (EDA).

L'EDA est cruciale pour démarrer tout projet. Grâce à l'EDA, vous pouvez commencer à identifier les erreurs et les incohérences dans vos données, trouver des modèles intéressants, voir des corrélations et commencer à développer des hypothèses à tester. Pour la plupart des gens, les feuilles de calcul et les graphiques de base sont pratiques et constituent un excellent point de départ. Il s'agit d'une méthode facile à utiliser pour manipuler et visualiser vos données rapidement. Les scientifiques des données peuvent grincer des dents à l'idée d'utiliser une interface utilisateur graphique (GUI) pour lancer le processus EDA, mais ces outils sont très efficaces et efficients lorsqu'ils sont utilisés correctement. Cependant, si vous lisez ceci, vous essayez probablement de faire passer l'EDA au niveau supérieur. La meilleure façon d'apprendre est de se salir les mains, commençons.

La source originale des données se trouve sur DHS.gov.

Grande promenade sur l'analyse exploratoire des données.

Tout le monde parle de la météo mais saviez-vous qu'il y a un décalage climatique de quarante (40) ans entre la cause et l'effet ?

L'impact humain sur l'environnement aujourd'hui ne se fera pas sentir avant quarante (40) ans.

Peut-on prévoir l'impact d'un ouragan en 2057 ?

PS : un ouragan de catégorie 6 est-il possible ? par Brian Donegan est une discussion intéressante sur le dépassement de la catégorie 5 pour les ouragans. Pour référence sur les vitesses, voir : Échelle Fujita (tornades).


Les Catégories

Liste de contrôle des catégories

Recherchez dans le guide de ressources une liste de contrôle des personnes et des groupes qui pourraient appartenir à chaque catégorie.

Par exemple, un plan pour identifier toutes les langues autres que l'anglais parlées dans une communauté produira une très longue liste. D'un autre côté, un plan visant à identifier des groupes démographiquement significatifs d'individus ne maîtrisant pas ou peu l'anglais ou ceux ayant de très faibles niveaux d'alphabétisation produira une catégorie : Langue et alphabétisation.

De nombreux sous-groupes qui composent des catégories plus larges de populations rencontrent certains des mêmes obstacles à la communication. Par exemple, que le public visé parle espagnol ou chinois ou qu'il ne lise ou ne comprenne tout simplement pas bien l'anglais, la barrière de la communication est un problème de langue ou d'alphabétisation et de nombreuses stratégies d'adaptation du message peuvent être les mêmes. Au lieu de traduire les messages d'urgence dans 126 langues parlées dans une communauté, les services de santé publique ont lancé des efforts pilotes pour transmettre des informations cruciales dans des messages simples et illustrés qui sont facilement compris par tout le monde.

Lorsque vous commencez à définir, localiser et atteindre les populations à risque, cinq grandes catégories descriptives vous aideront à regrouper les personnes à risque :

  • Inconvénient économique
  • Langue et alphabétisation
  • Problèmes médicaux et handicap (physique, mental, cognitif ou sensoriel)
  • Isolement (culturel, géographique ou social)
  • Âge

De nombreux individus ne se classent généralement pas parfaitement dans une catégorie ou un groupe de population ou peuvent appartenir à plusieurs. Dans certains cas, une personne peut ne pas appartenir à l'une de ces catégories mais peut avoir un membre de sa famille qui en fait partie. Lorsque cela se produit, les efforts pour fournir des services d'urgence peuvent être contrecarrés parce que les membres de la famille ne veulent pas être séparés.

Après une situation d'urgence généralisée, les personnes peuvent se retrouver bloquées, déplacées, démunies, sans abri ou malades. Ils peuvent rencontrer des défis qui les rendent nouvellement vulnérables ou soudainement en dehors des communications traditionnelles d'une manière qu'ils n'avaient pas connue avant l'urgence. Ces facteurs peuvent créer de nouvelles populations à risque.


3. Ensembles de données COVID-19

Les données qui peuvent être utilisées pour ajuster les modèles entraînés par les algorithmes constituent un élément clé de l'application des techniques de régression basées sur l'IA. Les données doivent être abondantes et représenter le mieux possible la situation réelle, étant donné que toute erreur dans les données peut entraîner des erreurs dans les prédictions des modèles. Cette section présente certains des ensembles de données les plus couramment utilisés pour la propagation épidémiologique de COVID-19. Les ensembles de données en question sont collectés auprès de diverses agences gouvernementales locales. Chacun des ensembles de données présentés répertorie les sources utilisées. Certaines des sources communes, pour les pays avec un nombre élevé de cas, sont :

Center for Disease Control and Prevention aux États-Unis (CDC) [38],

Institut Robert Koch en Allemagne [39],

Protezione Civile et Ministero della Salute en Italie [40],

Instituto de Salud Carlos III en Espagne [41],

Commission nationale de la santé de la République populaire de Chine (NHC) [42], et

Ministère de la Santé du Brésil [43].

L'Organisation mondiale de la santé (OMS) est une agence spécialisée indépendante des Nations Unies, dont la tâche est d'aider à atteindre le plus haut niveau de santé pour tous dans le monde. Son siège est à Genève [44]. L'OMS est chargée de gérer les problèmes de santé mondiale, d'établir des normes, de concevoir des programmes de recherche et de développement en santé, de surveiller et d'évaluer les tendances en matière de santé, de fournir un soutien technique aux pays et de définir des documents stratégiques fondés sur des preuves scientifiques. Le 11 mars 2020, l'OMS a déclaré le COVID-19 pandémie mondiale. Sur le site officiel de l'OMS se trouve un tableau de bord avec le nombre de cas confirmés et de décès dans le monde, collecté quotidiennement [45]. Ces données sont officielles et de haute précision. Les données peuvent être téléchargées sous forme de tableau, avec les données triées par pays par ordre alphabétique et les données de chaque pays triées quotidiennement depuis le 3 janvier 2020. Elles sont séparées en colonnes composées de :

date du rapport D A T E ,

Région OMS à laquelle appartient le pays ( W H O R ),

nombre de nouveaux cas depuis le dernier rapport quotidien ( C N ),

nombre de cas cumulés depuis le début de la déclaration ( C C ),

nombre de nouveaux décès depuis le dernier rapport quotidien ( D N ), et

le nombre de décès cumulés depuis le début de la déclaration ( D C ).

Un extrait des données de l'ensemble de données de l'OMS est présenté dans le tableau 2 . Les colonnes sont données dans l'ordre décrit dans la liste précédemment donnée et marquées des codes correspondants, avec la visualisation des données dans l'ensemble de données illustré à la figure 3 pour le nombre de cas confirmés de COVID-19 et à la figure 4 pour les données du patient décédé.

Graphique chronologique des données de l'ensemble de données de l'OMS, pour le nombre d'infections au COVID-19, contenues dans l'ensemble de données.

Graphique chronologique des données de l'ensemble de données de l'OMS, pour le nombre de décès de patients causés par COVID-19, contenus dans l'ensemble de données.

Tableau 2

L'apparition des données dans l'ensemble de données officiel de l'OMS.

DATE CCDe campagne QUIR CN CC N C
14/02/2021DZAlgérieAFRO210110,51332935
15/02/2021DZAlgérieAFRO198110,71142939
16/02/2021DZAlgérieAFRO183110,89442943
17/02/2021DZAlgérieAFRO175111,06922945
03/01/2020COMMESamoa américainesWPRO0000
04/01/2020COMMESamoa américainesWPRO0000
05/01/2020COMMESamoa américainesWPRO0000

John Hopkins University (JHU) est une université de recherche privée fondée en 1876 à Baltimore, Maryland [46]. Une carte interactive créée par le Center for Systems Science and Engineering de la célèbre Université du Maryland montre exactement combien de cas confirmés de COVID-19, de décès et de patients récupérés se trouvent dans le monde. JHU a présenté pour la première fois sa carte interactive le 22 janvier 2020 [47,48]. Pour créer une vue d'ensemble aussi détaillée, les scientifiques de JHU collectent des données auprès de l'OMS, des ministères de la santé régionaux et nationaux et des rapports des médias locaux. Le site Web est conçu pour fournir aux chercheurs, aux institutions gouvernementales et au public un outil permettant de surveiller la propagation de l'infection en temps réel. Les données affichées sont mises à disposition publiquement dans un référentiel GitHub et sont mises à jour quotidiennement. Les données sont disponibles dans [49] et sont encore régulièrement mises à jour. Les données sont formatées dans trois tableaux de séries chronologiques, pour le nombre de patients confirmés, récupérés et décédés par jour et par pays. Un extrait de l'ensemble de données JHU est donné dans le tableau 3, avec “…” représentant les dates sautées, non illustrées dans l'exemple de données présenté.

Tableau 3

Un exemple des données contenues dans le jeu de données JHU.

Province/
État
De campagne/
Région
latitudeLongue1/221/233/213/22
Thaïlande1510123 411599
Japon3613821 10071086
Singapour1.2833103.833301 432455
Népal28.166784.2500 12
Malaisie2.5112.50011831306
Britanique
Colombie
Canada49.2827�.12100 424424
VictoriaAustralie�.8136144.963100 229296
QueenslandAustralie�.0167153.400 221221

L'ensemble de données JHU est populaire parmi les chercheurs pour de nombreuses raisons, notamment le formatage pratique basé sur le temps pour chaque pays, les mises à jour régulières et la précision. En raison de la grande quantité de données, l'ensemble de données a été divisé en ensembles de données mondiaux et américains, permettant une collecte de données plus précise par comté pour les États-Unis. Les figures 5 et 6 montrent les données de l'ensemble de données mondial du JHU, pour la période du 22 janvier 2020 au 17 février 2021, pour les cas récupérés ( N R ) et confirmés ( N C ) et décédés ( N D ), respectivement. La valeur de ce qui précède est que le nombre de cas actifs ( N A ) peut être dérivé des données ci-dessus en utilisant :

Graphique chronologique des données de l'ensemble de données JHU COVID-19, pour les patients confirmés et récupérés, contenus dans l'ensemble de données.

Graphique chronologique des données de l'ensemble de données JHU COVID-19, pour les patients décédés, contenues dans l'ensemble de données.

Le rôle du Centre européen de prévention et de contrôle des maladies (ECDC) est de renforcer la défense européenne contre les maladies transmissibles [50]. Il fournit des conseils scientifiques aux gouvernements et aux institutions de l'UE, assure la détection et l'analyse précoces des menaces à venir pour l'UE, il aide les gouvernements des États membres de l'UE à se préparer aux épidémies, analyse et interprète les données obtenues des États membres de l'UE sur 52 maladies et affections transmissibles. L'ensemble de données est disponible sur [51], mais il n'est plus mis à jour depuis que l'ECDC est passé à un rapport hebdomadaire au lieu d'un rapport quotidien depuis le 14 décembre 2020. Les données sont triées par pays (colonne “Pays et territoires”-Pays), et contenir la date— dans des formats formatés et séparés, ainsi que le nombre de nouveaux cas signalés (C) et les décès () pour la date donnée. En plus de ces informations, l'ensemble de données contient le géoID du pays, le code du territoire du pays ( CC ), les données démographiques du pays collectées en 2019 ( POP ), un continent sur lequel se trouve le pays et le nombre cumulé de cas de COVID-19 pour 100 000 personnes dans la population pendant 14 jours. L'exemple des données contenues dans l'ensemble de données est donné dans le tableau 4, les données contenues dans l'ensemble de données étant présentées sur la figure 7 pour les patients infectés et sur la figure 8 pour les patients décédés.

Graphique chronologique des données de l'ensemble de données ECDC, pour les patients confirmés, contenus dans l'ensemble de données.

Graphique chronologique des données de l'ensemble de données ECDC, pour les patients décédés, contenues dans l'ensemble de données.

Tableau 4

Un exemple de données contenues dans l'ensemble de données ECDC.

Date C De campagne géoID CC POPContinentCumul
pendant 14 jours
pour 100 000
25/07/20201571ChineCNCHN 1.43 · 10 9 Asie0.081323
24/07/20201391ChineCNCHN 1.43 · 10 9 Asie0.073163
23/07/20201350ChineCNCHN 1.43 · 10 9 Asie0.066677
22/07/2020742ChineCNCHN 1.43 · 10 9 Asie0.059563
21/07/2020840ChineCNCHN 1.43 · 10 9 Asie0.055866
20/07/20201300ChineCNCHN 1.43 · 10 9 Asie0.051751
19/07/2020801ChineCNCHN 1.43 · 10 9 Asie0.043661

Le site Web de Worldometer [52] fournit des données détaillées sur le nombre de cas par pays, avec un excellent suivi du nombre de cas actifs, de cas récupérés, de décès et d'autres mesures par pays. Les données sont fournies sous forme de tableau pour les mises à jour quotidiennes, contenant le nombre de nouveaux cas et de cas cumulés, tandis que les données historiques sont affichées sous forme de graphiques avec des données provenant de l'OMS. Pourtant, les données ne sont pas facilement disponibles pour téléchargement sous forme de tableau, ce qui rend leur utilisation plus difficile pour les chercheurs. Cet ensemble de données a été utilisé dans certaines recherches initiales [53,54], mais avec le temps, la complexité de la collecte de données à partir du site Web augmente, faisant des ensembles de données mentionnés précédemment une ressource plus facile à utiliser.

De nombreux items de recherche existent dans le domaine de la prévalence sérologique du COVID-19 chez les patients [55,56,57]. Certaines de ces recherches indiquent que le nombre de patients est beaucoup plus élevé en réalité que ce que suggèrent les données contenues dans les ensembles de données publiques [58]. Des ensembles de données publiques sur la prévalence sérologique sont également disponibles, tels que ceux du CDC [59] et Our World in Data [60]. Peu de chercheurs ont utilisé ces données pour la modélisation de la propagation basée sur l'IA, peut-être en raison de la moindre publicité de ces ensembles par rapport aux ensembles de données qui ont été présentés dans cet article.


De meilleures données pour faire le bien : utilisation responsable des mégadonnées et de l'intelligence artificielle

Décrit les opportunités d'exploiter la valeur des mégadonnées et de l'intelligence artificielle (IA) pour le bien de la société et comment les nouvelles familles d'algorithmes d'IA permettent désormais d'obtenir des informations exploitables automatiquement et à grande échelle. Au-delà des applications commerciales ou commerciales sur Internet, il existe déjà de nombreux exemples de la façon dont les mégadonnées et l'IA peuvent aider à atteindre des objectifs de développement partagés, tels que le Programme de développement durable à l'horizon 2030 et les Objectifs de développement durable (ODD). Mais des cadres éthiques conformes à l'adoption accrue de ces nouvelles technologies restent nécessaires, non seulement en ce qui concerne la confidentialité des données, mais également l'impact et les conséquences de l'utilisation des données et des algorithmes. La reconnaissance publique s'est accrue concernant le potentiel de l'IA à créer à la fois des opportunités d'avantages sociétaux et des risques pour les droits de l'homme. Le développement exige de saisir l'opportunité de façonner l'utilisation future comme une force pour le bien, tout en veillant à ce que les technologies résolvent les inégalités et évitent d'élargir la fracture numérique.


Laboratoire de géodésie & géomatique

Le Laboratoire de géodésie a été créé en 1957, deux ans après la fondation de l'ancienne chaire de géodésie avec son acte fondateur de l'École d'ingénieurs et du Département de génie civil de l'Université Aristote de Thessalonique. En 1983, conformément à la loi 1268/82 et à la décision ministérielle B1/200/232.83, le laboratoire de géodésie a été placé dans la division de génie géotechnique, département de génie civil, AUTH. En juin 2004, le Laboratoire de géodésie a été rebaptisé Laboratoire de géodésie et de géomatique (FEK 872/14-6-2004, v. B) et son règlement intérieur a été approuvé.

Actuellement, le professeur Paraskevas Savvaidis est le directeur du laboratoire.

Le terme Géodésie caractérise la discipline qui a pour objet principal la détermination de la forme exacte de toute la surface de la Terre ou de certaines parties de celle-ci. C'est la partie pratique d'une application combinée de la trigonométrie et de la géographie utilisant des mathématiques supérieures et surtout des méthodes statistiques pour le calcul des paramètres requis. Une mesure géodésique concerne les angles, les distances et les dénivelés, elle est effectuée à l'aide d'instruments et de méthodes statistiques appropriés. Il peut produire avec une précision spécifiée la forme du terrain (ou de l'objet) considéré. En outre, la géodésie traite de toutes les connaissances scientifiques sur les systèmes de coordonnées, les projections géographiques, les systèmes d'information géographique et d'autres disciplines liées à la mesure des données spatiales. Par ailleurs, le Laboratoire s'occupe du suivi des déformations des ouvrages techniques et des mouvements de terrain. Enfin, le contexte plus large du Laboratoire de géodésie et de géomatique comprend le cadre technique, juridique et économique de l'estimation de la valeur foncière, du cadastre et de l'expropriation foncière.
Le terme Géomatique caractérise une discipline moderne, qui intègre l'acquisition, la modélisation, l'analyse et la gestion de données référencées spatialement, c'est-à-dire des données identifiées en fonction de leur localisation. Basé sur le cadre scientifique de Geodesy, il utilise des capteurs terrestres, marins, aéroportés et satellitaires pour acquérir des données spatiales et autres. Il comprend le processus de transformation de données référencées spatialement provenant de différentes sources en systèmes d'information communs avec des caractéristiques de précision bien définies. La géomatique utilise des connaissances provenant de plusieurs disciplines, telles que : la géodésie et l'arpentage (mesures de systèmes de coordonnées terrestres, célestes et orbitales), le positionnement et la navigation (par exemple avec le GPS), l'imagerie numérique et la cartographie utilisant la photogrammétrie (photographies terrestres ou aéroportées) ou la télédétection (images prises par capteurs satellitaires), Systèmes d'Information Géographique (SIG), Systèmes Fonciers (gestion de l'information foncière, arpentage, droit foncier).

Le laboratoire est responsable de l'enseignement des concepts, méthodes, dispositifs et instruments, évolutions, produits et applications de toutes les tâches ci-dessus au niveau du premier cycle et du troisième cycle. En particulier, les cours suivants sont dispensés par le personnel académique du Laboratoire :

Cours de premier cycle

Cours de troisième cycle

  1. Géoinformation appliquée
  2. Acquisition, Traitement et Gestion des Données Environnementales : Systèmes d'Information Géographique
  3. Gestion des terrains et des installations
  4. Application des techniques IC dans le transport
  5. Méthodes d'arpentage pour les monuments, les ensembles historiques et les œuvres d'art
  6. Identification et suivi de la déformation des structures historiques et de leurs abords

Membres du Laboratoire :

Candidats au doctorat :

  • Antoniou Sotiris, ingénieur civil
  • Charalampakis Emmanuel, ingénieur civil
  • Chatziathanasiou Anastasia, ingénieur civil
  • Demertzi Alexandra, forestier
  • Dimoula Sophia, Ingénieur Civil
  • Dasiou Constantina, ingénieur civil
  • Kyriakidou Kelly, Ingénieur Planification & Développement
  • Mangos Eudoxia, Ingénieur Rural & Géomètre
  • Pazarlidis Simos, ingénieur civil
  • Papadopoulou Ioanna, Ingénieur rural et géomètre
  • Sevvastas Stephanos, géologue
  • Sidiropoulos Andreas, ingénieur rural et géomètre
  • Spyridaki Polyxena, ingénieur civil
  • Stergioudis Argyrios, forestier
  • Tokmakidis Panagiotis Ingénieur rural et géomètre
  • Tzimourtas Vasileios, Informatique
  • Voulgaroudis Aristides, Ingénieur civil

Installations du laboratoire

Le laboratoire comprend des salles au deuxième étage du bâtiment de l'ingénierie topographique et au rez-de-chaussée et sous-sol du secteur des salles de classe de l'ingénierie topographique.

Recherche

Principales activités de recherche du Laboratoire :
• Mesure de déformation d'ouvrages techniques et de glissements de terrain
• Vérification de la qualité géométrique des constructions et des produits industriels
• Application des systèmes de positionnement par satellite GNSS/GPS (en Géodésie, Géodynamique et le contrôle cinématique des véhicules)
• Installation et exploitation d'une station GPS de référence continue et d'une station météo
• Applications des Systèmes d'Information Géographique (SIG)
• Systèmes de gestion des catastrophes (SGD)
• Etude de l'effet de l'atmosphère sur les mesures géodésiques
• Méthodes d'arpentage pour les monuments architecturaux et les sites archéologiques
• Métrologie géodésique, étalonnage et réglage des instruments géodésiques
• Application et recherche de titres de propriété
• Expropriation et Cadastre
• Problèmes géodésiques et cartographiques historiques

Dans le cadre de ces activités, de nombreux projets de recherche ont été menés, dont plusieurs en collaboration avec d'autres laboratoires et universités en Grèce et à l'étranger.

Infrastructures - Équipements

Le Laboratoire dispose d'un bon équipement d'enseignement et de recherche composé de :
• Stations totales
• Récepteurs GPS de positionnement par satellite
• Systèmes d'identification spatiale 3D
• Système robotique pour mesurer des points dans l'espace
• Système d'étalonnage des instruments géodésiques et interféromètre laser pour mesurer les oscillations des structures
• Autocollimateur pour le contrôle des instruments géodésiques optiques
• Instruments optiques pour mesurer les angles et les dénivelés (théodolites - Niveaux)
• Théodolites laser
• Théodolites électroniques et instruments EDM

Aussi, une salle informatique d'une vingtaine de terminaux fait partie de l'infrastructure du Laboratoire.


Types et sources de données

Dans cette section, nous avons décrit les principaux types et sources de données les plus fréquemment utilisées dans l'analyse géographique du cancer, ainsi que des exemples de leur application. Ceux-ci sont résumés dans le tableau 1.

1. Registres du cancer

Un registre du cancer est un système de collecte de données qui suit les cas de cancer qui ont été diagnostiqués ou traités dans une institution ou une zone géographique spécifique. Les registres du cancer recueillent généralement des informations à partir des dossiers médicaux fournis par les hôpitaux, les médecins, d'autres établissements de soins, les laboratoires médicaux et/ou les assureurs. Les données collectées par les registres du cancer sont conservées dans des conditions sécurisées afin d'en protéger la confidentialité.

Historiquement, les différences géographiques observées dans l'incidence du cancer ont été d'un grand intérêt pour essayer de mieux comprendre les facteurs qui peuvent influencer le risque de ces maladies. Ces différences ont servi de base à des études sur les populations migrantes et les différences d'acculturation dans les groupes de migrants.Ils ont été possibles parce que le cancer est l'une des rares maladies chroniques pour lesquelles des systèmes de surveillance des maladies basés sur la population de haute qualité sont en place depuis de nombreuses années dans de nombreux pays du monde.

Les données des registres du cancer ont été largement appliquées à la production d'atlas du cancer [39], d'études analysant la distribution spatiale de sites cancéreux particuliers [40] et d'études évaluant le regroupement spatial [41]. Plus récemment, des études sur le cancer ont été entreprises qui s'appuient sur les ressources combinées des données des registres du cancer et des outils SIG de plus en plus disponibles. Étant donné que l'adresse au diagnostic est disponible pour la plupart des cas de registre, elle peut être géocodée et intégrée dans un SIG avec des informations sur les attributs sociaux et environnementaux disponibles à diverses échelles géographiques. Des exemples de telles approches incluent des études sur le cancer infantile qui examinent les différences de taux dans les zones d'utilisation faible ou intense de pesticides agricoles [42], les schémas de circulation dense [43] ou la pollution atmosphérique élevée [44]. Alternativement, les données du registre du cancer peuvent servir à identifier des cas basés sur la population pour des études utilisant des modèles cas-témoins ou de cohorte, qui peuvent à leur tour être intégrés dans un SIG pour les données d'attributs de zone. Des exemples de cette approche comprennent des études cas-témoins sur la leucémie infantile et les schémas de circulation [45-48]. et une étude sur l'incidence du cancer du sein associée à la résidence dans des zones à forte utilisation de pesticides dans une vaste étude cas-témoins [49, 50]. et dans une vaste étude de cohorte [51].

Pour ces types d'études, les données des registres du cancer présentent à la fois un certain nombre de points forts et de limites. Les principaux points forts comprennent l'exhaustivité de la couverture géographique, des informations détaillées sur les sous-groupes de maladies et de riches informations covariables sur les caractéristiques démographiques de chaque cas de cancer nouvellement diagnostiqué. Étant donné que les données du registre sont extraites des dossiers médicaux et reflètent des informations pour un instantané dans le temps, les principales limites incluent le manque d'informations historiques sur divers facteurs d'intérêt potentiel, notamment la mobilité résidentielle et les comportements personnels pertinents. Les registres du cancer recueillent généralement des informations sur l'adresse résidentielle des personnes nouvellement diagnostiquées avec un cancer au moment de ce diagnostic. Étant donné qu'il s'agit des informations de localisation qui servent de base aux statistiques nationales et internationales sur les taux de cancer de la zone, elles sont également utiles pour examiner les caractéristiques de la zone associées aux différences de taux, bien que les inférences sur les associations étiologiques soient limitées pour ces maladies à longue latence, et même plus encore pour les populations résidentielles mobiles.

Le programme de surveillance, d'épidémiologie et de résultats finaux (SEER) du National Cancer Institute (NCI) offre des données d'incidence au niveau des comtés pour ses registres membres, qui couvrent tout ou partie des huit États, via son logiciel SEER*Stat. Parce qu'il fournit un accès direct aux dossiers individuels de cancer, les utilisateurs doivent d'abord signer un accord d'accès aux données. Les données de mortalité au niveau des comtés pour l'ensemble des États-Unis, collectées et conservées par le National Center for Health Statistics (NCHS), sont également accessibles via SEER*Stat. Ces données incluent toutes les causes de décès, pas seulement les décès par cancer. Des données sélectionnées sur le cancer au niveau du comté peuvent également être consultées via les sites Web Cartes et graphiques de mortalité par cancer et Profils de cancer des États du NCI. Ce dernier a été lancé en 2003 et contient une multitude de graphiques statistiques innovants. De nombreux registres d'État offrent également des données supplémentaires référencées géographiquement. Par exemple, le site Web du Florida Cancer Data System permet aux utilisateurs de générer une variété de tableaux au niveau du comté et de l'établissement et des cartes au niveau du comté à la demande. Le registre du cancer du Kentucky propose également une application de cartographie au niveau du comté. L'État de New York propose un ensemble limité de données au niveau du code postal pour les quatre types de cancer les plus courants au milieu des années 90. Actuellement, les données sur l'incidence du cancer au niveau des comtés ne sont pas disponibles à l'échelle nationale.

2. Données démographiques

Le Bureau du recensement des États-Unis est la principale source de données sur l'ensemble de la population, la plupart des pays ont des agences comparables. Étant donné que les taux de cancer sont calculés en divisant le nombre de cas par le nombre de personnes à risque, les données du recensement sont souvent appelées « données du dénominateur ». Les données du recensement sont facilement disponibles en format électronique sur le site Web du Census Bureau, http://www.census.gov. Les données sont disponibles dans trois formats de base. American FactFinder est une application Web qui permet aux utilisateurs d'explorer les niveaux géographiques pour trouver des tableaux de données d'intérêt. Il est particulièrement utile pour les requêtes de données bien ciblées. Les données peuvent également être téléchargées via un serveur ftp. Cette méthode permet d'obtenir des fichiers texte bruts qui nécessitent l'écriture d'un code informatique avant que les données puissent être facilement accessibles ou manipulées. Cette méthode est particulièrement utile pour les utilisateurs ayant des besoins importants en données et possédant certaines compétences en programmation de bases de données. La troisième approche consiste à acheter des DVD auprès du centre de service à la clientèle du Census Bureau. Les DVD permettent la sortie de données dans de nombreux formats de tableurs et de bases de données, ce qui permet aux utilisateurs de traiter et d'analyser les données. Il existe également un grand nombre de fournisseurs tiers qui proposent des services similaires [52].

Les quatre fichiers de données primaires émanant du recensement de 2000 sont nommés Fichier sommaire 1 à Fichier sommaire 4 (SF1–SF4). SF1 contient des chiffres de population par âge, sexe, race et origine ethnique et des informations de base sur les caractéristiques du logement pour l'ensemble de la population, au niveau du bloc. SF2 contient des informations similaires, détaillées pour les sous-groupes ethniques, les tribus amérindiennes et indigènes de l'Alaska et les individus multiraciaux. Ces données sont supprimées lorsque le nombre total d'individus dans une unité géographique donnée est inférieur à 100. SF3 contient des données détaillées sur le logement, démographiques et socioéconomiques au niveau du groupe d'îlots de recensement ou du secteur de recensement, basées sur un formulaire long qui a été envoyé à un dans six ménages. Les groupes d'îlots de recensement ont une taille de population optimale de 1 500 et les secteurs de recensement ont une taille de population optimale de 4 000, bien que dans la pratique, les populations varient considérablement. SF4 contient les mêmes informations que SF3 pour la race et les groupes ethniques détaillés, avec la même règle de suppression que SF2. En plus de ces quatre fichiers de données primaires, le Census Bureau fournit également des fichiers de limites cartographiques numériques pour les entités politiques du pays, ainsi que des approximations des limites des codes postaux connues sous le nom de zones de totalisation des codes postaux (ZCTA).

Le Census Bureau mène également l'American Community Survey (ACS), une enquête continue conçue pour atteindre 3 millions de ménages chaque année dans tout le pays. L'objectif de cette enquête est de permettre la publication d'informations démographiques et socio-économiques détaillées plus d'une fois par décennie. Les données pour les unités géographiques totalisant plus de 65 000 personnes seront publiées chaque année, tandis que les données pour les unités géographiques plus petites seront basées sur une moyenne mobile sur trois ou cinq ans. Il remplacera le formulaire détaillé du recensement, qui ne sera pas administré en 2010. Il y aura sans aucun doute une période d'ajustement difficile alors que les chercheurs en santé publique commenceront à utiliser les données de l'ACS.

À l'heure actuelle, le niveau d'information disponible pour les moments intercensitaires est assez limité et provient des estimations du Census Bureau au niveau de l'État ou du comté. Ces estimations sont utilisées dans le calcul des taux de cancer par les agences fédérales et étatiques, bien que certaines recherches aient montré qu'elles ne sont pas particulièrement fiables, en particulier les estimations au niveau du comté pour des groupes ethniques spécifiques [53]. Divers fournisseurs privés publient des estimations intercensitaires pour des zones plus petites que les comtés, bien qu'il soit impossible de vérifier leur exactitude. Étant donné que de nombreux fournisseurs utilisent les estimations du Census Bureau comme contrôles (par exemple, les estimations des fournisseurs des populations de codes postaux dans un comté doivent être ajoutées à l'estimation du Census Bureau pour ce comté), les estimations des fournisseurs souffrent nécessairement des mêmes limitations que les estimations du Census Bureau. Enfin, certains gouvernements d'État publient leurs propres estimations de population. En général, on pense que ces estimations représentent des améliorations par rapport aux estimations du Census Bureau en raison des niveaux plus élevés de connaissances locales et d'une utilisation plus large des sources de données. Cependant, nous ne sommes pas au courant d'efforts indépendants pour évaluer ces allégations. Les exemples incluent les estimations et projections démographiques publiées par le Département des finances de Californie et celles du Programme d'épidémiologie du Centre de recherche sur le cancer d'Hawaï. Ces dernières estimations de population ont été développées en réponse à une préoccupation selon laquelle la population autochtone hawaïenne était considérablement sous-estimée dans les recensements précédents et sont utilisées par le NCI pour calculer les taux de cancer nationaux.

Le recensement de 2000 a permis aux répondants de sélectionner plus d'une race, bien que les données sur le cancer commencent seulement à être collectées de cette manière. Par conséquent, les données démographiques de 2000 doivent être « rapprochées » des catégories monoraciales antérieures pour permettre des comparaisons avec des données antérieures. Le NCHS a développé un algorithme de pontage sophistiqué prenant en compte l'âge, le sexe, la répartition des groupes monoraciaux au sein des comtés et d'autres covariables [54]. Cet algorithme est reflété dans les projections et estimations démographiques de 1991 à 2003 qui sont publiées sur le site Web du NCI et incluses dans leur logiciel statistique. Le Census Bureau lui-même utilise un algorithme plus simple dans ses estimations, attribuant des proportions égales de chaque combinaison de races multiples aux races simples constituantes [55]. Étant donné la multiplicité des estimations de population et des méthodes de calcul disponibles, il est important de connaître les sources de ces données et de savoir comment elles peuvent influencer la confiance associée à un résultat de recherche particulier. Cela est particulièrement vrai pour les analyses sur de petites zones, où les incertitudes sont les plus élevées.

En plus des problèmes mentionnés ci-dessus, il est important de comprendre que même les chiffres du recensement décennal ne sont pas aussi précis qu'on le croit généralement. Le recensement représente une tentative de dénombrer la population à une date unique, mais invariablement certaines personnes sont omises ou comptées deux fois. Ces sous-dénombrements et surdénombrements sont différents selon la race, le statut socio-économique et la zone géographique, ce qui peut biaiser les taux de cancer [56, 57].

D'innombrables études épidémiologiques et géographiques utilisent les données du recensement dans une certaine mesure, y compris la plupart des études qui rapportent les taux de cancer pour les zones géographiques. Il est également assez courant d'utiliser des données de recensement lorsque les données au niveau individuel ne sont pas disponibles, en particulier pour les indicateurs de statut socio-économique [58-60], le niveau d'instruction [61] et les caractéristiques du logement [7]. Le tableau 2 résume les sources de données démographiques décrites dans cette section.

3. Enquêtes

En plus du Census Bureau en tant que source principale de données sur les attributs sociodémographiques, les données d'enquêtes spéciales peuvent fournir des informations précieuses sur ces caractéristiques pour les groupes de population dans certaines régions. L'une des enquêtes de ce type les plus connues est peut-être le système de surveillance des facteurs de risque comportemental (BRFSS) parrainé par le CDC, qui est présenté comme "la plus grande enquête téléphonique au monde". Conçu dans les années 1980 pour suivre les tendances des facteurs de risque comportementaux au niveau des États, ce système permanent d'enquêtes nationales fournit également des informations sur les sous-zones et les sous-groupes dans certains des plus grands États. Certains chercheurs ont estimé la prévalence des facteurs de risque comportementaux au niveau du comté en combinant les données BRFSS à l'échelle de l'État avec des données démographiques au niveau du comté [62, 63]. Une application de cartographie pour afficher les données de réponse BRFSS au niveau de l'État et de la métropole est également disponible http://apps.nccd.cdc.gov/gisbrfss/.

Une autre enquête nationale bien connue est la National Health and Nutrition Examination Survey (NHANES) du NCHS, qui est en place depuis 1960 et combine les informations du questionnaire avec un examen physique national et un programme de biosurveillance. Le NCHS parraine également une enquête nationale sur les soins de santé (NHCS), une enquête nationale par entretien sur la santé (NHIS), une enquête nationale sur la vaccination (NIS) et une enquête nationale sur la croissance de la famille (NSFG). Des efforts à grande échelle conçus de la même manière pour suivre les différences temporelles et spatiales pour les comportements de santé ciblés au sein d'un État comprennent l'enquête sur le tabac en Californie, l'enquête sur la santé des femmes et l'enquête sur l'information sur la santé (tableau 3).

Bien que les données d'enquêtes de population n'aient pas été largement intégrées dans les études SIG à ce jour, ces ressources pourraient à l'avenir fournir une certaine opportunité de caractériser les différences régionales dans les profils de risque comportementaux ciblés pour des résultats de santé spécifiques.

4. Données environnementales

Au cours des dernières décennies, il y a eu une forte augmentation de la disponibilité de données environnementales enregistrées spatialement aux États-Unis et dans d'autres pays. La plupart de ces données ont été recueillies à la suite de réglementations environnementales ou d'efforts de recherche financés par le gouvernement. Des exemples de programmes américains pour collecter des données spatiales sur les concentrations ou les rejets de polluants dans l'environnement comprennent le programme national d'évaluation de la qualité de l'eau (NAWQA) de l'United States Geological Survey (USGS) http://water.usgs.gov/nawqa, the Environmental Protection Base de données nationale d'évaluation des substances toxiques de l'air de l'Agence (EPA) http://www.epa.gov/ttn/atw, et programme d'inventaire des rejets toxiques de l'EPA http://www.epa.gov/tri. L'EPA a organisé les données environnementales dans une base de données générique appelée Envirofacts Data Warehouse http://www.epa.gov/enviro/. Certains États déploient des efforts considérables pour recueillir des données environnementales supplémentaires. Un exemple est le programme de déclaration de l'utilisation des pesticides de la Californie http://www.cdpr.ca.gov/docs/pur/purmain.htm) qui exige la déclaration de toutes les utilisations de pesticides agricoles au niveau des sections du Public Land Survey System (une unité d'environ un mille carré de superficie).

Il y a plusieurs questions à considérer dans l'utilisation de ces données pour attribuer une « exposition » dans les études épidémiologiques. Les données de surveillance collectées à des fins réglementaires devraient être soigneusement évaluées pour leur utilité pour estimer les expositions individuelles. Le devenir et le transport des produits chimiques dans l'environnement devraient également être pris en compte. De simples mesures de proximité des sites de rejets chimiques peuvent ne pas décrire adéquatement le transport du produit chimique dans l'environnement. La voie d'exposition probable doit être considérée ainsi que la plausibilité biologique d'une association entre l'exposition et la maladie à l'étude. Enfin, une grande partie des données de surveillance environnementale ont été recueillies au cours de la dernière décennie et il sera difficile de reconstituer l'exposition sur des périodes plus longues plus pertinentes pour l'incidence du cancer.

Les bases de données environnementales ont commencé à être utilisées dans les études épidémiologiques du cancer pour déterminer si les taux de mortalité ou d'incidence de la maladie sont plus élevés dans les zones présentant des expositions environnementales spécifiques (c. conception d'études épidémiologiques analytiques (c.-à-d. études cas-témoins, études de cohorte). À quelques exceptions près, l'emplacement de résidence est utilisé comme emplacement géographique pour l'attribution de l'exposition. Ci-dessous, nous donnons un aperçu des différents types de données d'exposition enregistrées dans l'espace et incluons des exemples de leur utilisation dans les études épidémiologiques du cancer.

Une. Données sur la qualité de l'eau

L'EPA des États-Unis est chargée de réglementer l'approvisionnement public en eau potable. Un approvisionnement en eau est régulé s'il compte 5 branchements ou plus ou dessert au moins 25 personnes. Une surveillance de routine est requise pour une variété de contaminants et d'éléments naturels, notamment les sous-produits de désinfection, l'arsenic, les nitrates, certains pesticides et les produits chimiques organiques volatils. Les États sont tenus de signaler les violations des niveaux maximaux de contaminants (MCL) à l'EPA. Depuis 1996, l'EPA est tenue de maintenir une base de données nationale sur l'occurrence des contaminants (NCOD) en utilisant les données d'occurrence des contaminants réglementés et non réglementés dans les réseaux d'eau publics. La majorité des données historiques de mesure de l'approvisionnement public en eau, cependant, réside dans les États. Certains États enregistrent la latitude et la longitude des emplacements où les échantillons d'eau ont été prélevés (emplacement dans le système de distribution, point d'entrée du système de distribution ou emplacement de la source d'eau). Les informations de localisation ne sont généralement pas accessibles au public, mais peuvent être mises à la disposition des chercheurs avec les approbations appropriées.

Les données sur la qualité de l'eau sont rapportées par service public et pour être utiles pour les études épidémiologiques, un lien avec les villes desservies doit être établi. Dans les grandes régions métropolitaines, plusieurs services publics peuvent desservir une ville ou, à l'inverse, un service public peut desservir plusieurs villes et lotissements. Par conséquent, l'établissement d'un lien précis entre les adresses des participants à l'étude et les services d'eau est essentiel pour éviter une mauvaise classification de l'exposition. Les mesures d'exposition à long terme peuvent être calculées lorsqu'un historique de la source d'eau à vie est collecté. Des exemples d'études utilisant des données de surveillance de la qualité de l'eau d'approvisionnement public comprennent des études sur les sous-produits de désinfection [64-66]., le nitrate [67, 68]., les radionucléides [69, 70] et l'arsenic [71, 72]. Les contaminants tels que les sous-produits de désinfection et les composés organiques volatils varient en concentration dans un système de distribution d'approvisionnement public. Des efforts de modélisation basés sur les SIG ont été utilisés pour améliorer les estimations de l'exposition dans les résidences individuelles [73, 74].

Contrairement aux approvisionnements en eau publics, les puits domestiques privés ne sont pas réglementés et il n'y a pas d'exigences de surveillance, bien que les propriétaires de puits puissent être tenus de fournir des informations sur la qualité de l'eau lors de la vente d'une propriété dans certains États. Certains États ont mené des enquêtes représentatives sur la qualité de l'eau des puits privés [75]. Une enquête nationale a été menée par l'EPA en 1988-1990 [76, 77]. Les Centers for Disease Control (CDC) des États-Unis ont mené une enquête sur les bactéries coliformes, les nitrates et l'atrazine dans des puits privés dans neuf États du Midwest http://www.cdc.gov/nceh/emergency/WellWater/default.htm. Le manque de données historiques sur la qualité de l'eau des puits privés limite l'évaluation de l'exposition pour les études épidémiologiques du cancer dans cette population.

Le programme USGS NAWQA collecte des informations sur les nutriments, les pesticides, les composés organiques volatils, les radionucléides et les ions majeurs dans plus de 50 bassins fluviaux et aquifères depuis 1991. Toutes les données de mesure incluent des attributs spatiaux. Étant donné que le but de cet effort de recherche est de comprendre la qualité de l'eau ambiante (pas nécessairement la même que la qualité de l'eau potable), ces données peuvent ne pas être directement utilisées dans les études épidémiologiques. Cependant, les données NAWQA peuvent être utiles dans les efforts de modélisation pour estimer les niveaux de contaminants dans les puits privés. L'EPA gère également deux systèmes de gestion de données contenant des informations sur la qualité de l'eau collectées par des groupes fédéraux, étatiques et privés pour les eaux de surface et souterraines dans les 50 États. Le Legacy Data Center (LDC) est une base de données archivée avec des données datant du début du 20e siècle jusqu'à la fin de 1998. STORET contient des données collectées à partir de 1999, ainsi que des données plus anciennes documentées du LDC. Le tableau 4 résume les sources de données sur la qualité de l'eau.

B. Les polluants atmosphériques

L'EPA collecte et traite les données de surveillance des États sur six principaux polluants atmosphériques (monoxyde de carbone, dioxyde d'azote, ozone, dioxyde de soufre, particules [PM10 et PM2,5], plomb) et polluants atmosphériques dangereux, dont 188 ont été identifiés. Les polluants atmosphériques dangereux (HAP), également connus sous le nom de toxiques atmosphériques, sont ceux pour lesquels il existe des preuves d'un risque accru de cancer ou de troubles de la reproduction.La surveillance de routine des PAD n'est pas requise et les données de surveillance qui existent sont dispersées par rapport aux polluants atmosphériques de référence. Les données sont conservées dans la base de données des systèmes de qualité de l'air.

L'EPA compile les émissions de HAP provenant de sources fixes (points et zones) et de sources mobiles dans une base de données de l'inventaire national des toxiques (NTI) (maintenant combinée avec les données nationales sur les tendances des émissions dans la base de données de l'inventaire national des émissions), qui est mise à jour tous les trois ans. Pour effectuer les mises à jour, l'EPA obtient des inventaires d'émissions des agences environnementales des États et des données supplémentaires d'autres sources, y compris le Toxic Release Inventory. Le premier inventaire national date de 1996. L'échelle spatiale des données sur les émissions varie selon le type de source. Des informations sur la localisation des émissions de sources ponctuelles sont disponibles, tandis que les émissions de sources locales sont estimées au niveau du comté. À l'aide d'un modèle de dispersion, l'EPA a estimé les concentrations moyennes annuelles de HAP pour chaque secteur de recensement aux États-Unis contigus [78]. Ces ensembles de données sont résumés dans le tableau 5.

Les données de surveillance des polluants atmosphériques ont été utilisées dans des études sur le cancer du poumon, qui ont généralement utilisé un certain type de modèle de dispersion pour estimer l'exposition pour les régions métropolitaines ou les secteurs de recensement [79-81]. Récemment, les concentrations modélisées de HAP ont été utilisées pour évaluer l'incidence du cancer chez l'enfant [44]. D'autres études ont également évalué la densité du trafic et l'incidence des cancers chez l'enfant [43].

C. Pesticides Agricoles

Aux États-Unis, le Département de l'agriculture des États-Unis (USDA) est le principal organisme fédéral chargé de recueillir des informations sur l'utilisation de pesticides sur les cultures et le bétail. La disponibilité des données historiques sur l'utilisation des pesticides agricoles aux États-Unis a été examinée [82]. La première enquête complète sur l'utilisation des pesticides sur les cultures a eu lieu en 1964 [83] et des enquêtes périodiques ont été menées par la suite jusqu'aux années 1970. Ces premières enquêtes ne fournissaient que des estimations nationales ou régionales de l'utilisation spécifique aux cultures pour les pesticides individuels. À partir de 1986, les enquêtes de l'USDA ont produit des estimations spécifiques aux États de l'utilisation de pesticides sur les grandes cultures dans les principaux États producteurs et à partir de 1990, des estimations semestrielles spécifiques à l'État de l'utilisation de pesticides sur les fruits et légumes étaient également disponibles.

Plusieurs États ont collecté leurs propres informations sur l'utilisation des pesticides, mais la plupart des efforts de collecte de données sont récents. L'Oregon a promulgué une législation exigeant la déclaration de l'utilisation de pesticides agricoles à partir de 2002, mais un financement insuffisant a été fourni pour des années supplémentaires. Les données d'État sur l'utilisation des pesticides sont les plus complètes pour la Californie, qui a un certain type de déclaration obligatoire pour les pesticides agricoles depuis les années 1950, actuellement supervisée par le California Department of Pesticide Regulation. À partir de 1969, des informations sur les pesticides à usage restreint ont été rendues publiques. En 1990, une nouvelle loi obligeait les producteurs à déclarer mensuellement toute utilisation de pesticides sur les cultures, y compris le nom et le fabricant du pesticide, la culture traitée, la section d'arpentage public où le pesticide a été appliqué, la date et l'heure d'application, le nombre de acres traités, méthode d'application et taux d'application. La disponibilité de ces données détaillées sur l'utilisation des pesticides à l'échelle spatiale d'une section a conduit au développement de méthodes pour relier les données d'utilisation aux données sur l'incidence du cancer [84] pour une utilisation dans une étude écologique du cancer infantile au niveau du secteur de recensement [42] . Les données californiennes ont également été utilisées dans une étude cas-témoins sur le cancer du pancréas [85], une étude de cohorte sur le cancer du sein [51] et une étude cas-témoins non encore publiée sur le cancer infantile. Des méthodes ont également été développées pour estimer l'exposition potentielle aux pesticides dans les résidences en reliant les données sur l'utilisation des pesticides aux cartes des cultures [86, 87]. « L'exposition » aux pesticides est attribuée aux maisons qui ont des champs cultivés à des distances qui reflètent la dérive probable des pesticides. Le tableau 6 résume les sources de données sur les pesticides.

Ré. Rejets industriels et déchets dangereux

Aux États-Unis, la loi de 1986 sur la planification d'urgence et le droit à l'information des communautés exige que certaines industries déclarent chaque année à l'EPA leurs rejets et activités de gestion des déchets impliquant des produits chimiques toxiques spécifiques. Les données sont accessibles au public dans une base de données appelée Toxics Release Inventory (TRI). Les installations de fabrication, d'extraction de métaux, d'extraction de charbon et de production d'électricité doivent déclarer la masse estimée de produits chimiques toxiques rejetés dans l'environnement (air, eau, terre ou injection souterraine), traités sur place ou expédiés hors site pour un traitement ultérieur des déchets. . La déclaration n'est requise que pour les installations qui répondent à certains critères minimaux en termes de livres de produits chimiques toxiques produits ou traités, les produits chimiques persistants qui se bioaccumulent sont soumis à des exigences minimales de déclaration inférieures. Les règlements n'exigent pas de surveillance environnementale, de sorte que la plupart des données sont des estimations de rejets. Les informations de localisation sont rapportées par l'entreprise et ne sont pas vérifiées par l'EPA. Certaines des forces et des limites de ces données pour les études sur la santé environnementale ont été décrites [88, 89].

Le Canada exige également la déclaration des émissions de produits chimiques classés par le Centre international de recherche sur le cancer comme cancérogènes probables, probables et possibles pour l'homme pour 64 secteurs industriels [90]. Ces données font partie de la Base de données canadienne sur la qualité de l'environnement, qui contient également un inventaire national des sites d'élimination des déchets municipaux, des données municipales sur l'eau potable, des données sur la qualité de l'air et des données historiques sur l'emplacement industriel et la productivité [91]. Une vaste étude cas-témoins multiprovinciale portant sur 18 sites de cancer a été menée dans le but de relier les antécédents résidentiels par code postal à la base de données environnementale pour la surveillance du cancer. À ce jour, une analyse de la proximité résidentielle de 7 types d'industries lourdes et du risque de lymphome non hodgkinien (LNH) a été publiée. La proximité résidentielle à moins de 3,2 km des fonderies de cuivre et à moins de 0,8 km des usines de pâte au sulfite était associée à un risque accru de LNH [92] après ajustement pour l'emploi dans les industries évaluées. Des études cas-témoins antérieures sur le LNH [93] et la leucémie [94] ont révélé des risques élevés de résider à proximité de sites industriels, mais ces études se sont appuyées sur une évaluation autodéclarée de la distance entre la résidence et les installations industrielles qui peut être sujette à un biais de rappel. .

L'EPA conserve des informations sur l'emplacement des gestionnaires de déchets, des installations de traitement des déchets et des sites de déchets qui sont réglementés en vertu de la Resource and Conservation Recovery Act (RCRA) et de la Comprehensive Environmental Response, Compensation, and Liability Act (CERCLA), également connue sous le nom de Superfund. loi dans la base de données RCRAInfo disponible via Envirofacts Data Warehouse. Les informations sur l'emplacement des entreprises qui ont délivré des permis pour rejeter des déchets dans les rivières sont conservées dans la base de données du système de conformité des permis (également disponible via Envirofacts). Ces sources de données sont résumées dans le tableau 7.

L'Agence américaine pour le registre des substances toxiques et des maladies (ATSDR) a été créée par le Congrès en 1980 dans le cadre du CERCLA. Depuis 1986, l'ATSDR est tenue de réaliser une évaluation de la santé publique sur chacun des sites figurant sur la liste des priorités nationales de l'EPA, sites de déchets considérés comme les plus dangereux. Le but de ces évaluations est d'évaluer l'exposition aux substances dangereuses et les effets sur la santé de la population vivant à proximité du site [95]. L'emplacement des sites et des informations sur des contaminants spécifiques selon le type de milieu (sol, air, eau) dans lequel ils ont été mesurés sont disponibles sur le site Web de la base de données ATSDR HazDat. Les limites de ces données de surveillance pour les études sur le cancer comprennent les données de mesure historiques limitées. Quelques études ont évalué l'incidence du cancer chez les personnes potentiellement exposées aux sites de déchets dangereux [96] ou aux sites de déchets municipaux et aux incinérateurs [97, 98].

La reconstitution de l'exposition historique aux rejets des industries et des décharges est difficile pour les études de cancers à longue latence. Quelques études ont évalué la proximité et la durée de résidence à proximité des sites. Une longue durée de résidence à moins d'un demi-mile d'une usine chimique fabriquant des PCB était positivement corrélée avec les concentrations de PCB dans le sérum sanguin [99]. Cependant, aucune des études épidémiologiques à ce jour n'a déterminé si la proximité entraînait une exposition significative aux produits chimiques des sites. La confusion par le statut socio-économique doit également être évaluée car les installations de fabrication et de traitement des déchets sont plus susceptibles d'être situées dans des quartiers à statut socio-économique inférieur [100] et le statut socio-économique est associé à l'incidence de certains cancers.

5. Télédétection/imagerie aérienne

Les données de télédétection comprennent des images de la terre et de notre atmosphère obtenues par des satellites ou des avions. L'utilité de l'information dépend en grande partie de la technologie utilisée pour obtenir l'imagerie et du traitement supplémentaire qui a été effectué pour géoréférencer les données. Le centre de données des systèmes d'observation des ressources terrestres de l'USGS (EDC) est le principal entrepôt américain de ces données. La photographie aérienne est disponible depuis le début du XXe siècle. Les Quadrangles Orthophoto Numériques (DOQ) qui sont des images numériques de photos aériennes qui combinent les caractéristiques d'une photo avec les qualités géoréférencées d'une carte sont disponibles via EDC de 1987 à aujourd'hui. Les DOQ sont disponibles en images noir et blanc, couleur naturelle ou infrarouge couleur et ont une résolution au sol de 1 mètre. L'imagerie satellitaire utile pour la caractérisation de la couverture terrestre comprend l'imagerie multispectrale Landsat disponible dès 1972. L'USGS a créé des données historiques sur l'utilisation des terres et la couverture terrestre dérivées de photographies aériennes des années 1970 et 1980 (les données sur l'utilisation des terres et la couverture terrestre). Un ensemble de données nationales sur l'occupation du sol (NLCD) dérivé de l'imagerie multispectrale Landsat pour 1992 est disponible. L'ensemble de données nationales sur les caractéristiques des terres à plusieurs résolutions (MRLC) qui représente la couverture terrestre en 2000 est actuellement en cours d'élaboration. Le tableau 8 résume ces sources de données. Les applications de ces données aux études sur le cancer ont inclus la cartographie des résidences sur les cartes des cultures pour estimer leur exposition probable aux pesticides agricoles [49, 87, 101].

Disponibilité centralisée des données géospatiales

Les sources de données que nous avons décrites sont disponibles auprès d'une multitude d'agences fédérales et étatiques. Le site Web des systèmes d'information géographique du National Cancer Institute http://gis.cancer.gov propose des liens vers bon nombre de ces sources, ainsi que des liens vers des outils et des ressources géographiques disponibles gratuitement. Il y a également eu plusieurs initiatives pour essayer de compiler des données spatiales dans un système d'information partagé et centralisé [102]. De tels systèmes centralisés offrent la promesse de systèmes de codage de données, de formats de fichiers et de définitions de limites géographiques normalisés. Ils facilitent également le partage de métadonnées ou d'informations descriptives sur les données. Le chef de file dans cette entreprise a été le Federal Geographic Data Committee http://www.fgdc.gov. Le FGDC est un consortium d'agences fédérales chargé de développer l'infrastructure nationale de données spatiales (NSDI), un ensemble de technologies, de politiques, de normes et de procédures qui facilitent la création et le partage de données géospatiales. Parmi les réalisations du FGDC figure la création du National Spatial Data Clearinghouse, un catalogue central de liens vers les données et métadonnées géospatiales. En 2003, un portail Web amélioré http://www.geodata.gov a été lancé pour faciliter davantage l'accès à ces données. De nombreux États ont fait écho au centre d'échange national avec leurs propres centres d'échange. Le New York GIS Clearinghouse http://www.nysgis.state.ny.us, par exemple, compte plus de 400 institutions membres fournissant des liens vers des milliers d'ensembles de données.

La communauté de collecte de données sur le cancer n'a pas encore pleinement engagé cette ressource. En janvier 2004, aucune donnée sur l'incidence du cancer ou la mortalité n'était disponible par l'intermédiaire du centre d'information national. Le mot-clé « cancer » n'a fourni qu'un lien vers l'Environmental Defense Scorecard, un site Web à partir duquel divers ensembles de données environnementales peuvent être consultés, en particulier ceux publiés par l'EPA http://www.scorecard.org. La plupart des données très limitées de la catégorie « santé humaine et maladies » accessibles via le portail Web se composaient d'hôpitaux et d'autres établissements de santé pour une poignée d'États. Dans certains cas, les étapes requises pour rendre les données sur le cancer disponibles via le centre d'échange national seraient modestes. Par exemple, les données de mortalité du NCI, les fichiers de limites géographiques et les métadonnées associées utilisées dans son site Web Cancer Mortality Maps and Graphs sont facilement accessibles et téléchargés, et seules des modifications mineures seraient nécessaires pour les rendre conformes aux normes FGDC.

Le DataWeb http://www.TheDataWeb.org est une autre ressource de données en ligne centralisée, consistant en un réseau de bibliothèques de données en ligne créé en collaboration entre le CDC et le US Census Bureau. Les bibliothèques se composent à la fois de microdonnées et de données agrégées dans de nombreuses catégories. Les données de santé disponibles comprennent les données d'enquête NHANES et NHIS et la mortalité au niveau du comté. Les informations de DataWeb sont accessibles via DataFerret, une application qui prépare des ensembles de données à télécharger par l'utilisateur. Il permet aux utilisateurs de sélectionner une « base de données » de variables, puis de recoder ces variables selon leurs besoins. Les utilisateurs développent et personnalisent des tableaux de données et peuvent les télécharger sur leur bureau dans une variété de formats courants.


Les données ne sont pas une marchandise

Il y a plusieurs années, les analystes du secteur ont comparé les mégadonnées au pétrole. Comme le pétrole, le big data alimenterait une révolution économique et transformerait le monde. Rétrospectivement, il semble clair que traiter les données comme une sorte de marchandise est malavisé et dangereux. Les données ne sont pas du pétrole, c'est nous. Ce sont nos vies, nos comportements et nos habitudes. C'est où nous allons, ce que nous mangeons, où nous vivons, combien d'argent nous gagnons, quelles personnes nous aimons et quelles personnes nous n'aimons pas.

Nous ne pouvons pas traiter les données comme le pétrole car les données sont infiniment plus précieuses. Une meilleure compréhension des données commence par accepter que les données, comme la neige, se présentent sous diverses formes. Et pour le meilleur ou pour le pire, tout n'est pas égal.


Voir la vidéo: Evelyne Dheliat plaquée pendant sa météo sur TF1! (Octobre 2021).