Suite

Calculer la zone minimale où x% du total de la valeur raster est concentré dans les polygones


J'ai une couche raster (concentration en chlorophylle) et une couche de polygones qui ne se chevauchent pas (régions de l'océan). Pour chaque polygone, j'aimerais calculer la zone où la majorité de la chlorophylle est concentrée - par exemple, la plus petite valeur de zone couverte par 80% de la chlorophylle totale dans ce polygone. Je ne peux pas penser à une manière élégante d'y parvenir, cependant. J'ai accès à la fois à ArcGIS (10.1) et à QGIS (2.8 Wien), donc une solution avec l'un ou l'autre convient.

Une approche grossière consiste à commencer à une valeur seuil élevée et à calculer la quantité de chlorophylle au-dessus de ce seuil pour chaque polygone, puis à la transformer en un pourcentage de la chlorophylle totale pour ce polygone. Progressivement, je diminue le seuil jusqu'à atteindre 80% pour chaque polygone et calcule la zone correspondante. C'est horriblement maladroit et je sais qu'il doit y avoir une solution plus efficace. Existe-t-il un meilleur moyen de le faire avec ArcGIS ou QGIS ?


Voici ma solution. J'ai abandonné ArcGIS et QGIS, choisissant plutôt de sortir les données dans un fichier et d'effectuer le calcul dans R.

# Charger la bibliothèque library(raster) # Charger les données chlorophylle chloro <- raster("… /data/chloro.tif") # Charger les polygones poly <- shapefile("… /data/poly.shp") # Extraire les données dans les polygones poly .chloro <- extract(chloro, poly) # Détermine la proportion de polygone où il y a une proportion spécifiée de données poly.prop <- function(x, seuil){ foo <- approxfun(1 - cumsum(sort(x, na.last = NA))/sum(x, na.rm=TRUE), sort(x, na.last = NA)) return(sum(x - foo(threshold)>0, na.rm=TRUE)/length(x )) } # Tableau nul pour contenir les valeurs de seuil seuil.values ​​<- NULL # Boucle à travers les polygones pour (i dans poly.chloro) seuil.valeurs <- c(threshold.values, poly.prop(i, 0.8))

Le code ci-dessus détermine la proportion de chaque polygone qui est occupée par 80% de la chlorophylle totale. En multipliant ces proportions par la superficie des polygones, on obtient la superficie occupée par 80 % de la chlorophylle, au besoin.

Au départ, je charge lerasterbibliothèque, ainsi que les fichiers raster de chlorophylle et de forme de polygone. Ensuite, j'extrait tous les points raster situés dans chaque polygone. lepoly.propfonction effectue le calcul réel. Les valeurs raster associées à chaque polygone sont transmises à cette fonction, quisortes les dans l'ordre croissant. Une somme cumulée de ce vecteur trié est calculée, qui est ensuite divisée par la somme totale du vecteur. Cela donne la proportion de la chlorophylle totale en dessous de chaque point dans le vecteur trié. Par exemple, disons aumle e élément du vecteur a la valeur 0,2. Cela signifie que 20% de la chlorophylle est en dessous de ce point. Cependant, je formule ma question en termes de combien est au dessus ce point, donc je soustrais cette valeur de 1. (Dans mon exemple,1 - 0.2 = 0.8signifie que 80% est au-dessus de ce point.) Ensuite, j'utilise leenviron amusantfonction pour dériver une relation empirique entre les valeurs du vecteur trié (c'est-à-dire les concentrations de chlorophylle) et la proportion correspondante de chlorophylle totale au-dessus de ce point. Cette fonction prend une valeur, comme 0,8, et renvoie la concentration de chlorophylle dans l'ensemble de données où il y a 80 % de la chlorophylle totale au-dessus. Enfin, je soustrais cette concentration seuil de toutes les valeurs raster de ce polygone et je compte combien de valeurs raster sont au-dessus de zéro (c'est-à-dire au-dessus du seuil). Lorsque cela est divisé par le nombre total de valeurs raster dans ce polygone, cela donne la proportion du polygone qui est occupée par ces points.

Je ne sais pas si cette explication est claire, mais cela fonctionne bien - je l'ai vérifiée par rapport à ma méthode approximative initiale.

PS Merci à tous pour vos solutions et commentaires. Cette solution s'appuie sur plusieurs des idées présentées par d'autres ci-dessus.


Je convertirais la couche de polygones en un ensemble de données raster avec un outil d'entité en raster, puis je ferais une analyse de superposition de raster à l'aide de la calculatrice raster. Assurez-vous que vous utilisez les mêmes systèmes de projection et de coordonnées pour les deux, sinon vos résultats seront erronés. Bonne chance!


Il existe plusieurs façons de résoudre ce problème. La première consiste à essayer de trouver un outil pour faire le travail. La seconde consiste à utiliser un peu de script Python pour le faire manuellement. Puisque trouver des outils semble être difficile, voici une solution python.

Vous devrez trouver vous-même comment installer python/gdal/numpy, mais une fois que vous l'aurez fait, vous ne serez pas déçu. C'est plus simple sous Linux, mais il existe de nombreux "comment faire".

Je ne suis pas d'accord pour dire que l'approche de la « force brute » est trop compliquée. Avec seulement 150 polygones, vous ne pourrez probablement même pas prendre une gorgée de votre café avant la fin de l'exécution… à moins qu'il n'y ait des millions de pixels par polygone, auquel cas vous obtiendrez quelques gorgées.

Voici un extrait que j'ai mis en place… pas testé mais je l'ai regardé et je suis presque sûr que cela fonctionnera pour vous.

[modifier : imprimer la zone au fur et à mesure] [autre modification : gdal ImportError en python sous Windows peut être utile pour faire fonctionner python + gdal]

import gdal import numpy as np area_per_pixel = 100 #??? vous remplissez #chlorophyll_raster est un tableau numpy créé à partir de gdal pour ouvrir le raster r = gdal.Open('somefilename') chlorophyll_raster = np.array(r.GetRasterBand(1).ReadAsArray()) #polygon_raster est un raster avec exactement la même forme/taille/résolution que chlorophyll_raster, avec des valeurs égales à l'identifiant de polygone #cet utilitaire de ligne de commande gdal_rasterize peut être utile ici. r2 = gdal.Open('somefilename2') polygon_raster = np.array(r2.GetRasterBand(1).ReadAsArray()) #max/min utilisé dans le seuillage max_c = np.max(chlorophyll_raster) min_c = np.min(chlorophyll_raster) #créer un raster vierge avec la même forme que les autres… nodata default #à la fin, ce raster aura des valeurs égales à "1" en pixel #emplacements qui contribuent à 80% par polygone 80_pc_raster = np.ones(chlorophyll_raster.shape) * - 9999 #tune this(0.01) pour correspondre à l'échelle de vos incréments de concentration de chorophylle = (max_c - min_c) / .01 pour pid dans np.unique(polygon_raster):#for chaque polygone pour seuil dans np.linspace(max_c, min_c, incréments) :#passez par chaque niveau (force brute). commencer par max total_c_for_polygon = np.sum(chlorophyll_raster[polygon_raster == pid]) threshold_mask = (polygon_raster == pid) & (chlorophyll_raster >= seuil)mount_c_above_threshold_for_polygon = np.sum(chlorophyll_raster_raster_[threshold_above] > 0.8 : #si votre incrément est petit, dès que vous croisez les 80% #remplissez le raster 80_pc_raster avec les pixels qui composent les 80% 80_pc_raster[threshold_mask] = 1 #print polygon-id, area print pid, ', ', np.sum(threshold_mask) * area_per_pixel break #break hors de la boucle interne et sur le polygone suivant new_raster = gdal.GetDriverByName('GTiff').Create('80pc_raster.tif', 80_pc_raster.shape[1], 80_pc_raster .shape[0], 1, gdal.GDT_Float32) #new_raster.SetGeoTransform(geo_transform) #devrait le faire #new_raster.SetProjection(projection) #ceci aussi new_raster.GetRasterBand(1).SetNoDataValue(-9999) new_raster.GetRasterBand(1 ).WriteArray(80_pc_raster ) #terminé.

Bonne chance!


Pourriez-vous calculer les quintiles du raster dans chaque polygone et utiliser ces valeurs pour créer des courbes de niveau où le quintile inférieur représente la limite 80/20 ?


Quotient d'emplacement

Le quotient de localisation , un rapport de ratios, est un indice géographique largement utilisé. Il est utilisé pour mesurer et cartographier les distributions relatives ou les concentrations relatives d'une sous-zone à la zone dans son ensemble. Un exemple de son utilisation pourrait être de mesurer la répartition résidentielle des scientifiques dans une région métropolitaine par rapport au total des travailleurs. La formule est :

où LQ est le quotient de localisation, Xje est la valeur d'une variable (scientifiques) dans la zone je, ∑Xje est la valeur de la variable (scientifiques) dans toutes les sous-zones combinées (zone métropolitaine), Nje est le total des travailleurs dans chaque sous-zone de la région métropolitaine, et ∑Nje est le nombre total de travailleurs dans la région métropolitaine ( tableaux I et II ). Ainsi, le quotient de localisation varie dans notre exemple avec la proportion de scientifiques dans une sous-zone donnée par rapport au nombre total de travailleurs dans cette sous-zone. Une valeur de 100 indique qu'il y a la même proportion de scientifiques que de travailleurs totaux. Dans les zones 1 et 5 du tableau II , les valeurs inférieures à 100 montrent qu'il y a moins de scientifiques que « prévu » par rapport au nombre total de travailleurs. En revanche, des valeurs supérieures à 100 indiquent qu'il y a une proportion plus élevée de scientifiques que « prévu » vivant dans les sous-zones 2 et 3 par rapport au nombre total de travailleurs.

Tableau I. Exemples de données pour le calcul du quotient de localisation

Tableau II. Calcul du quotient de localisation

L'étude de 2002 de Gong en fournit une illustration. Son intérêt est de mesurer la concentration métropolitaine relative d'employés dans les services d'aide et d'approvisionnement dans le sud des États-Unis. Les services de fourniture d'aide fournissent des travailleurs temporaires à d'autres entreprises contre rémunération. Ici, l'accent est mis sur la façon dont le nombre d'employés des services d'aide et d'approvisionnement varie entre les régions métropolitaines de différentes tailles par rapport au nombre total de travailleurs. Le tableau III montre une distribution hiérarchique claire plus la zone métropolitaine est grande, plus le quotient de localisation est élevé (sauf pour les zones métropolitaines de plus de 2,5 millions d'habitants). Les résultats de Gong indiquent que les grandes régions métropolitaines ont tendance à avoir un plus grand besoin de travailleurs temporaires par rapport à l'ensemble des travailleurs.

Tableau III. Quotient d'emplacement pour les travailleurs des services d'assistance dans le sud des États-Unis par catégories de taille de la population de la région métropolitaine, 1999

Hiérarchie métropolitainequotient de localisation
2,5 millions et plus1.14
1 million à 2 499 9991.22
250 000 à 999 9991.04
100 000 à 249 9990.73
Moins de 100 0000.58

La source: Hongmian Gong (2002, 54).


Intersection de polygones dans R en utilisant sf

Je veux évaluer le degré de proximité spatiale de chaque point avec d'autres points équivalents en regardant le nombre d'autres à moins de 400m (5 minutes de marche).

J'ai quelques points sur une carte. Je peux dessiner une simple zone tampon de 400 m autour d'eux. Je veux déterminer quels tampons se chevauchent, puis compter le nombre de chevauchements. Ce nombre de chevauchements doit se rapporter au point d'origine afin que je puisse voir quel point a le plus grand nombre de chevauchements et donc si je devais marcher 400 m à partir de ce point, je pourrais déterminer combien d'autres points je pourrais atteindre.

J'ai posé cette question dans le débordement SIG, mais je ne suis pas sûr que cela obtiendra une réponse pour ArcGIS et je pense que je préférerais faire le travail dans R.

Pour simplifier voici du code

Cela devrait montrer les zones tampons qui se chevauchent autour des bureaux de vote. Ce que j'aimerais faire, c'est compter le nombre de chevauchements ce qui est fait ici :

Et c'est le peu dont je ne suis pas sûr, pour obtenir la sortie que je veux (qui affichera les "Hotspots" des bureaux de vote dans ce cas), comment puis-je colorer les choses? Comment puis-je : évaluer le degré de proximité spatiale de chaque point avec d'autres points équivalents en regardant le nombre d'autres à moins de 400m (5 minutes de marche).

Edit : cela donne aux intersections des couleurs différentes, ce qui est génial. plot(polls_intersection$geometry,col = sf.colors(categorical = TRUE, alpha = .5))

Qu'est-ce que je colorie ici ? Je veux dire, ça a l'air sympa mais je ne sais vraiment pas ce que je fais.


Une analyse spatiale des homicides à Saint Louis : l'importance de l'échelle

La présente étude examine les déterminants sociaux, raciaux et économiques des taux d'homicides dans la ville de St. Louis en utilisant des secteurs de recensement et des grilles raster de 1000 m comme unités géographiques pour l'analyse. Nous avons utilisé une échelle géographique de niveau méso et micro pour évaluer les impacts potentiels associés au problème d'unité de surface modifiable. À l'aide d'une interpolation spatiale, nous avons généré des valeurs redistribuées, basées sur une pondération surfacique, pour les variables explicatives. Nous avons appliqué des modèles de régression de dépendance spatiale pour évaluer la relation avec les déterminants sociaux, économiques et raciaux dans l'analyse des taux d'homicides. Au niveau du secteur de recensement, nous ne trouvons pas de relations significatives entre les variables explicatives sociales, raciales et économiques et les taux d'homicides. Des relations significatives sont observées au niveau de la grille de 1000 m avec l'inégalité des revenus, l'assistance publique, la diversité raciale et les taux d'homicides. Les résultats indiquent un compromis entre le pouvoir explicatif du secteur de recensement et la précision de la grille raster de 1000 m.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Caractère du fond marin -- Offshore de Ventura, Californie

Johnson, Samuel Y. , Dartnell, Peter, Cochrane, Guy R. , Golden, Nadine E. , Phillips, Eleyne L. , Ritchie, Andrew C. , Kvitek, Rikk G. , Greene, H. Gary , Krigsman, Lisa M . , Endris, Charles A. , Seitz, Gordon G. , Gutierrez, Carlos I. , Sliter, Ray W. , Erdey, Mercedes D. , Wong, Florence L. , Yoklavich, Mary M. , Draut, Amy E. , Hart, Patrick E. , et Cochran, Susan A. , 2013, série de cartes des eaux de l'État de Californie - Au large de Ventura, Californie : carte SIM 3254 d'enquêtes scientifiques, US Geological Survey, Reston, VA.

Liens en ligne :

West_Bounding_Coordinate : -119.447913 East_Bounding_Coordinate : -119.251007 North_Bounding_Coordinate : 34.374585 South_Bounding_Coordinate : 34.214948

Date_de_début : 06-juil-2006 Date_de_fin : 27-sep-2007 Currentness_Reference : état du sol

La projection cartographique utilisée est WGS 1984 UTM Zone 11N.

Paramètres de projection : Scale_Factor_at_Central_Meridian : 0.9996 Longitude_of_Central_Meridian : -117.0 Latitude_of_Projection_Origin : 0.0 False_Easting : 500000.0 False_Northing : 0.0

Les coordonnées planaires sont codées à l'aide d'une paire de coordonnées
Les abscisses (coordonnées x) sont spécifiées au 0,000000002220024164500956 le plus proche
Les ordonnées (coordonnées y) sont spécifiées au 0,000000002220024164500956 le plus proche
Les coordonnées planaires sont spécifiées en mètre

Le référentiel horizontal utilisé est le D WGS 1984.
L'ellipsoïde utilisé est le WGS 1984.
Le demi-grand axe de l'ellipsoïde utilisé est 6378137.0.
L'aplatissement de l'ellipsoïde utilisé est 1/298,257223563.

SeafloorCharacter_OffshoreVentura.tif.vat Les attributs du fichier de formes incluent VALUE - code pour les classes de caractères du fond marin, COUNT - nombre de pixels, SLOPE - classes de pente, DEPTH_ZONE - zones de profondeur, SUBSTRATE - classes de substrat, SUBST_DESC - brève description des classes de substrat et FULL_DESC - description détaillée des classes de substrat . Le fichier de formes peut être ajouté à n'importe quel projet ESRI ArcMap. (Source : ESRI)

Rowid Numéro de fonction interne. (Source : ESRI)

Numéros séquentiels uniques entiers qui sont générés automatiquement.

VALEUR Cette classe de caractères du fond marin a été produite à l'aide d'une classification à maximum de vraisemblance supervisée par vidéo des signaux de bathymétrie et de rétrodiffusion (intensité de retour) des systèmes sonar. La rugosité dérivée (rugosité) et l'intensité de la rétrodiffusion ont été utilisées comme variantes dans la classification. Les quatre classes de substrat résultantes (1-4) ont été divisées en zones de profondeur (voir Attribut : DEPTH_ZONE) en ajoutant à la valeur de grille d'origine par incréments de 10. Zone de profondeur 2, ajoutez 0 à la valeur de grille Zone de profondeur 3, ajoutez 10 à valeur de grille Depth Zone 4, ajoutez 20 à la valeur de grille et Depth Zone 5, ajoutez 30 à la valeur de grille. La grille résultante a ensuite été classée en classes de pente (voir Attribut : PENTE) en ajoutant aux valeurs de raster classées (y compris les zones de profondeur) par incréments de 50. Classe de pente 1, ajoutez 0 à la valeur de grille Classe de pente 2, ajoutez 50 à la valeur de grille Classe de pente 3, ajoutez 100 à la valeur de grille et Classe de pente 4, ajoutez 150 à la valeur de grille. (Source : ESRI)

Plage de valeurs
Le minimum:1
Maximum:12
Unités:Entiers 1 - 12 sur la base de la méthode de classification décrite au chapitre 4 et à la feuille 5 de SIM 3254 ("California State Waters Map Series--Offshore of Ventura, California"), disponible sur <https://pubs.usgs.gov/ds/781 /OffshoreVentura/data_catalog_OffshoreVentura.html>.

COMPTER Le nombre de pixels (cellule de grille de 2 m x 2 m) représentés dans chaque classe de fond marin (voir Attribut : VALUE). (Source : ESRI)

Plage de valeurs
Le minimum:1081
Maximum:21204114
Unités:Nombre entier de 1081 à 21204114 pixels.

PENTE Les zones de pente pour la grille cartographique finale des fonds marins ont été identifiées sur la base de la grille bathymétrique lissée. Le lissage a été effectué en appliquant des statistiques focales à la grille bathymétrique d'origine. L'outil utilise une fenêtre mobile et calcule la valeur moyenne du pixel central dans un voisinage circulaire de 20 m de rayon sur toute la carte raster. La carte raster résultante représente une valeur lissée mettant en évidence les tendances générales et élimine les variétés locales du terrain (telles que les pentes plus élevées le long des affleurements rocheux). Les valeurs de classe de pente sont : 1 (0 degrés à 5 degrés), 2 (5 degrés à 30 degrés), 3 (30 degrés à 60 degrés) ou 4 (60 degrés à 90 degrés). (Source : USGS)

Plage de valeurs
Le minimum:1
Maximum:1
Unités:Valeur entière 1 représentant la classe de pente de <5 degrés comme décrit ci-dessus.

DEPTH_ZONE Les zones de profondeur de la grille cartographique finale des fonds marins ont été identifiées sur la base de la grille bathymétrique lissée. Le lissage a été effectué en appliquant des statistiques focales à la grille bathymétrique d'origine. L'outil utilise une fenêtre mobile et calcule la valeur moyenne du pixel central dans un voisinage circulaire de 20 m de rayon sur toute la carte raster. La carte raster résultante représente une valeur lissée mettant en évidence les tendances générales et élimine les variétés locales du terrain (telles que les profondeurs variables le long des affleurements rocheux). Les valeurs de la zone de profondeur sont : Zone de profondeur 1, zone de profondeur intertidale 2, intertidale à 30 m Zone de profondeur 3, 30 à 100 m Zone de profondeur 4, 100 à 200 m et Zone de profondeur 5, plus de 200 m (California Department of Fish and Game , 2008). (Source : USGS)

Plage de valeurs
Le minimum:2
Maximum:3
Unités:Valeurs entières 2-3 représentant les classes de pente décrites ci-dessus.

SUBSTRAT Valeurs codées des classes de substrat. Classe 1, Sédiments lisses à grains fins à moyens Classe 2, Sédiments lisses et roches mixtes Classe 3, Roches et rochers, rugueux Classe 4, Caractéristiques anthropiques (Source : USGS)

Plage de valeurs
Le minimum:1
Maximum:4
Unités:Valeurs entières 1 à 4 représentant les classes de substrat décrites ci-dessus.

SUBST_DESC Description sommaire des quatre classes de substrat codées par l'attribut SUBSTRAT. Classe 1, Sédiments lisses à grains fins à moyens Classe 2, Sédiments lisses et roches mixtes Classe 3, Roches et rochers rugueux Classe 4, Matériau anthropique accidenté (Source : USGS)

Les noms sont sous forme de texte, longueur maximale : 50

FULL_DESC Description détaillée des quatre classes de substrat codées par l'attribut SUBSTRAT. Classe 1, faible rétrodiffusion, faible rugosité, généralement sable boueux à grain moyen, souvent ondulé et/ou enfoui Classe 2, rétrodiffusion modérée à très élevée, faible rugosité, généralement sable à gros grains, gravier, galets et substrat rocheux Classe 3, élevée rétrodiffusion et rugosité élevée, généralement blocs et substrat rocheux rugueux Classe 4, rétrodiffusion élevée, rugosité élevée liée au développement par l'homme (Source : USGS)


Construction de route

La construction de routes est l'une des principales activités dans lesquelles les humains déplacent de grandes quantités de matériaux terrestres. L'importance de la construction de routes en tant que processus anthropique majeur est mise en évidence dans la littérature dans son utilisation comme l'un des seuls facteurs pour calculer l'impact géomorphique total de l'homme sur l'environnement. Des études de cas indiquent que les déblais et remblais nécessaires pour créer un terrain plat pour la construction de routes et de bâtiments ont une empreinte géomorphologique qui est deux fois la taille de la zone plate, en supposant une pente naturelle de 20 pour cent. À une pente de 30 pour cent, la zone qui doit être nivelée est trois fois la taille de la zone plate souhaitée. Ainsi, même si une route peut n'utiliser qu'une zone relativement petite, en terrain accidenté, l'empreinte géomorphique peut être plusieurs fois plus grande.

La figure ci-dessous montre une route principale coupée à travers une crête importante dans l'ouest du Maryland, Sideling Hill. La coupe a été faite pour accueillir l'itinéraire de l'Interstate 68. Tel que mesuré à partir de la grille de différence SRTM NED, la profondeur de la coupe est de 98 mètres et le volume de matériau enlevé est de 3,52 x 10 6 mètres cubes, ce qui correspond à 2,4 pour cent du volume publié de 3,44 x 10 6 mètres cubes.

Exemple de changement topographique résultant de la construction de routes dans l'ouest du Maryland. De gauche à droite, les images sont le relief ombré NED, le relief ombré SRTM et l'image Landsat (rendu infrarouge couleur). Cette route coupait à travers une crête proéminente, Sideling Hill, a été faite pour accueillir l'Interstate 68. La zone indiquée est d'environ 5,0 km est-ouest par 9,5 km nord-sud.

Bien qu'il n'ait pas été utilisé systématiquement dans cette étude, un jeu de données existant sur la distance à la route la plus proche pourrait être utile pour caractériser les polygones de changement topographique. Le jeu de données raster d'une résolution de 30 mètres indique la distance en ligne droite jusqu'à la route la plus proche pour chaque emplacement des États-Unis voisins. Initialement, on pensait que cet ensemble de données pourrait être utilisé pour aider à étiqueter les polygones de changement topographique en tant qu'entités de déblai ou de remplissage de route en examinant la valeur de distance minimale à la route la plus proche dans un polygone. Une valeur minimale de zéro indiquerait qu'une route a traversé le polygone, et donc l'entité peut être due à la construction d'une nouvelle route. Après avoir examiné les zones d'essai des modifications connues de la construction des routes, il est devenu évident que l'ensemble de données sur les routes utilisé comme base pour les calculs de distance n'incluait pas bon nombre des nouvelles routes évidentes.

La figure suivante montre un exemple du jeu de données de distance à la route la plus proche pour la région de Chino Hills dans le comté d'Orange, en Californie. Même si le jeu de données national sur la distance à la route la plus proche n'a pas été utilisé dans cette étude pour étiqueter automatiquement les polygones de changement, il pourrait être utile pour l'interprétation des changements topographiques sur des zones locales.

Exemple de jeu de données de distance à la route la plus proche pour la région de Chino Hills dans le comté d'Orange, en Californie. De gauche à droite, les images sont le relief ombré SRTM, l'image Landsat (rendu infrarouge couleur) et l'ensemble de données de distance à la route la plus proche et le réseau routier (bleu foncé = zéro mètre de la route la plus proche rouge = = 2 130 mètres de la route la plus proche) . Des polygones de changement topographique (bleu = coupé rouge = remblai) sont superposés sur chaque image. Les flèches indiquent les déblais et remblais associés à la construction d'une nouvelle route principale. Notez que la nouvelle autoroute n'est pas incluse dans les données sources utilisées pour calculer la distance à la route la plus proche.


Calculer la superficie minimale où x% du total de la valeur raster est concentré dans les polygones - Systèmes d'information géographique

UNITÉ 37 - ALGORITHMES DE QUADTRES ET INDEX Spatiaux

Cette unité est très longue et traite d'algorithmes plus avancés. Selon les capacités et les intérêts de vos élèves, vous voudrez peut-être omettre les troisième et quatrième algorithmes inclus ou envisager de les fournir comme documents supplémentaires. Les étudiants avancés peuvent être heureux d'avoir l'opportunité d'examiner la nature plus subtile et complexe de ces algorithmes avancés. La dernière section sur les index ne dépend pas du matériel couvert dans les sections précédentes.

UNITÉ 37 - ALGORITHMES DE QUADTRES ET INDEX Spatiaux

    l'unité précédente a défini l'idée de base d'un quadtree

  • mesure de surface
  • recouvrir
  • trouver des feuilles adjacentes
  • mesurer la surface des parcelles contiguës

  • pour parcourir un quadtree :
    • commencez par descendre de la branche la plus à gauche jusqu'à la première feuille
    • après avoir traité chaque feuille de cette branche, remontez jusqu'au point de branchement précédent et tournez à droite
    • cela conduira soit à une autre feuille, soit à un point de branchement précédent

      plusieurs des exemples suivants utilisent ce raster simple et son quadtree associé

      pour mesurer l'aire de A sur la carte :
        traverser l'arbre et ajouter les feuilles codées A, pondérées par la surface au niveau de la feuille

        dans l'exemple quadtree, les éléments au niveau 0 ont une zone 16, au niveau 1 - zone 4, au niveau 2 - zone 1

      1 (feuille 00) + 1(feuille 02) + 1 (feuille 03) + 4 (feuille 2) + 1 (feuille 32)

        frais généraux - Deuxième carte
          remarque : cette surcharge peut être physiquement superposée sur la première carte

        • pour superposer les deux cartes :
          • traverser les arbres simultanément, en suivant toutes les branches qui existent dans l'un ou l'autre arbre
          • où un arbre manque de branches (a une feuille là où l'autre arbre a des branches), attribuez la valeur de la feuille associée à chacune des branches
          • par exemple. le nœud 3 est ramifié sur la carte 1, pas sur la carte 2
            • les feuilles dérivées de ce nœud (30, 31, 32 et 33) ont les valeurs B, B, A et B sur la carte 1, toutes 2 sur la carte 2

              frais généraux - Première carte + Deuxième carte

              trouver si deux feuilles (par exemple 03 et 2) sont adjacentes

            Corollaire : trouver les feuilles adjacentes à une feuille donnée (par exemple 03)

              ici adjacent signifie partager un bord commun, pas seulement un point commun

              les codes de feuille sont : 1. même longueur (blocs de même taille, par exemple 01 et 02) ou 2. l'un est plus long que l'autre (blocs de tailles différentes, par exemple 03 et 2)

                base 4 en raison de la "règle des 4" utilisée dans la construction d'arbres quaternaires 2. entrelacement de bits 3. un nouveau concept appelé arithmétique tessérale

                L'arithmétique tessérale est une arithmétique alternative utile pour travailler avec les particularités de l'adressage quadtree

              • par exemple. ajouter 1 à 0001 donne 0010
              • c'est la même chose que l'arithmétique décimale sauf que les retenues se produisent lorsque le total atteint 2 au lieu de 10

                document - Détermination de la contiguïté

              • deux feuilles sont adjacentes si leurs représentations binaires diffèrent de 1 ou 10 binaires (décimal 1 ou 2) en arithmétique tessérale
              • exemple : 01 et 03 sont adjacents car 0001 et 0011 diffèrent par 10 binaire, ou décimal 2
              • exemple : 033 et 211 sont adjacents car en arithmétique tessérale

              001111 + 10 = 100101, ou 100101 - 10 = 001111

              • en prenant le plus long des deux codes :
                • le convertir de la base 4 en binaire
                • tesseral-add et -subtract 01 et 10 pour créer quatre nouveaux codes
                • rejeter tous les cas où la soustraction n'était pas possible (un code "négatif" en aurait résulté, ou un "report" aurait été nécessaire à gauche du chiffre le plus à gauche)
                • éliminer les chiffres les plus à droite en excès dans les codes plus longs transformés résultants
                • reconvertir en base 4 pour obtenir la feuille

                0010 + 1 = 0011 0010 + 10 = 1000 0010 - 1 (impossible) 0010 - 10 = 0000

                001111 + 1 = 011010 001111 + 10 = 100101 001111 - 1 = 001110 001111 - 10 = 001101

                  (remarque : ne peut trouver que des codes égaux ou plus courts - des blocs de feuilles égaux ou plus grands)

                0011 + 1 = 0110 = 12 : vantail 1 0011 + 10 = 1001 = 21 : vantail 2 0011 - 1 = 0010 = 02 : vantail 02 0011 - 10 = 0001 = 01 : vantail 01

                  la longueur de la frontière commune entre les deux blocs est déterminée par le niveau du code le plus long
                    peut l'utiliser pour construire un algorithme pour déterminer le périmètre d'un patch
                      par exemple. la longueur de la limite A/B dans le premier exemple de carte

                      trouver l'aire d'un patch contigu de même valeur, par ex. tout un

                    Corollaire : combien y a-t-il de patchs séparés de A ?

                      c'est-à-dire trouver des ensembles contigus de blocs de quadtree ou de polygones de forme irrégulière, étant donné que les contiguïtés sont connues ou peuvent être déterminées

                      document - Zone d'un patch contigu (2 pages)

                      laissez de l'espace pour un "pointeur" pour chaque feuille et donnez-lui une valeur initiale de 0 (voir document)

                    • pour chaque feuille i :
                      • trouver toutes les feuilles adjacentes j avec des codes de longueur égale ou plus courte (4 maximum)
                      • si la feuille adjacente j a la même valeur, déterminez laquelle de i et j a la position la plus élevée (valeur la plus grande) dans la liste, et placez son pointeur sur la position la plus basse
                      • (note : si un pointeur a déjà été modifié, il peut être modifié à nouveau ou laissé, le résultat est le même)

                        1. le nombre de patchs contigus sera égal au nombre de zéros
                          dans l'exemple, deux pointeurs valent zéro, indiquant deux patchs contigus

                        • les feuilles composantes de chaque patch peuvent être trouvées en commençant par une feuille à la fin (ou au début) de la liste et en suivant les pointeurs jusqu'à ce qu'un 0 soit trouvé
                          • par exemple. feuille à la position 10 (code 33) pointe vers 8, qui pointe à 7, qui pointe sur 5, qui pointe sur 2, qui a un pointeur zéro
                          • par conséquent, la position du vantail 10 (code 33) fait partie du même patch que le vantail 2 (code 01) et a la valeur B

                          A vantaux : 00 02 03 2 32 A positions : 1 3 4 6 9 Aire de A : 1 + 1 + 1 + 4 + 1 = 8

                          Feuilles B : 01 1 30 31 33 Positions B : 2 5 7 8 10 Aire de B : 1 + 4 + 1 + 1 + 1 = 8

                          • les index sont utilisés dans les systèmes vectoriels pour accéder rapidement aux objets dans une zone particulière d'une carte
                            • très utile pour rechercher des objets potentiellement superposés ou se croisant
                            • par conséquent, ils sont une partie essentielle d'une opération de superposition de polygones

                              surcharge - Index Quadtree

                            • certains gros objets devront être classés comme NULL, car ils s'étendent sur plus d'une des quatre feuilles de la première branche (0, 1, 2 et 3)
                            • d'autres objets plus petits peuvent être enfermés dans une petite feuille, par ex. 031

                            • pour trouver tous les objets qui pourraient croiser une zone, une ligne ou un point d'intérêt
                              • trouver la feuille de quadtree renfermant l'objet d'intérêt
                              • à partir de ce point, suivez le quadtree à travers tous les points de branchement qui contiennent la cellule d'origine et descendez le quadtree jusqu'à tous les points de branchement et les feuilles sous la cellule

                              • les objets susceptibles d'intersecter la zone d'intérêt sont ceux de la feuille 31 et de toutes les feuilles au-dessus de celle-ci
                                • donc, ce sont 3 et la feuille nulle
                                • les objets dans d'autres feuilles (éloignées) ne peuvent pas croiser la zone d'intérêt, ils n'ont donc pas besoin d'être vérifiés

                                • l'indexation quadtree est plus efficace pour les petits objets, en particulier les points
                                  • les gros objets ont tendance à nécessiter de grandes feuilles de fermeture même s'ils ne remplissent pas une grande partie de l'espace (c.
                                    • ces objets devront toujours être vérifiés pour l'intersection

                                    • il peut être avantageux d'avoir des blocs de plus petite superficie et d'autres de plus grande superficie, plutôt que quatre carrés égaux à chaque embranchement
                                    • cependant, pour une efficacité générale, les blocs doivent être rectangulaires

                                      Les index R-tree sont une réponse au problème de l'indexation de grandes zones
                                        R signifie "range", un concept similaire à MER

                                      • autant d'objets que possible sont entièrement dans l'un ou l'autre rectangle
                                      • il y a un nombre à peu près égal d'objets entièrement enfermés dans chaque rectangle

                                        chaque objet est associé à un nœud de l'arbre

                                        bien que les tests de référence aient montré que les R-trees sont généralement plus efficaces que les quadtrees et les simples tris 1-D, ils nécessitent beaucoup de calculs pour construire

                                      Buchmann, A., O. Gunther, T.R. Smith et Y.-F. Wang. Conception et mise en œuvre de grandes bases de données spatiales, Notes d'unité en informatique 409, Springer Verlag, Berlin. Contient une collection d'articles sur l'indexation des données spatiales.

                                      Guttman, A, 1984. "R-trees: Une structure d'index dynamique pour la recherche spatiale," ACM SIGMOD, pp. 47-57.

                                      Mark, D.M. et J.P. Lauzon, 1984. "Linear quadtrees for Geographic Information Systems," Actes, Symposium international sur la gestion des données spatiales, Zurich, 2:412-430.

                                      Noronha, V., 1988. "A survey of Hierarchical Partitioning Methods for Vector Images," Proceedings, Third International Symposium on Spatial Data Handling, Sydney, Australie, pp. 185-199.

                                      Oosterom, P. van, 1990. "Un arbre de partitionnement d'espace binaire modifié pour les systèmes d'information géographique," International Journal of Geographical Information Systems 4(2):133-46.

                                      Les deux livres Samet répertoriés comme références pour l'unité 36 contiennent des discussions utiles sur les algorithmes quadtree.

                                      1. Comparez les méthodes formelles d'indexation (quadtree, R-tree, tri 1-D) avec les méthodes informelles d'usage courant (par exemple, continents, États-nations, grandes divisions civiles, codes postaux, etc.).

                                      2. Comment concevez-vous une étude pour comparer l'efficacité de différents systèmes d'indexation ? Quelles données utiliseriez-vous ? Quelles mesures compareriez-vous?

                                      3. Les systèmes vectoriels actuels utilisent une grande variété de schémas d'indexation. Pourquoi n'y a-t-il pas de consensus sur le meilleur ? Quelles méthodes sont les meilleures pour quels buts et domaine d'application ?

                                      4. Concevoir un moyen de mesurer la distance Manhattan entre deux blocs de quadtree (en supposant que les codes ont la même longueur).


                                      Veuillez envoyer vos commentaires concernant le contenu à : Brian Klinkenberg
                                      Please send comments regarding web-site problems to: The Techmaster
                                      Last Updated: August 30, 1997.


                                      Data Acquisition, Materials, and Methods

                                      Remote Sensing Resources

                                      This study utilized Landsat satellite imagery, IRS 1C&ndashLISS III (1994&ndash1995) and Resourcesat 1 (2004&ndash2005) imagery, multi-temporal Landsat 2005 MSS,TM, and ETM+ data that were projected to WGS84 datum (UTM 44N projection) at sub-pixel level. Refer to the companion file Decadal_LULC_India_satellite_compfile.pdf for a complete list of the satellites, sensors, paths/rows, and dates.

                                      Table 1. Satellite remote sensing data used for the LULC mapping.

                                      Point final Satellite Sensor Spatial Resolution
                                      1984-1985 Landsat 4 MSS 80 (resampled to 60 m)
                                      1994-1995 Landsat 5 and IRS 1B Thematic Mapper (TM), Enhanced Thematic Mapper (ETM +), Linear Imaging Self-Scanning Sensor &ndash 1 (LISS I) 30 and 72 m (resampled to 56 m) respectively
                                      2004-2005 Landsat 5 and Resourcesat ETM+, LISS III 30 and 23.5 m respectively

                                      LULC Mapping Process

                                      The following methodology was used to produce the 2005, 1995, and 1985 maps.

                                      The 2005 satellite data were classified and a national map of land cover was produced. The 2005 satellite data were aggregated into 19 IGBP classes (Table 2) from the available 150 classes using hierarchical class merging approach and converted to a vector map using webGIS tool. The 2005 LULC vector map was overlaid on the satellite data (Landsat TM 2005) for three seasons, winter (January-March), pre-monsoon (April-June), and post-monsoon (mid-October to December) to identify cropland and fallow land (multiple cropping was not captured). Extensive ground truth data were collected using existing field transects with high-resolution satellite images. The errors and discrepancies were corrected using the ground truth data and ancillary information supplemented by existing maps (Roy et al., 2015).

                                      Table 2. Land use/land cover (LULC) classification scheme and description of classes.

                                      Noter: The IGBP Classifications in the table correspond to the pixel values in the data provided with this data set.

                                      Pixel Value Land Use Type (IGBP Classification) La description
                                      1 Deciduous Broadleaf Forest Woody vegetation with a percent cover >60% and height exceeding 2 m. Consists of broadleaf tree communities with an annual cycle of leaf-on and leaf-off periods.
                                      2 Crop land Temporarily cropped area followed by harvest and a bare soil period (e.g. single and multiple cropping systems). Note that perennial woody crops will be classified as either forest or shrubland, whichever is appropriate. Includes orchards. Different types of cropland based on seasons (e.g. kharif, rabi, zaid) were not subclassified.
                                      3 Built-up Land Land covered by buildings and other man-made structures
                                      4 Mixed Forests Trees with a percent cover >60% and height exceeding 2 m. Consists of tree communities with interspersed mixtures or mosaics of the other four forest types. None of the forest types exceeds 60% of landscape
                                      5 Shrubland Land with woody vegetation less than 2 m in height and with greater than 10% shrub canopy cover. The shrub foliage can be either evergreen or deciduous
                                      6 Barren land Exposed soil, sand, rocks, or snow and never have more than 10% vegetated cover during any time of the year
                                      7 Fallow land Land taken up for cultivation temporarily allowed to remain uncultivated for one or more seasons.
                                      8 Terre en friche Sparsely vegetated land with signs of erosion and land deformation that could be attributed to lack of appropriate water and soil management, or natural causes. These are land identified as currently underutilized and could be reclaimed to productive uses with reasonable effort. Degraded forest (<10% tree cover) with signs of erosion is classified under wasteland
                                      9 Water bodies Areas with surface water, either impounded in the form of ponds, lakes, reservoirs or flowing as streams, rivers, etc. Can be either fresh or salt-water bodies
                                      10 Plantations Commercial horticulture plantations, orchards and tree cash crops
                                      11 Aquaculture Land used to farm aquatic organisms including fish, mollusc, crustaceans and aquatic plants.
                                      12 Mangrove Forest Evergreen forests in the intertidal areas. These forests are dense and dominated by halophytic plants
                                      13 Salt Pan Land covered with salt and minerals
                                      14 Grassland Herbaceous types of cover. Tree and shrub cover is less than 10%
                                      15 Evergreen Broad leaf Forest Broad leaf woody vegetation with a percent cover >60% and height exceeding 2 m. Almost all trees and shrubs remain green year round. Canopy is never without green foliage.
                                      16 Deciduous Needleleaf Forest Woody vegetation with a percent cover >60% and height exceeding 2 m. Consists of seasonal needle leaf tree communities with an annual cycle of leaf-on and leaf-off periods.
                                      17 Permanent wetland Land with permanent mixture of water and herbaceous or woody vegetation. The vegetation can be present either in salt, brackish, or fresh water
                                      18 Snow and Ice Land covered with snow or ice for most of the year
                                      19 Evergreen Needle forest Needle leaf woody vegetation with a percent cover >60% and height exceeding 2 m.Almost all trees remain green all year. Canopy is never without green foliage.

                                      Footnote: Savannas (both woody and non-woody) were merged within the forest category. Savannas are defined as herbaceous and other understory systems, with forest canopy cover of 10-60%, and height exceeding 2 m. Also note that IGBP definition of forest is different from that of Forestry Survey of India (2013). FSI defines forest cover as all lands more than 1 ha in area, with a tree canopy density of more than 10% as forest, irrespective of ownership and legal status. FSI reported forest area includes areas of trees outside forest (forest plantation, and agriculture plantations). In our study, forest plantations are a separate category (&ldquoPlantations&rdquo category), and agricultural plantations are included within &ldquoCropland&rdquo category.

                                      To minimize errors in land change detection between 2005 and 1995, the 1995 Landsat images were overlaid onto the 2005 map and polygons were traced where land change had occurred, leaving unchanged polygons unmodified (for greater consistency). This method reduced the effort required to produce the 1995 map since only polygons that underwent change between 1995 and 2005 were traced. In addition, as polygons that remained unchanged over time were preserved, it minimized errors in land change detection by eliminating human-errors in visual interpretation of unmodified polygons that could have occurred if the 1995 mapped data were interpreted independent of the 2005 mapped data and land change were inferred by differencing the two maps. The nature and extent of the LULC changes were verified from the ground truth data and records from various revenue and forest departments of the respective states (Roy et al., 2015 Meiyappan et al., 2016 in review).

                                      Figure 2. Methodology for LULC maps of 1995 and 1985 to maintain continuity of accuracy as in 2005 (a) editing of changes in polygon, (b) procedure for change mapping and validation. From Roy et al., 2015.

                                      Figure 3. Land use and land cover map for 1995 (Roy et al., 2015).

                                      A similar approach was followed to detect land change between 1985 and 1995, using the 1995 map as a reference and also verification with ground data ( Roy et al., 2015 Meiyappan et al., 2016 in review).

                                      Figure 4. Land use and land cover map for 1985 (Roy et al., 2015).

                                      LULC Change Areas

                                      The 1985, 1995, and 2005 maps were then crossed to generate the change areas. Field surveys were also carried out in 5% of the noted change areas to ascertain the nature of change, their extent and direction of change. The 2005, 1995, and 1985 LULC maps provide reliable and accurate information on the magnitude of LULC change. Change areas are not provided with this data set. See Meiyappan et al., 2016 in review.

                                      Andaman and Nicobar Islands and Lakshadweep were mapped only for year 2005. For year 1995 and 1985 maps, the land pixels of both the regions were filled with that of 2005. In other words, this data set does not record any land use change for Andaman and Nicobar Islands and Lakshadweep, but this does not mean that no land change occurred in reality between 1985 and 2005.


                                      Protocols for selection of climate zones, reference weather stations, and upscaling to national levels Protocols for selection of climate zones, reference weather stations, and upscaling to national levels

                                      Yield gap estimates are made at several spatial scales, from specific locations within important crop production regions (i.e. points at locations with large harvested crop area density and an associated buffer zone), to climate zones (CZs -- defined by growing degree days, temperature seasonality, and aridity index), to large administrative units within a country (province/state), to a national average. For relatively large countries, only crops with total national harvested area of >100,000 ha are evaluated in GYGA. For smaller countries also crops with <100,000 ha are evaluated in GYGA. The underpinning principle is to select CZs and specific locations (points) and associated buffer zones within these CZs that best represent how a given crop is produced in terms of weather, soils, and cropping system. Cropping system information focuses on the proportion of the harvested area, the cropping intensity and some aspects of management (e.g. sowing date and cultivar maturity) at each of these different spatial scales. Justification for this approach comes from recent papers by van Ittersum et al (2013) and Van Wart et al (2013a). The points are defined as locations with weather data. Buffer zones of selected points with weather data include an area within 100 km of the weather station point, with a focus on harvested crop area within that buffer zone. Thus, polygons that define buffer zones are either circular with 100-km radius if the entire buffer fits within the CZ in which it is located or irregular and "clipped" by CZ boundaries if it doesn't.

                                      Within these buffer zones, data are collected for the most prominent soil type[1] x cropping systems combinations for a given water-regime—either rainfed, irrigated, or both if there are significant areas under both types of water regime. For a given buffer zone, Yp and/or Yw are estimated by simulation using the weather data and information about soil types and cropping systems as input to a crop model. Upscaling moves from buffer zones (if there is more than one buffer zone within a CZ), to CZs, to sub-national and national. This approach requires flexibility as to source of weather data because selected points with weather data should be well within the main cropping areas within CZs with large production areas. In cases where good quality weather stations of at least 10 years are lacking, generated 20-yr weather data from a minimum of 3-yrs actual weather data are the second best option, hybrid weather data the third-best option (partly observed and partly generated by using data from nearby stations that may only have rainfall and/or temperature data), or derived gridded weather data (last option). Because detailed data on cropping systems and soils are required for each location, one goal of the selection protocol is to minimize the number of points and associated buffer zones needed within a country to obtain a robust estimate of Yp and/or Yw.

                                      A premise of this method is that weather data, soil data and cropping system data are considered equally important to capture the variation within a climate zone. Data on actual farm yields are also critical for estimating Yg. Selecting CZs and locations with weather data is the starting point in the protocol to minimize the number of locations where the other essential data are required while achieving adequate coverage of crop production area to ensure assessment across a representative range of cropping systems and soils.

                                      Geospatial distribution of crop harvested area is retrieved from SPAM database (You et al., 2006, 2009). SPAM provides gridded data (5 arc minute resolution, approximately 10 x 10 km at the equator) on harvested area around year 2000 for 20 major staple crops, water regime (rainfed or irrigated), and, for rainfed agriculture, harvested area are disaggregated by crop-system input level (subsistence, low-, and high-input). For each grid, the harvested area of rainfed crops is calculated as the sum of the harvested area reported for subsistence-, low- and high-input systems while the harvested area of irrigated crops is taken as given in the SPAM database. If national statistics on crop production are available, updated maps on crop harvested area can be generated for countries where cropland area has recently expanded (e.g., Argentina & Brazil).

                                      The following steps can be distinguished in the protocol to estimate and upscale Yg:

                                      1. CZ selection. Within a country, identify CZs with >5% of total national harvested crop area for the crop/water regime (irrigated or rainfed) in question. These CZs are the "designated" CZs (DCZs) for yield gap assessment of that crop/water regime in that country. Following this approach the selected DCZs typically contain more than 50% of national crop area except in a few cases (see Tables 2 to 9).

                                      2. Selection of weather station points. Selected weather stations can either be existing points where a weather station exists with long-term weather data of adequate quality for yield gap assessment, or a hypothetical weather station location in cases where there is large crop area but without existing weather station coverage. Selected weather stations, either actual or hypothetical, are called reference weather stations (RWS). Hypothetical RWS points will be used in addition to existing RWS for a given crop and country when existing weather stations and their associated buffer zones do not provide 50% coverage of harvested crop area. Based on a recent study in countries with relatively uniform topography, it was found that 40-50% coverage of total harvested crop area within weather station buffer zones is required for a robust estimate of Yp or Yw at a national level (Van Wart et al., 2013b). Therefore, the protocol seeks to achieve 50% coverage of national harvested crop area within buffer zones of the RWS (countries with heterogeneous topography in crop-growing regions may require a larger fraction of total crop area). Selection of RWS proceeds as follows:

                                      (a) Identify existing qualified weather stations[2] within DCZs. Quantify amount of harvested area for the crop in question within each buffer zone surrounding all existing qualified weather stations located within DCZs selected under step #1 above. For each of these buffer zones, exclude harvested area that falls outside the CZ in which a weather station is located.

                                      (b) Select RWS from existing weather stations within DCZs. Identify all existing weather stations located within DCZs that contain >1% of national harvested area for the crop in question within the 100km buffer zone, clipped by the DCZ. Rank weather stations for their clipped harvested crop area. Select the weather station with greatest harvested area and then re-rank all other weather stations that are further away than 180 km of the selected station. Select from among remaining weather stations the one with greatest harvested area, re-rank, and so forth until total harvested area in buffer zones of selected weather stations reaches 50% of total national harvested crop area. If, after achieving 50% coverage, there is one or more DCZ with >5% total national crop area that do not contain a selected weather station, select an additional existing weather station in the crop production area within those DCZs (again, having >1% of national harvested area to qualify). If, after selecting among existing weather stations within DCZs, there is still less than 50% coverage, select among existing weather stations located in other CZs with <5% of national crop area if the weather station's clipped buffer zone contains >1% of national crop area. If 50% coverage is still not achieved, proceed to step 2c.

                                      (c) Selection of hypothetical RWS (if needed). For countries that do not have adequate existing weather stations to achieve 50% coverage of harvested area within DCZs (as in 2b above), or if there is a DCZ without an existing weather station, hypothetical weather stations are selected to achieve 50% coverage and/or to have at least one RWS in each DCZ with >5% total area. Hypothetical weather stations are located in areas with greatest crop area density within the DCZ using a procedure to minimize the number of hypothetical stations needed. As per #2a above, only harvested area within the DCZ in which the hypothetical weather station is located is counted within the buffer zone for that hypothetical weather station point.

                                      (d) The final RWS set. Existing and hypothetical weather stations selected in steps 2a, 2b, and 2c become the RWS for a specific country/crop/water regime (irrigated or rainfed) combination. The set may contain only existing weather stations or it may contain both existing and hypothetical stations. In all cases, however, harvested area within buffer zones is not double-counted. In most cases, a surprisingly small number of RWS is required to achieve 50% coverage of national crop area (Tables 2 to 9) because production of a given crop is concentrated in a few major zones of production. For a few countries and crops, however, production is highly dispersed or topography is not homogeneous such that there are a large number of small CZs. In these cases final total harvested area within buffer zones of selected RWS may not reach 50% coverage.[3]

                                      3. Backfilling weather data for hypothetical RWS. Minimum weather data requirements are listed in footnote[2]. For countries and crops in which there are not adequate numbers and distribution of existing weather stations, we will ask country GYGA country agronomists to search for existing weather data near the location of hypothetical RWS. Maps with preferred locations of these hypothetical RWS will be provided to country agronomists. Sources of data can include: (i) weather stations located at experimental field research and crop breeding sites used by universities, national agricultural research institutes, international CGIAR centers (e.g. CRISAT, AfricaRice, IITA, CIMMYT, IRRI), and (ii) weather data obtained by collaborating projects also seeking actual weather data (AgMIP, CCCAF, HarvestChoice, etc). The following preference hierarchy shall be used in identifying additional weather data sources:

                                      (a) First preference: an existing weather station with good quality, 20+yr data located as close as possible to the hypothetical RWS and within the same CZ

                                      (b) Second preference: an existing weather station with good quality data of at least 10 years located as close as possible to the hypothetical RWS and within the same CZ

                                      (b) Third preference: an existing weather station with less than 20yr weather data (but a minimum of one complete year, preferably 3-5 years). We will generate a long-term weather database for that location by calibration/correlation with NASA-Power data for temperature and solar radiation, and TRMM data for rainfall (link to detailed weather generation method).

                                      (c) Fourth preference: a hybrid weather database. In some places there are long-term rainfall data without other required weather data. In cases where the location of these long-term rainfall data are close to locations with short-term weather data as in 3c above, a "hybrid" weather database may be created using a combination of existing weather data, generated weather data and actual rainfall data.

                                      (d) Last option: Where no weather data are available, we will use the most appropriate source of gridded weather data such as: the TRMM dataset (http://trmm.gsfc.nasa.gov/), containing satellite-based rainfall data, the CRU TS 3 dataset, (Mitchell and Jones, 2005), or the ERA-40 re-analysis dataset (Uppala et al., 2005), the latter two containing among others monthly temperature data.

                                      4. Cropping system and soil data. Collection of data on cropping systems and soil type is tightly focused on the RWS selected by steps 2a, 2b and 2c above. Unfortunately few countries collect and report data on cropping systems at sub-national scales. Hence, in many cases country agronomists will be the "expert" source for estimates of the proportion of total harvested area within a RWS's buffer zone represented by a given cropping system x soil type combination. Site visits to the RWS locations allow collecting information about the area distribution of these systems. Soil parameters will be obtained from existing soil maps and derived crop simulation model parameters (ISRIC-WISE or if available, national maps). Only the most important cropping systems x soil type combinations will be considered.

                                      5. Actual farm yields. The preferred sources of data for actual yields are sub-district or municipality data that is as congruent as possible with crop area distribution within RWS buffer zones. For irrigated crops, the most recent 5-year mean for actual farm yields is preferred, rather than a shorter or longer time series, to avoid an atypical value that may occur in an unusual year and to avoid confounding effects of a yield time trend due to adoption of improved technologies (van Ittersum et al. 2013). For rainfed crops, the most recent 10-year mean for actual farm yields is preferred due to greater year-to-year variability in yield. Where such yield data are not available, actual yield data from household surveys can be used (e.g. those collected by some CGIAR Centers, the World Bank, national agricultural research programs, and other institutions) if they were taken in RWS buffers or similar areas. Where no sub-national data exist near a RWS or roughly congruent with a CZ, GYGA country agronomists may targeted survey led by the GYGA country agronomist, or use the national average yield. Detailed description of preferred methods for obtaining actual yield data can be found here.

                                      6. Simulation of Yp and Yw. Yp and/or Yw will be simulated for each cropping system x soil type x RWS (CSxSoilxRWS) identified in step 2b or 2c. Desired attributes of crop models used for yield gap assessment are provided in Table 1. Estimated Yp and Yw values are upscaled from RWS to the CZ level by weighting for the proportion of harvested area for each RWS x Soil x CS combination. Results at CZ level are used to upscale to the national level by weighting for the proportion of harvested area for each CZ. Annual variability in Yp and Yw will be evaluated at the RWS buffer zone scale and also at CZ and national levels by weighted averaging based on harvested area. Because time-series of actual farm yields at the RWS spatial scale are not likely available in most countries, annual variability in Yg will not be estimated. Instead, Yg will be a fixed value based on average Yp or Yw at each spatial scale and the associated value of Ya. If Ya is only available at a national level, Yg will be estimated by a single value of Ya and will vary only to the extent that Yp or Yw vary at different spatial scales, from the RWS, to CZ, administrative units and nation.

                                      Underpinning assumptions and uncertainties:

                                      1. Availability of weather data. We will be able to find good weather data within the key crop areas. If not, we have to be ready to accept gridded weather data. Generating weather data from incomplete datasets (method to be proposed by Justin et al.) may imply a lot of work if we have to do this for many cases. So, with this proposal we must be ready to accept gridded weather data, at least to get started in year 1, or until actual weather data becomes available.

                                      2. When is a weather data source located in an acceptable place? Ideally it should be in the center of a region with high density of harvested crop area. At a minimum, point 2b above specifies that weather data points must be located within CZ-clipped buffer zones with >1% of national harvested crop area.

                                      3. Uncertainty in crop model simulations. There can be large differences in simulations of Yp and Yw between different crop models using the same data set. Some of these differences occur because some models are better suited, and more rigorously validated for certain locations/conditions than others. Our preferences for desired model attributes addresses this concern to a large extent (see Table 1 below). Likewise, the transparency issue becomes important so that the model used and model inputs are available for all to see within the GYGA for all RWS where Yp and Yw are estimated.

                                      4. What happens if new weather and crop area distribution data become available? Do we need to do a new sampling of soil and management data within the CZ? In the short term, we fix the location of the buffer zones as a result of the protocols 2a, 2b and 2c above. If new, better quality weather data become available as per our preference list under 2a-c, we assign those weather data to an existing buffer zone. In the longer term (say every 3-4 yr) we can update the entire analysis for a country and revise the selection of RWS and sometimes even crop area distribution as influenced by access to improved weather and/or crop distribution data.


                                      Even though the field of spatial databases is more than 40 years old, most existing logical data models are highly focused either on spatial objects (vector data models) or spatial fields (raster data models). Furthermore, spatial index structures and query algorithms are still proposed for one of the approaches and little research work has been dedicated to index structures and query algorithms where both types of information are needed. However, due to the current high availability of different types of data, it is much more common nowadays that applications require querying vector and raster data at the same time.

                                      This paper presents a method to perform a spatial query between a vector data set represented using an R-tree and a raster data set represented using a compact and space-efficient data structure called k 2 -tree that saves main memory space. Therefore, the method described in this paper solves two problems: first, it can be used to evaluate queries between vector and raster data without having to convert one of the data sets to the other data model and second, it saves main memory space, thus obtaining a more scalable system.


                                      Voir la vidéo: Angles des polygones réguliers (Octobre 2021).