Suite

Créer des étiquettes incurvées pour les polygones dans QGIS ?


J'ai pu trouver des réponses sur la façon de procéder dans les anciennes versions de QGIS, mais je n'arrive pas à trouver quoi que ce soit qui traite du dernier versement.

J'ai besoin d'un moyen de faire courber les étiquettes en polygones de forme irrégulière ; dans ce cas les rivières.

J'ai supposé que cette option serait répertoriée sous "Placement" dans les options "Étiquettes", mais je n'ai pu la trouver nulle part.

Je sais qu'il était présent jusqu'à QGIS 2.2 et je pense qu'il doit être inclus dans 2.6.1. Je ne le vois tout simplement pas.

Je connais l'option courbée du plug-in d'étiquetage personnalisé Easy, mais cela ne semble pas fonctionner comme il se doit.


Actuellement, il n'y a pas d'étiquettes de polygones courbes.

Comme suggéré par dassouki, vous pouvez utiliser différentes approches pour créer des lignes qui peuvent ensuite être étiquetées avec des étiquettes courbes. Il peut être plus facile de simplement dessiner manuellement quelques lignes d'étiquetage - si le nombre d'entités en question n'est pas trop élevé.


Créer des étiquettes incurvées pour les polygones dans QGIS ? - Systèmes d'information géographique

Les géocacheurs n'ont pas montré de préférences a priori pour différents types d'utilisation des terres.

Les préférences déclarées exposaient l'appréciation de la montado sur d'autres forêts.

Des préférences pour les paysages ouverts et aquatiques ont également été exposées.

Le géocaching est un bon indicateur des services écosystémiques culturels.

Promouvoir Montado les visites peuvent réduire la dépendance à l'égard des services d'approvisionnement.


Introduction

Les pangolins (Pholidota : Manidae) sont des mammifères insectivores que l'on trouve dans certaines régions d'Afrique et d'Asie (Hua et al., 2015). Ils sont considérés comme les mammifères sauvages les plus trafiqués au monde en raison de la forte demande des consommateurs pour leurs écailles et leur viande (Challender, Harrop & MacMillan, 2015 Cheng, Xing & Bonebrake, 2017). Historiquement, les espèces africaines et asiatiques ont été commercialisées localement pour la consommation, mais comme les niveaux de population locale ont diminué dans certaines parties de l'Asie (Irshad et al., 2015 Challender, Nash & Waterman, 2020 Wu et al., 2004), les chercheurs ont documenté un changement de la demande en provenance d'Asie pour les pangolins africains (Challender, Harrop & MacMillan, 2015 Heinrich et al., 2016) qui serait la principale cause du déclin des populations de pangolins africains (UICN, 2020). De plus, la destruction de l'habitat et les taux de reproduction lents limitent la vitesse à laquelle les pangolins peuvent se remettre de la surexploitation (Heinrich et al., 2016), et les problèmes de contrôle des maladies et d'élevage alimentaire limitent le succès des programmes d'élevage en captivité (Hua et al., 2015 ). Étant donné que les huit espèces sont répertoriées comme Vulnérables, En danger ou En danger critique d'extinction par l'Union internationale pour la conservation de la nature (UICN UICN, 2020 Heinrich et al., 2016 Cheng et al., 2017), une meilleure compréhension des menaces qui pèsent sur, et L'état de conservation des pangolins est donc primordial pour leur protection.

Malgré l'inscription des huit espèces de pangolin à l'Annexe I de la Convention sur le commerce international des espèces menacées d'extinction (CITES) depuis 2016, le trafic de pangolin a souvent été mal documenté et pas efficacement surveillé, voire détecté (Heinrich et al., 2016), donc l'impact réel du commerce illégal mondial sur les populations et la répartition des pangolins reste inconnu. De plus, le manque de données modernes adéquates sur la présence des pangolins rend difficile l'étude des changements géographiques et, par conséquent, la prévision de leurs risques d'extinction. Une évaluation efficace des menaces pour les espèces repose fortement sur les changements dans la répartition géographique de l'espèce au fil du temps (critère B, Catégories et critères de la Liste rouge de l'UICN, UICN, 2020). Ainsi, comprendre comment les distributions de pangolin ont changé au cours des dernières décennies fournira plus d'informations sur les déclins possibles de leurs populations et informera finalement les actions de conservation fondées sur la science.

Une solution possible pour mieux comprendre l'état de conservation des pangolins est de comparer leurs distributions passées et actuelles pour mettre en évidence les régions qui peuvent avoir été précédemment ciblées par les trafiquants, c'est-à-dire les régions où les aires de répartition des espèces sont devenues plus petites, sans aucun changement anthropique associé évident. Les enregistrements de spécimens de musée peuvent fournir à la fois les données temporelles et spatiales nécessaires pour analyser les tendances de distribution (Boakes et al., 2010 Pyke & Ehrlich, 2010 Lister et al., 2011 McLean et al., 2016 Meineke et al., 2018), sans se fier sur des enquêtes coûteuses, longues et à long terme (Newbold, 2010, bien que les archives des musées aient d'autres limites que nous soulignons dans la discussion). En conséquence, les enregistrements de spécimens historiques peuvent être facilement utilisés pour améliorer les évaluations actuelles des menaces pour les pangolins étant donné la rareté des données modernes.

À l'aide des enregistrements de spécimens de musée de pangolin du Global Biodiversity Information Facility (GBIF GBIF, 2019 et du Natural History Museum, Londres (NHM), avec des cartes de répartition géographique et des classifications d'habitat par le Groupe de spécialistes du pangolin de l'UICN SSC (UICN, 2020), nous avons produit des cartes d'habitat (AOH) représentant les aires de répartition actuelles des pangolins, puis nous avons étudié les contractions de l'aire de répartition géographique des pangolins au cours des 150 dernières années en examinant les chevauchements entre les localités historiques des spécimens et les aires de répartition actuelles de l'AOH. changement comme indicateur de la perte d'habitat, et changements de la taille de la population humaine comme indicateur d'une exploitation accrue (Woodroffe, 2000).


Détection aérienne multispectrale de la maladie de la rouille du myrte ( Austropuccinia psidii ) dans une plantation de myrte citronnée

180 cm), les réglages mentionnés ont permis d'obtenir une distance d'échantillonnage au sol d'environ 2,8 cm par pixel. À la plantation, nous avons profité d'une expérience existante dans laquelle l'impact d'un fongicide était évalué sur les myrtes citronnés affectés par la rouille du myrte (Lancaster et al., en préparation) en utilisant un fongicide qui s'est avéré efficace pour contrôler la rouille du myrte [23] . Nous avons enregistré des images aériennes multispectrales d'arbres exempts de maladie active, sur lesquels un fongicide a été appliqué avec succès (« traités »), et d'arbres présentant des symptômes d'infection active de la rouille du myrte (« non traités »). Les feuilles des arbres traités ne montraient pour la plupart aucun signe d'infection par A. psidii, bien que certaines aient de petites taches violettes, probablement dues à l'infection survenue avant l'application du fongicide. Nous excluons l'influence d'autres agents biotiques car aucun autre ravageur ou agent pathogène sérieux sur le myrte citronné n'était connu avant A. psidii (Manager Gary Mazzorana, Australian Rainforest Products, Lismore, Australie, communication personnelle). Le dispositif expérimental consistait en deux rangées d'arbres traités et deux rangées d'arbres non traités, séparés par des rangées d'arbres désignées comme arbres « tampons » pour éviter le traitement accidentel d'arbres destinés à être non traités (figure 1).


2 Algorithme proposé

Phase d'initialisation Boucle interactive Figure 2 : Aperçu de haut niveau de l'approche proposée : les informations fournies par l'utilisateur modifient l'entrée du réseau - et non le réseau lui-même - permettant une interaction efficace

Nous décrivons maintenant en détail l'approche proposée pour la segmentation interactive multi-classes d'images aériennes. En particulier, notre objectif est de former un réseau de neurones avec deux objectifs :

produire une première carte de segmentation de haute qualité de la scène sans aucune aide extérieure

en utilisant des annotations fournies par un opérateur pour améliorer rapidement sa prédiction initiale.

Pour y parvenir, nous proposons un réseau de neurones qui garde sa structure d'origine mais prend en entrée une concaténation des entrées classiques (e.g. RVB) et des annotations (N canaux, un par classe). Ces annotations sont des points cliqués. A noter que seules les entrées du réseau sont modifiées et non ses poids : cela fait la rapidité de l'approche. La figure 2 présente un aperçu de haut niveau de notre approche.

Nous définissons d'abord notre stratégie de formation puis présentons notre étude sur les annotations elles-mêmes.

2.1 Stratégie de formation

Dans la suite, nous supposons que nous avons une référence de segmentation composée de N classes. Les cartes de vérité terrain sont au cœur de notre stratégie de formation. D'une part, ils sont classiquement utilisés pour calculer et rétro-propager la perte. D'autre part, ils sont également dispersés de manière aléatoire pour échantillonner des annotations . En d'autres termes, seuls quelques pixels de la vérité terrain sont conservés pour être utilisés comme annotations. Selon leur classe, ces annotations sont encodées dans les N canaux d'annotations donnés en entrée de l'algorithme. Pour s'entraîner sous différentes mises en page d'annotations, le nombre d'annotations échantillonnées est aléatoire dans chaque exemple d'entraînement. Étant donné que le réseau doit être capable de créer une carte de segmentation précise sans eux, la possibilité d'un manque d'annotations est également échantillonnée. Concrètement, cette situation signifie que les canaux d'annotation sont remplis de zéros.

Si les annotations sont échantillonnées indépendamment de leur classe, le problème suivant peut se produire. Lors de la phase d'évaluation, les annotations sur les classes sous-représentées peuvent être ignorées par le réseau car il n'a pratiquement pas vu de points d'annotation de ces classes lors de la formation. Par conséquent, il n'a pas appris à les utiliser pour améliorer ses prédictions. Pour surmonter ce problème, nous utilisons une stratégie d'équilibrage de fréquence pour échantillonner les annotations en fonction des distributions de classes. Il permet au réseau de voir équitablement les annotations de chaque classe lors de la formation et, par conséquent, d'être guidé efficacement une fois la formation terminée.

2.2 Représentation des annotations

Nous étudions deux aspects de la représentation des annotations : comment positionner les clics afin d'échantillonner les informations les plus utiles et comment encoder les clics pour en tirer le meilleur parti.

Cliquez sur le positionnement.

Corriger une mauvaise segmentation implique de fournir au système des informations supplémentaires sur la bonne division. Les nouveaux échantillons fournis par les clics peuvent représenter soit l'intérieur d'une instance, soit sa bordure.

Le premier cas semble être le plus intuitif. Les pixels cliqués sont à l'intérieur des instances et les points d'annotation représentent la classe associée à ces instances. Contrairement à [41] , nous ne les échantillonnons pas à une distance minimale des frontières puisque nous supposons qu'un annotateur peut cliquer près d'un bord pour affiner la prédiction. Pour le second cas où les annotations représentent les bordures des instances, le canal associé à un clic correspond à une classe choisie aléatoirement parmi celles adjacentes à la bordure cliquée.

Dans le but d'alléger le fardeau des utilisateurs finaux, nous avons également exploré des contraintes plus douces sur les annotations. En effet, au lieu d'utiliser N canaux d'annotation, nous les avons résumés en un seul canal d'annotation. Pour la stratégie frontière, ce canal unique indique uniquement la présence d'une frontière. Pour la stratégie de point intérieur, il indique uniquement où le réseau a initialement commis une erreur. Pour mettre en œuvre cette dernière stratégie, nous avons dû modifier légèrement le processus de formation. Le réseau effectue une première inférence pour créer une carte de segmentation utilisée pour trouver des régions mal étiquetées. Les annotations sont ensuite échantillonnées dans ces zones et une seconde inférence est effectuée. Seule cette seconde inférence est utilisée pour rétro-propager les gradients. Cependant, comme le montre la section 4.4, aucune de ces annotations simplifiées ne semble prometteuse pour guider efficacement la tâche de segmentation.

Cliquez sur encodage.

Les clics de l'utilisateur peuvent être codés de différentes manières, ce qui peut fournir au système des informations plus ou moins spatiales, comme le montre la figure 3 . En particulier, nous considérons :

Petite zone binaire autour des points d'annotation

Cartes de transformation de distance euclidienne autour de ces points

Figure 3 : Clic binaire (gauche) et transformation de distance (droite).

Comme le montre la section 4, la stratégie de point intérieur avec codage par transformation de distance semble être notre combinaison la plus réussie.


Créer des étiquettes incurvées pour les polygones dans QGIS ? - Systèmes d'information géographique

Vous avez demandé une traduction automatique du contenu sélectionné dans nos bases de données. Cette fonctionnalité est fournie uniquement pour votre commodité et n'est en aucun cas destinée à remplacer la traduction humaine. Ni BioOne ni les propriétaires et éditeurs du contenu ne font, et ils déclinent explicitement, toute représentation ou garantie expresse ou implicite de quelque nature que ce soit, y compris, sans s'y limiter, les représentations et garanties quant à la fonctionnalité de la fonction de traduction ou l'exactitude ou l'exhaustivité de les traductions.

Les traductions ne sont pas conservées dans notre système. Votre utilisation de cette fonctionnalité et des traductions est soumise à toutes les restrictions d'utilisation contenues dans les Conditions d'utilisation du site Web BioOne.

Remarques sur le Médinille (Melastomataceae) de Palawan, Philippines, dont deux nouvelles espèces : M. simplicymosa et M. ultramaficola

J. Peter Quakenbush, 1,* Pasteur L. Malabrigo Jr, 2,3 Arthur Glenn A. Umali, 2 Adriane B. Tobias, 4 Lea Magarce-Camangeg, 5 Yu Pin Ang, 6 Rene Alfred Anton Bustamante 6

1 Département des sciences biologiques, Western Michigan University, Kalamazoo, Michigan 49008-5200, États-Unis
2 Département des sciences biologiques forestières, Collège des forêts et des ressources naturelles, Université des Philippines Los Baños, Laguna, Philippines
3 Musée d'histoire naturelle, Université des Philippines Los Baños, Laguna, Philippines
4 École supérieure, Université des Philippines Los Baños, Laguna, Philippines
5 Collège des sciences, Université d'État de Palawan, Tiniguiban Heights, ville de Puerto Princesa, Palawan, 5300 Philippines
6 Philippine Taxonomic Initiative, Inc., Botanica Building, El Nido, Palawan, 5313 Philippines


Créer des étiquettes incurvées pour les polygones dans QGIS ? - Systèmes d'information géographique

Vous avez demandé une traduction automatique du contenu sélectionné dans nos bases de données. Cette fonctionnalité est fournie uniquement pour votre commodité et n'est en aucun cas destinée à remplacer la traduction humaine. Ni BioOne ni les propriétaires et éditeurs du contenu ne font, et ils déclinent explicitement, toute représentation ou garantie expresse ou implicite de quelque nature que ce soit, y compris, sans s'y limiter, les représentations et garanties quant à la fonctionnalité de la fonction de traduction ou l'exactitude ou l'exhaustivité de les traductions.

Les traductions ne sont pas conservées dans notre système. Votre utilisation de cette fonctionnalité et des traductions est soumise à toutes les restrictions d'utilisation contenues dans les Conditions d'utilisation du site Web BioOne.

Hyptendron pulcherrimum Antar & Harley, sp. nov. (Hyptidinae, Lamiaceae), une nouvelle espèce étroitement endémique du Minas Gerais, Brésil

Guilherme Medeiros Antar, 1,* Raymond Mervyn Harley, 2 José Floriano Barêa Pastore, 3 Paulo Minatel Gonella, 4 Paulo Takeo Sano 5

1 Universidade de São Paulo, Instituto de Biociáncias, Departamento de Botáñica, Rua do Matá 277, 05508-090, São Paulo, SP (Brésil)
2 Royal Botanic Gardens, Kew, Richmond, Surrey TW9 3AB, Angleterre (Royaume-Uni) [email protected]
3 Universidade Federal de Santa Catarina, Campus de Curitibanos, Rod. Ulysse Gaboardi, km 3, 89520-000, Curitibanos, SC (Brésil) [email protected]
4 Universidade Federal de São João del-Rei, Campus Sete Lagoas, Rodovia MG-424, km 47, 35701-970, Sete Lagoas, MG (Brésil) [email protected]
5 Universidade de São Paulo, Instituto de Biociáncias, Departamento de Botáñica, Rua do Matá 277, 05508-090, São Paulo, SP (Brésil) [email protected]

* [email protected] (auteur correspondant)

Inclut PDF et HTML, lorsqu'ils sont disponibles

Cet article est uniquement disponible pour les abonnés.
Il n'est pas disponible à la vente individuelle.

Hyptendron Harley, l'un des 19 genres reconnus pour la sous-tribu Hyptidinae, a certaines de ses espèces avec une étroite campos rupestres (une formation végétale brésilienne) distribution, souvent limitée à une seule chaîne de montagnes. Nous rapportons une nouvelle espèce, Hyptendron pulcherrimum Antar & Harley, sp. nov., endémique à une seule montagne de la Serra do Padre Ângelo, une zone isolée de campos rupestres d'où de nouvelles espèces d'angiospermes ont été récemment décrites. La nouvelle espèce est unique en raison de la combinaison morphologique de fleurs disposées en cymes dichasiales, indumentum composé de poils incurvés, rigides, à base large, feuilles pétiolées, glabrescentes et bullées, corolle tomenteuse, au tube recourbé, de 7,5 à 10 mm de long et une nucule légèrement ailée par calice fructifère. La nouvelle espèce est comparée à Hyptidendron vauthieri (Briq.) Harley l'espèce la plus similaire morphologiquement. Nous fournissons également une description complète, un diagnostic, une illustration, une carte de répartition avec la nouvelle espèce et les espèces étroitement apparentées, une plaque photographique et une évaluation préliminaire de l'état de conservation.

© Publications scientifiques du Muséum national d'Histoire naturelle, Paris.

Guilherme Medeiros Antar , Raymond Mervyn Harley , José Floriano Barà Pastore , Paulo Minatel Gonella et Paulo Takeo Sano " Hyptendron pulcherrimum Antar & Harley, sp. nov. (Hyptidinae, Lamiaceae), une nouvelle espèce étroitement endémique du Minas Gerais, Brésil", Adansonia 43(1), 1-8, (18 janvier 2021). https://doi.org/10.5252/adansonia2021v43a1

Reçu : 12 mars 2020 Accepté : 16 juin 2020 Publié : 18 janvier 2021


Matériels et méthodes

Site d'étude et description de l'espèce

L'étude a été menée dans la forêt nationale d'El Yunque (EYNF) au nord-est de Porto Rico (Fig. 1). L'EYNF est la plus grande zone protégée (115 km 2 ) de forêt primaire à Porto Rico (Lugo 1994 ) et comprend une série de chaînes de montagnes s'élevant à une altitude de 1074 m d'altitude. Ce gradient d'altitude a un fort effet sur la température, la pluie, l'humidité et la répartition des plantes et des animaux (Garcia-martino et al. 1996 Wang et al. 2003 González et al. 2007 Gould et al. 2008 Willig et al. 2011 Brokaw et al. 2012). Il existe quatre principaux types de forêts le long du gradient d'altitude dans l'EYNF : la forêt de Tabonuco qui est dominée par Dacryodes excelsa et se produit entre 150 et 600 m d'altitude, la forêt de Palo Colorado qui est dominée par Cyrilla racemiflora, et se produit entre 600 et 950 m d'altitude, forêt d'Elfin qui est dominée par Tabebuia rigida et Eugenia boriquensis et se produit au-dessus de 950 m d'altitude, et la forêt de Sierra Palm, qui est dominée par Prestoea montana et peut se produire n'importe où le long du gradient d'altitude. En plus des quatre principaux types de forêts, l'EYNF a une superficie considérable de vieille forêt secondaire (> 40 ans) qui se produit principalement à basse altitude près de la limite de la réserve.

Setophaga angelae est un petit passereau endémique de l'île principale de Porto Rico (Kepler & Parkes 1972 ). Actuellement, sa répartition est limitée à deux aires protégées séparées de 150 km : l'EYNF et la Maricao Commonwealth Forest (MCF). La taille estimée de la population est de 1800 individus matures selon la Liste rouge de l'UICN (BirdLife International 2012). En plus d'avoir une petite taille de population et une distribution géographique restreinte, S. angelae est décrit comme rare et cryptique, ce qui pourrait expliquer sa découverte tardive (Kepler & Parkes 1972 ). Au moment de sa description, S. angelae était supposé être limité aux zones de haute altitude dans la forêt Elfin (au-dessus de 950 m d'altitude), bien que des individus puissent être trouvés aussi bas que 250 m d'altitude, et dans une variété d'habitats, y compris la forêt de Palo Colorado, Podocarpus coriaceus forêt, forêt secondaire, plantation de café et pâturages (González 2008 ). Les études de baguage suggèrent que S. angelae est monogame et territorial tout au long de l'année (Delannoy-Juliá 2009 ). La taille du territoire a été estimée à environ un hectare par couple (Kepler & Parkes 1972 ). Les vocalisations comprennent la chanson territoriale (chanson commune), un cri d'alarme et une chanson en duo (https://arbimon.sieve-analytics.com/project/elevation).

Conception d'échantillonnage et enregistrements autonomes

Parce que l'altitude est un indicateur bien connu du type d'habitat, de la température et des communautés animales et végétales (Brokaw et al. 2012 Kéry, Gardner & Monnerat 2010 ), nous avons collecté des données acoustiques dans 60 sites de l'EYNF le long de trois transects d'altitude (95-1074 m d'altitude

20 sites d'échantillonnage par transect d'altitude) entre le 27 mars et le 6 mai 2015. Les transects d'altitude ont profité des routes et des sentiers, mais tous les enregistreurs ont été placés à plus de 200 m de toute route. Le long de chaque transect d'altitude, deux enregistreurs, séparés de 200 m, ont été déployés à un intervalle d'altitude de 100 m (de 95 à 1074 m d'altitude). Les enregistreurs ont collecté des données sur chaque site d'un transect pendant environ 1 semaine et ont ensuite été déplacés vers un autre transect d'altitude. L'étude a eu lieu pendant la saison de reproduction lorsque le taux de chant est le plus élevé (Arroyo-Vasquez 1992 ). En raison du petit domaine vital de S. angelae (

1 ha, Kepler & Parkes 1972 ), nous pensons qu'il est peu probable que les oiseaux d'un territoire soient enregistrés par plus d'un enregistreur.

Les enregistreurs se composent d'un smartphone LG enfermé dans un boîtier étanche avec un connecteur externe relié à un microphone Monoprice. L'application ARBIMON Touch (https://play.google.com/store/apps/details?id=touch.arbimon.com.arbimontouch&hl=en) a été utilisée pour programmer les événements d'enregistrement. Des enregistreurs ont été placés sur des arbres à une hauteur de 1,5 m et programmés pour enregistrer 1 min d'audio toutes les 10 min pour un total de 144 à 1 min d'enregistrements par jour. Nous avons effectué des essais sur le terrain dans notre zone d'étude et nous avons constaté que S. angelae les vocalisations peuvent être détectées par nos enregistreurs jusqu'à

50 mètres. Par conséquent, un site est défini ici comme un espace hémisphérique tridimensionnel d'un rayon d'environ 50 m autour de l'enregistreur.

Traitement et gestion des données bioacoustiques

Les spectrogrammes de tous les enregistrements (m = 38 255) ont été inspectés visuellement, et si l'espèce semble être présente, nous avons écouté les enregistrements pour prendre la décision finale. Cela a abouti à une matrice de détection/non-détection qui a ensuite été utilisée pour ajuster les modèles d'occupation qui tenaient compte d'une détectabilité imparfaite (Fig. 2). Les résultats de ces analyses ont été utilisés comme « gold standard » pour comparer les résultats basés sur trois approches différentes utilisant un modèle d'identification des espèces créé dans la plateforme analytique ARBIMON (https://arbimon.sieve-analytics.com). Ci-dessous, nous résumons les six étapes utilisées pour créer un modèle d'identification des espèces :

  1. Créer un gabarit de la vocalisation et valider un ensemble d'enregistrements : Pour le modèle, nous avons utilisé le chant territorial car c'est la vocalisation la plus distincte et la plus courante. Quinze exemples de la chanson territoriale ont été sélectionnés pour créer le modèle, et 208 enregistrements ont été utilisés pour l'ensemble de données de validation (c'est-à-dire l'enregistrement où la chanson était présente ou absente).
  2. Créez un vecteur de corrélation entre le modèle de chanson et le spectrogramme. Le modèle de chanson a été appliqué à chacun des enregistrements validés. Dans cette étape, le modèle traverse chaque spectrogramme et produit un vecteur de similitudes pour chaque enregistrement (c'est-à-dire des corrélations entre le modèle et des sections du spectrogramme). La corrélation a été générée par la fonction OpenCV MatchTemplate (Bradski & Kaehler 2008).
  3. Extraire les caractéristiques des vecteurs des 208 enregistrements validés. Dans cette étape, 12 caractéristiques du vecteur de corrélation sont extraites : moyenne, médiane, minimum, maximum, écart type, maximum-minimum, asymétrie, aplatissement, hyper-asymétrie, hyper-aplatissement, histogramme et histogramme de fréquence cumulée.
  4. Créer un classificateur RandomForest (RF) : les caractéristiques des enregistrements validés (c'est-à-dire présents ou absents) sont entrées dans un classificateur RandomForest (Breiman 2001 ). L'objectif était d'entraîner le modèle RF pour une décision binaire de présence ou d'absence du chant territorial dans un enregistrement basé sur les vecteurs de caractéristiques. Une matrice de confusion est fournie (tableau S1). Le modèle a été ajusté pour réduire les faux positifs.
  5. Appliquer une approche de seuil : il s'agit d'une approche alternative basée sur la définition manuelle du niveau de corrélation de similarité maximal des vecteurs nécessaire pour attribuer un enregistrement comme ayant une détection positive. Une matrice de confusion est fournie (tableau S1). Le modèle a été ajusté pour réduire les faux positifs.
  6. Classer tous les enregistrements : le modèle RF et le modèle de seuil ont été appliqués à tous les enregistrements. Cela a abouti à un ensemble de données avec une classification de présence ou d'absence basée sur le modèle RF et le modèle de seuil pour chacun des 38 255 enregistrements.

Nous avons ensuite comparé les résultats du processus de validation manuelle avec les résultats des approches RF et seuil. Cette procédure a abouti à quatre ensembles de données : la validation manuelle, le seuil, la forêt aléatoire et la combinaison (tableau 1). Les ensembles de données Threshold, RandomForest et Combined ont été construits en vérifiant manuellement toutes les détections positives à partir des modèles automatisés d'identification des espèces et en convertissant toutes les détections faussement positives en vrais négatifs. Les détections de faux négatifs ont été supposées être des détections de vrais négatifs. Nous avons choisi de ne pas modifier les détections de faux négatifs car les modèles d'occupation peuvent rendre compte de ce type d'erreur. L'ensemble de données combiné n'incluait que des enregistrements avec détection positive dans les modèles RandomForest et Threshold. Bien qu'il soit possible de confondre les vocalisations du Bananaquit Coereba flaveola et Elfin Woods Warbler sur le terrain, nous sommes convaincus que nous n'avons pas de faux positifs dans nos ensembles de données car les analyses de spectrogramme nous ont permis de visualiser et de comparer les vocalisations, ce qui facilite la distinction des espèces.

Base de données Enregistrements Présence de classification Présence confirmée manuellement
Plein 38 255 888
AléatoireForêt 38 255 1603 194
Au seuil 38 255 437 62
Combiné 38 255 67 51
  • Les 38 255 enregistrements ont été inspectés manuellement pour l'ensemble de données complet. Pour les ensembles de données RandomForest et Threshold, tous les enregistrements ont été classés à l'aide du modèle d'espèce et les enregistrements classés comme présents ont été inspectés manuellement. L'ensemble de données combiné n'incluait que les enregistrements pour lesquels les modèles RandomForest et Threshold concordaient, et ces enregistrements ont également été inspectés manuellement.

Les analyses étaient basées sur des enregistrements entre 05h00 et 19h00, mais pour simplifier la matrice de détection, nous résumons les détections à des intervalles de deux heures. Cette simplification a donné lieu à sept occasions d'échantillonnage par jour, où chaque occasion d'échantillonnage comprenait 12 enregistrements dans chaque intervalle de deux heures. Par conséquent, notre unité d'échantillonnage la plus basique est définie ici comme un intervalle avec 12 enregistrements de 1 min.

Modélisation de l'occupation

Nous avons utilisé la matrice de détection/non-détection générée après la validation des données classifiées pour ajuster les modèles d'occupation à saison unique en utilisant le package Unmarked in r (Fiske & Chandler 2011 ). La probabilité d'occupation de chaque site d'échantillonnage a été estimée en tenant compte d'une détection imparfaite, suivant une approche hiérarchique standard du maximum de vraisemblance (MacKenzie et al. 2002). Nos modèles incluent un niveau d'échantillonnage décrivant la probabilité de détection conditionnée à l'occupation (p), et un niveau biologique décrivant la probabilité (ψ) qu'un site soit occupé. Les deux p et ψ peuvent varier en fonction des caractéristiques des habitats. Parce que l'altitude et le type de forêt devraient influencer S. angelae occurrence (Kepler & Parkes 1972 Anadón-Irizarry 2006 Arendt, Qian & Mineard 2013 ), nous avons choisi d'inclure ces variables dans nos modèles d'occupation. Nous avons inclus trois variables continues et standardisées représentant l'effet de l'élévation sur les paramètres d'occupation et de détection : « élévation », « élévation 2 » et « élévation 3 », qui fournit une fonction polynomiale de premier, deuxième et troisième ordre de l'élévation. données, respectivement (Kéry et al. 2010). De plus, nous avons inclus l'effet du pourcentage de couverture de cinq types de forêts (forêt Tabonuco, forêt secondaire, forêt Palo Colorado, forêt Sierra Palm, forêt Elfin et forêt riveraine) et la couverture forestière dans les paramètres d'occupation et de détection. Le pourcentage de couverture de chaque type de forêt a été estimé à l'intérieur d'une zone tampon d'un rayon de 100 m centré sur l'emplacement de chaque enregistreur. La classification des types de forêts était basée sur les cartes de classification de la végétation développées par le USDA Forest Service (Gould et al. 2008). Enfin, nous avons inclus une variable « Heure », codée de 1 à 7 pour chacune des 7 périodes d'échantillonnage de 2 h. Cette variable a été incluse dans le paramètre de détection, car c'est un bon prédicteur de l'activité vocale des oiseaux (Catchpole & Slater 2003 ). Nous avons également inclus une fonction polynomiale de deuxième (« Hour 2 ») et de troisième ordre (« Hour 3 ») des données de l'heure.

Pour créer une carte de répartition de l'espèce dans l'EYNF, nous avons ajouté une grille de 4032 polygones hexagonaux de 3,1 ha sur une carte de l'EYNF et extrait le pourcentage de couverture végétale de chaque type de forêt. Nous avons utilisé la fonction « prédire » du package Unmarked pour estimer la probabilité d'occupation de chaque polygone hexagonal. Nous avons utilisé qgis (QGIS Development Team 2015) pour représenter graphiquement la probabilité d'occupation attendue dans l'EYNF.


Matériels et méthodes

Travaux de terrain

En plus des collections historiques de Élaphoglosse plus de 200 ans à Madagascar, des efforts de collecte spécialement axés sur le genre ont été menés dans l'île depuis 2004, principalement dans des aires protégées, car la plupart, sinon la totalité, des forêts naturelles humides restantes sont incluses dans les parcs nationaux et autres réserves naturelles. Les permis de collecte ont été accordés par Madagascar National Parks et le Ministère de l'Environnement et du Développement Durable (numéros de projet : 70/19/MEDD/SG/DGF/DSAP/SCB.Re, et 207/15/MEEMF/SG/DGF /DAPT/SCBT, et 199/15/MEEMF/SG/DGF/DAPT/SCBT, et 241/11/MEF/SG/DGF/DCB.SAP/SCB).

Les plantes ont été systématiquement échantillonnées en tant que collections modernes, c'est-à-dire comprenant des spécimens d'herbier, des échantillons de feuilles séchées à la silice et des photos (Gaudeul & Rouhan, 2013). Des ensembles complets de toutes les collections réalisées lors de ces sorties sur le terrain sont déposés au TAN ou au TEF, et à quelques exceptions près au P, des duplicatas, lorsqu'ils sont disponibles, ont été envoyés ailleurs (ou seront envoyés immédiatement après la publication) en particulier à K, MO, NBG , NY (les codes d'herbier suivent Thiers, 2018).

Études basées sur l'herbier

La révision taxonomique qui a conduit à définir les taxons et à construire de nouvelles clés d'identification est basée sur l'examen de plus de 2 600 spécimens d'herbier représentant 2 186 rassemblements hébergés à P, et des observations sur le terrain de la plupart des Élaphoglosse espèce. Tous les spécimens ont été répertoriés et sont disponibles gratuitement dans la base de données de l'Herbier de Paris à l'adresse https://science.mnhn.fr/institution/mnhn/collection/p/item/search?lang=en_US. Des spécimens supplémentaires d'autres herbiers ont été examinés à la main et annotés (BM, G, K, MO, NY, P, PR, TAN, TEF, US) ou examinés sous forme d'images en ligne (B, BR, PRE). Toutes les mesures, couleurs et autres détails inclus dans les descriptions étaient basés sur des spécimens d'herbier et des données dérivées de notes de terrain. Lors de l'évaluation de la variabilité de chaque espèce, l'habitat et l'écologie ont été notés sur le terrain, mais des informations sur ces caractéristiques ont également été tirées d'autres étiquettes d'herbier.

Illustrations et caractères morphologiques

Des spécimens d'herbier ont été examinés au microscope à dissection Leica MZ6, et des images rapprochées acquises grâce à un appareil photo Leica DFC425 ont fourni des illustrations pour chaque taxon. CoolScan V ED. La terminologie utilisée pour décrire les plantes est basée sur Lellinger (2002).

Cartes de répartition

Les cartes de répartition des nouveaux taxons ont été basées sur tous les spécimens cités et générées avec QGIS 2.14 (QGIS Geographic Information System. Open Source Geospatial Foundation Project. http://qgis.osgeo.org). A background map included five altitudinal ranges corresponding globally to those generally recognized in Madagascar (Humbert, 1955 Faramalala, 1995): 0–400 m (green), 400–800 m (yellow), 800–1,200 m (light brown), 1,200–1,800 m (medium brown) and >1,800 m (dark brown). Localities of specimens were represented by red dots (and open circles represented the six main cities in Madagascar). Distribution is also described in the text for each species and subspecies according to the five Malagasy phytogeographic domains as defined by Humbert (1955): East, Sambirano, Center, West, and South.

New botanical taxa

New botanical taxa were described only after considering all species known at least in Madagascar, Africa, Western Indian Ocean Islands (Comoros, Seychelles, La Réunion, Mauritius), and circumaustral islands from the Atlantic and the Indian Ocean. Thus, a morphological comparison to most closely-related species from those areas is provided through diagnoses and keys.

The electronic version of this article in Portable Document Format (PDF) will represent a published work according to the International Code of Nomenclature for algae, fungi, and plants (ICN), and hence the new names contained in the electronic version are effectively published under that Code from the electronic edition alone. In addition, new names contained in this work which have been issued with identifiers by IPNI will eventually be made available to the Global Names Index. The IPNI LSIDs can be resolved and the associated information viewed through any standard web browser by appending the LSID contained in this publication to the prefix “http://ipni.org/”. The online version of this work is archived and available from the following digital repositories: PeerJ, PubMed Central, and CLOCKSS.


Supporting Information

S1 Fig. Bayesian Information Criterion (BIC) as a function of number of clusters for plots 1–3.

Ten different combinations of constraints for multivariate mixture models have been tested: EII = spherical, equal volume VII = spherical, unequal volume EEI = diagonal, equal volume and shape VEI = diagonal, varying volume, equal shape EVI = diagonal, equal volume, varying shape VVI = diagonal, varying volume and shape EEE = ellipsoidal, equal volume, shape, and orientation EEV = ellipsoidal, equal volume and equal shape VEV = ellipsoidal, equal shape VVV = ellipsoidal, varying volume, shape, and orientation.

S1 Table. Georeferenced values of δ 15 N (‰), δ 13 C (‰) and N concentration (g N*kg -1 ) used to create isoscapes.


Making curved labels for polygons in QGIS? - Systèmes d'information géographique

Over the past decade the abundance of location-aware mobile devices has simplified recording of high-precision, high-accuracy geospatial data for the distribution of organisms. Several mobile apps are now available for this purpose (e.g., iNaturalist iSpot ebird) these contribute to the quality of citizen science databases ( Spyratos and Lutz 2014 ). However, most biodiversity specimens collected prior to the 1990s do not have a latitude and longitude associated with them ( Beaman and Conn 2003 ). This means that many of the world’s three billion biodiversity specimens ( Beach et al. 2010 ), including insects on pins, plants on sheets, and fish in jars—some collected as long as three centuries ago—are not easily mapped. Therefore, their value as an historical baseline for research, education, and policymaking is limited ( Cook et al. 2014 Hanken 2013 ).

Citizen science participants are playing an increasingly important role in transcribing specimen label data ( Ellwood et al. 2015 ), but the expansion of georeferencing of specimen collection localities by public participants lags, partly owing to the dearth of online tools enabling georeferencing and the lack of experiments assessing the quality of the data produced. Here we present two experiments in which locality descriptions were georeferenced (assigned a latitude and longitude coordinate) by both expert and novice participants. We compare the data generated by the two groups and suggest downstream analyses to produce the most accurate locality estimates.

Georeferencing of historical localities is just one of many applications within the field of historical GIS ( Gregory and Ell 2007 ). While we focus here on members of the public georeferencing biodiversity specimens, research in the digital humanities also has made important contributions to current georeferencing methodologies and technologies. For example Georeferencer, an online application designed to enable crowd-sourced rectifying of digital images of historic maps, has been modified and successfully implemented by numerous European institutions ( Fleet et al. 2012 ). These efforts have resulted in tens of thousands of maps available online for increased discoverability, integration with modern map layers, improved visualizations, and a host of specialized research projects ( Fleet et al. 2012 Holdsworth 2003 www.bl.uk/maps/georefabout.html ). Like other fields, the digital humanities have turned to volunteers and crowd-sourcing to improve the rate at which historic documents are georeferenced ( Offen 2012 ).

Volunteered Geographic Information (VGI) is a term coined in 2007 ( Goodchild 2007 ) to recognize the fact that Internet-based media were incorporating geographic information wherever possible, including websites and mobile device apps for shopping, mapping, social connections, and weather ( Sui and Goodchild 2011 ). VGI has grown tremendously over the last decade as evidenced by the millions of registered users on OpenStreetMap ( openstreetmap.org Haklay and Weber 2008 )—a world map created and maintained by volunteers—and WikiMapia ( wikimapia.org ), a highly annotated world map with embedded links to related Wikipedia articles. OpenStreetMap also has a humanitarian arm of volunteers who are applying their geographical skills in poorly mapped parts of the world which are in need of aid, e.g., after the years-long rebellion in the Central African Republic and after the 2015 earthquake in Nepal ( hot.openstreetmap.org ).

Geotagging also has grown in popularity as text messaging systems, social media outlets, and photo sharing sites (in particular Flickr.com ) have enabled users to include geographic information with these various media ( Barve 2014 Kumar and Seitz 2014 ). Participation in, and demand for, this functionality illustrates a general public interest in working with geographic interfaces, expanding geographic data and improving freely available geographic information. Specific applications of geotagging have allowed researchers to track epidemic outbreaks ( Lampos and Cristianini 2010 ), leverage the public’s interest in visiting clean water bodies for improved water quality ( Keeler et al. 2015 ), and improve epidemiology research ( Doherty et al. 2011 ).

While research applications of VGI are relatively common ( Sui et al. 2013 ), working with volunteers to add geographic information based on a textual description is relatively uncommon. In one of the few existing examples, volunteers added geographical information to social media posts to provide targeted and specific help to victims of the 2010 earthquake in Haiti ( Meier 2012 ). Immediately after the earthquake, Haitian and college student volunteers in Boston, Massachusetts, scoured the web for social media posts related to the event and created a live map of the locations from where they were sent. Some of these posts had geographic information embedded in them, while others were textual descriptions of a location (i.e., “trapped under house at corner of Main and 1st” Camponovo and Freundschuh 2014 Meier 2012 ) that needed to be given a latitude and longitude. Volunteers classified the posts based on the type of aid that was needed and added them to the map relief organizations then were able to use the live map to provide timely, appropriate help to individuals around the country.

Though less immediately urgent, the approach needed when georeferencing biodiversity specimens is similar to the above example. That is, citizen science participants read locality information in the form of short textual descriptions and transform that information into a latitude and longitude (i.e., a point on a map) and some measure of uncertainty, such as the radius of a circle. Biodiversity research specimens include a description of the locality that references political units (e.g., country, state, county) proximity to the nearest town or other geographical features and/or the habitat (e.g., roadside, forest, lakeshore). Most descriptions require some interpretation and inference on the part of the georeferencer. The biodiversity research community previously established best practices for this type of work ( Chapman et al. 2006 ), however, these practices were described prior to the recent expansion of VGI ( Elwood et al. 2011 Goodchild 2007 ).

Georeferenced biodiversity specimens are crucial for many research applications including conservation (e.g., Miller et al. 2012 Rivers et al. 2011 ), estimating species ranges and extinctions (e.g., Boakes et al. 2010 Gotelli et al. 2012 Tingley and Beissinger 2009 ), habitat modeling (e.g., Fernández et al. 2015 Hope et al. 2013 Zhang et al. 2012 ), and natural resources management (e.g., Taylor et al. 2013 ). However, the level of accuracy and precision of georeferenced data impacts the quality of the downstream research ( Graham et al. 2008 Rowe 2005 ). Taking advantage of the irreplaceable historical data provided by georeferenced biodiversity specimens will require a tremendous effort to georeference specimens currently in collections ( Beach et al. 2010 ) using efficient methods leading to precise results (e.g., Guo et al. 2008 ).

Consider an example locality description from the label of a plant specimen collected in 1927 in Highlands County, Florida, which reads “High pine land Lake Stearns, Fla.” (Fig. 1 ). Turning this locality into a point on a map requires that a georeferencer find the town of Lake Stearns, determine where high pine habitat is likely to occur, and designate a point with a radius of uncertainty that encompasses the most likely collection location(s) of this specimen. To further complicate this process, habitat types and town names change over time. Since the time this specimen was collected nearly 90 years ago the town of Lake Stearns has changed its name to Lake Placid, and the high pine habitat where this specimen was collected may have ceased to exist. Even an expert georeferencer may have trouble as map layers usually reflect only current information, and finding historical town names and habitat types can be challenging. Also, specimen collection localities may be intentionally imprecise if a species is rare (e.g., to reduce illegal harvesting), and during some time periods and at some locations in the last three centuries, collectors were uncertain about precise locations because fine-scale maps and distinguishing features of the landscape were unavailable. Although many collection locality descriptions may be more straightforward than the one provided in this example, considering the breadth of heterogeneity in locality descriptions, can citizen science participants contribute accurate and appropriately precise specimen georeferences?

Label from a plant specimen from the Robert K. Godfrey Herbarium, Florida State University, Tallahassee, FL, US, demonstrating the potential challenges of georeferencing collection localities. In this case, the town has changed names since 1927, the locality description is imprecise, and the habitat is likely now residential development. Labels with such characteristics may be especially difficult for citizen science participants to georeference without local knowledge.

To investigate this question, we engaged undergraduate students as a proxy for the general population of citizen science participants. While we do not have data demonstrating that these students are comparable to the general citizen science community, they are a subset of the general population and represent a range of abilities, levels of innate interest, and prior experience with geographical information and biodiversity research. We chose to use students so that we could generate sufficient data in the absence of an established citizen science georeferencing platform and community. We asked:

How accurate are student georeferencers compared to automated georeferencing software and experts? Does student involvement improve on the accuracy of a georeferencing algorithm?

What method is most effective at estimating an accurate consensus georeference from replicate points for the same collection locality? Is the consensus generated in this way more accurate than the individual points?

How do the best georeferencers compare to the group as a whole? That is, is it useful to only consider the points produced by the most accurate georeferencers?

To address our research questions we conducted two experiments in which undergraduate students and experts georeferenced the same collection localities. The two experiments differed in the spatial distribution of collection localities (seven states in the USA vs. Florida’s Apalachicola National Forest), the biology of the organisms (fish vs. plants), and the number of student georeferences for each locality (1𔃀 vs. 6󈝻 respectively). We addressed question 1 with both datasets and questions 2 and 3 with the many-georeferences-per-location dataset.

Each of the experiments relied on GEOLocate software ( www.museum.tulane.edu/geolocate/ ), which uses an automated georeferencing algorithm to make the human georeferencing more efficient. The algorithm interprets strings of text and provides a suggested point location and radius of uncertainty. GEOLocate displays the most likely point as a green dot and shows red dots for other possible, though less likely, points based on the GEOLocate algorithm. A user can choose one of these suggestions or create another point. GEOLocate also includes features that allow a user to view different map layers, expand the screen, zoom and pan, mark a spot, measure, and save a point. All participants used GEOLocate to assess, navigate, and extract spatial information.

Fish experiment: Thousands of fish localities each georeferenced by one or two students

In the first experiment, 3,372 U.S. fish collection localities from Fishnet2 ( fishnet2.net/aboutFishNet.html ) were each georeferenced by one (or occasionally two) undergraduate student georeferencers at Tulane University (New Orleans, Louisiana, USA) using GEOLocate’s Collaborative Georeferencing platform ( museum.tulane.edu/geolocate/community CoGe). The data were grouped into seven state datasets and distributed among 11 students (undergraduate students in Natural Resource Conservation and Biodiversity Informatics classes taught at Tulane) and eight trained and experienced project technicians, such that each dataset was georeferenced by at least one student and at least one trained, experienced technician. Students and technicians corrected the geolocation recommended by GEOLocate when necessary and saved the latitude and longitude of that chosen location. Student training involved a 50-minute overview on georeferencing biodiversity data followed by demonstrations on using GEOLocate and CoGe. The technicians were hired specifically to georeference fish specimen localities as part of a research grant. They received two days of training, encompassing basic geographic principles, georeferencing methodologies and standards, and project protocols. Many of them had GIS experience prior to the project, and all of them had months of experience georeferencing localities in the project by the time of the experiment.

At Tulane, data processing and analyses were conducted using PostgreSQL 9.3, PostGIS 2.1, Microsoft Access 2010, Microsoft Excel 2010, and Microsoft Excel 2013. Distances between student and expert points and distances between most highly suggested point in GEOLocate and expert points were compared. Records that were not resolvable by GEOLocate were excluded from GEOLocate comparisons. Because we had only one or two student results for each technician result for each locality in the fish dataset, we could not compute means and medians across student results as in the plant experiment.

Plant experiment: Hundreds of plant localities each georeferenced by many students

In the second experiment, 270 plant collection localities from Florida’s Apalachicola National Forest (ANF) each were georeferenced by 6󈝻 students at Florida State University (FSU, Tallahassee, Florida, USA) using GEOLocate’s standard online platform. The plant collection locality descriptions were taken from the database of FSU’s Robert K. Godfrey Herbarium ( www.herbarium.bio.fsu.edu ). Each student was provided an Excel worksheet with collection information parsed into columns: Specimen barcode, scientific name, country, state, county, and locality description. The locality description was an aggregation of entries in the following of the herbarium’s database fields: Nearest Named Place, Special Geographic Unit, Verbatim Directions to Locality, and Habitat. An example is “Bristol, Apalachicola National Forest by Fla Rt. 12, S of Bristol, Apalachicola National Forest, just within boundary, longleaf pine savanna.” An additional column contained links that took the student directly to the GEOLocate website with the specimen’s locality description preloaded in the interface. The full Excel file had 17 different worksheets, each listing 16 specimens (with the exception of the last worksheet which had only 14 specimens).

Each of 154 Florida State University junior and senior undergraduate students enrolled in the course Plant Biology was assigned one worksheet (i.e., 16 or 14 specimen localities) from within the full file to georeference. As a class, students were provided with both a 30-minute training session and written instructions that included a step-by-step guide for augmenting the Excel file with a latitude and longitude (but not a measure of uncertainty) obtained from their work using GEOLocate. Although each worksheet was assigned to the same number of students, some students did not follow directions, so certain worksheets were completed more frequently than others. In the end, each specimen was georeferenced 6󈝻 times (mode = 8, median = 9).

When a student followed a specimen’s link to GEOLocate, they were asked to use GEOLocate’s automated georeferencing algorithm (a button “Georeference”) to produce suggested points, then they could pan, zoom, and open other map layers to show different features, including political boundaries, streets, and aerial photos, until they found the closest approximation of the textual description. Then they cut and pasted the latitude and longitude into Excel. Completion of these tasks, regardless of accuracy, earned the student credit for the required assignment. However, students could opt out of the experiment by choosing not to complete an Institutional Review Board–approved waiver. Students were given one week to complete the assignment during that time they could email one of us (GN) for guidance or help.

Independent of the student work, two local botanists with extensive collecting experience in ANF volunteered to also complete the georeferencing tasks. As local experts, they were familiar with habitat types in the ANF, specific plant populations, favored collection areas, and field collection protocols. This knowledge provided them the advantage over students of being able to more easily interpret and georeference label information. These individuals included a radius of uncertainty with their georeferences and made note of challenging or vague locality descriptions. The experts produced one point for each specimen, which henceforth are referred to as “expert” points.

A small subset of student points in the plant dataset were interpreted as outliers and were removed from the dataset. Such errors included latitude and/or longitude of 0, positive or negative latitude or longitude when the opposite was appropriate for the hemisphere, values that were incomplete, and values that were placed at the exact centroid of the nearby town of Apalachicola (representing an occasional mistake by the GEOLocate algorithm that students did not always correct the town lies outside of the boundaries of ANF). We consider this data-cleaning step to be a reasonable approximation of what can be done by any project doing georeferencing with citizen science participants, and are not using any special knowledge of the expert points at this step. Analyses were conducted with the remaining points in QGIS version 2.6.1 Brighton ( QGIS Development Team 2014 ), Environmental Systems Research Institute’s ArcGIS version 10.2 ( Environmental Systems Research Institute 2014 ), and R statistical software version 3.1.1 ( R Core Development Team 2014 ).

We calculated distance statistics between the expert point and points generated by students for each collection locality, including mean distance of student points and minimum and maximum distance of student points. For these plant experiment data, we calculated a mean and median georeferenced point for each collection locality from the replicate student points using ESRI’s ArcMap spatial statistics tools Mean Center and Median Center, respectively. The Mean Center is simply the average X and average Y coordinate among all the points, while the Median Center tool utilizes an iterative algorithm to calculate the point that minimizes the Euclidian distance among all the student points for a given specimen record. The median point gives less weight to anomalous georeferences. For comparison, we also calculated the distance between the expert point and those suggested as most likely by the GEOLocate algorithm.

Individual students were evaluated for accuracy by comparing their mean distance from expert points (as measured using uncertainty radii for the specific specimens) for all specimens georeferenced by that individual. To determine the increased accuracy brought about by removing the least accurate georeferencers, we re-ran some of the analyses by first excluding 19 students whose complete set of georeferenced points averaged 100 uncertainty radii or greater from the expert’s points, and then by excluding the bottom half (least accurate) of georeferencers. The first exclusion removes those participants who are perhaps least likely to contribute to a citizen science project requiring this skill set, given their poor aptitude for it or their poor engagement in the activity. The second left us with a proxy for those members of the public who are devoted to a citizen science project and likely to become experienced in a way that becomes recognizable to the project. A disproportionate percentage of online tasks often are completed by a very small number of committed citizen science participants ( Eveleigh et al. 2014 ).

Results How accurate are student georeferencers?

Fish experiment —Eleven students produced 4,433 georeferences for 3,372 localities (1,061 localities georeferenced twice). The mean distance of student points from those of expert georeferencers ranged from 1.5󈞷.5 km (mean = 21.3 km). We defined outliers as student points that were greater than two standard deviations from the overall mean displacement of each student’s result from the expert result outlier distance ranged from 13� km across all determinations. Georeferences with greater than a 25 km deviation were typically placed in the wrong county and/or state, and should be detectable through data validation routines involving spatial queries against administrative units in the absence of expert points. Numbers of outliers ranged from just 0󈝽 georeferences (mean = 6.5) per student. Excluding outliers, per-student mean distances between student and expert georeferencer determinations decreased to 0.9󈞔.7 km (overall mean = 8.3). Forty percent of student georeferences were within 0.5 km of the expert points, 53% were within 1 km, and 81% were within 5 km (Fig. 2 ). Considering the uncertainty radius assigned by the experts, 71% of student points were within one uncertainty radius of the expert, and 90% were within 10 (Table 1 ).

Distribution of the distance of student georeferences from expert points in the fish experiment at Tulane University with outliers removed.

Comparison of student points, consensus student points (using mean and median), and GEOLocate automated points to expert points measured by uncertainty radius (UR) for the fish and plant experiments. Because relatively few of the collection locations in the fish experiment were georeferenced by multiple students, we do not report comparisons with the consensus student points for that experiment.

We found that involving students in the process increased the percentage of points within each of the uncertainty radii cut-offs (Table 1 e.g., 71.07% vs. 49.09%, respectively, within 1 uncertainty radius as assigned by the expert georeferencers) and each of the absolute distance cut-offs less than the 10,000 meter cut-off (Table 2 ).

Comparison of student points, GEOLocate automated points, and median of student points to expert points measured by absolute distance for the fish and plant experiments. Because relatively few of the collection locations in the fish experiment were georeferenced by multiple students, we do not report comparisons with the consensus student points for that experiment.

Plant experiment —A total of 2,425 georeferences were produced by students, and after removing outliers, 2,408 (99%) remained. The mean distance between student points and the expert point for each collection locality ranged from 0.18󈞑.08 km, with an overall mean student distance from the respective expert point of 4.62 km.

To make the comparison between use of the automated georeferencing algorithm of GEOLocate alone and the additional involvement of the student georeferencers, we narrowed the number of collection localities to 251 because GEOLocate’s suggested points for the other specimens were returned as errors. The most successful consensus georeferencing method (use of the median point for the replicate student points) places a greater proportion of points within the uncertainty radii thresholds than the GEOLocate-suggested point (Table 1 ). When measuring that distance in meters, the median point outperforms GEOLocate alone, except at a cut-off of 100 m (where GEOLocate alone has a slight advantage Table 2 ).

Which method is most effective for producing an accurate consensus georeference?

For the plant data, use of the median georeferenced point as a consensus of replicate student georeferences is better than the mean georeferenced point at each of several uncertainty distances from the expert point (e.g., 12.22% of the mean points and 18.15% of the median points are within 1 uncertainty radius of their expert point Table 1 ). Unless otherwise indicated, we will use the median georeferenced point as the standard for comparison of the consensus point with the expert point.

The same is true when we consider distance from the expert point using absolute distance (Fig. 3 ). For more than half of the student points in the plant experiment (58.60% 1411 of 2408 points), the median point for a collection locality is at least 10 m closer to the expert point than the individual student point itself. About a quarter of the student points (25.83% 622 points) are at least 10 m closer to the expert points than the median point (Table 2 ). The remainder have similar distances to the expert point as the median point.

Distribution of the distance between mean (black bars) and median (gray bars) consensus of student replicate georeferences from the expert points in the plant experiment at Florida State University with outliers removed.

Is it useful to differentiate data based on georeferencer performance?

About 39% (99 of 254) of the single best student points for a collection locality are within one uncertainty radius of the expert point for that locality (Table 1 ), and about 43% of the single best student points are within 100 m of the expert point (Table 2 ). Examining the 99 single best points within one uncertainty radius we found that 48 (31%) of the 154 students contributed to them and just four students (3%) were responsible for 24 of those points.

We removed 19 of the 154 students contributing to the plant experiment using our threshold for identifying the least talented or motivated georeferencers, reducing the number of georeferenced points from 2408 to 2095 and the number of localities from 258 to 254. Using this reduced data set, the percentage of localities within one uncertainty radius of the expert increased from 18.15% with the full dataset to 23.33% (Table 1 ). Similarly, the percentage of localities that fell within 100 meters of the expert point increased from 5.56% with the full dataset to 23.70% with the reduced dataset (Table 2 ).

When we included only the best 74 (48%) of the plant georeferencers (1185 points), the distance of the median points calculated from the experts as measured by uncertainty radii was improved from the results of the full dataset, but not strikingly (e.g., 18.15% of the medians are within one uncertainty radius for the whole dataset vs. 20.47% for the subset Table 1 ). Looking at improvement based on the absolute distance, however, shows a marked improvement (e.g., 5.56% of the medians are within 100 m for the total dataset vs. 23.90% of the medians for this subset vs. Table 2 ).

Our results provide a first approximation of what can be expected from citizen science participants with minimal georeferencing training. This is a valuable contribution, for while OpenStreetMap ( Haklay and Weber 2008 ) and WikiMapia ( wikimapia.org ) have demonstrated enthusiasm for volunteered geographic information ( Goodchild 2007 ), we are not aware of studies that have assessed the quality of citizen science georeferencing of collection localities for biodiversity specimens or, more generally, of points contributed by georeferencing novices using locality descriptions (e.g., as done by Meier 2012 in another domain). We consider the results encouraging and suggest that they might serve as a benchmark against which to compare future changes to the process, several of which we suggest here.

Our use of undergraduate students as proxies for the general citizen science population, in the absence of an established georeferencing citizen science platform and community, merits further discussion. Coleman et al. ( 2009 ) present a hierarchy of volunteer participation in the context of contributing geographic data. By their definitions, we expect our student volunteers to mostly be neophytes—“an individual without a formal background in a subject, but who possesses the interest, time, and willingness to offer an opinion” (page 338). Whether the potential population of citizen science participants who would contribute data in this way represents a similar fraction of neophytes remains unanswered by our study. Potentially a greater fraction of those who would be motivated to contribute, and possibly some of our more experienced undergraduate volunteers, would qualify as expert amateurs—“someone who may know a great deal about a subject, practices it passionately on occasion, but still does not rely on it for a living”—as would our expert volunteers in the plant experiment. (Our experts from the fish experiment would qualify as expert professionals in Coleman et al.’s scheme—“someone who has studied and practices a subject … [and] relies on that knowledge for a living.”) By Coleman et al.’s estimation, and further analysis by Lauriault and Mooney ( 2014 ), “expert amateurs” may be the most productive volunteer contributors of geographic information, although positive and negative motivations vary across projects and can influence relative involvement of a group. Targeting expert amateurs, or educating neophytes to become expert amateurs, in the biodiversity community might be an effective strategy for increasing contributions and improving their quality beyond that reported here. Expert amateurs might be found as members of native plant societies, entomological clubs, sportsmen’s groups, online communities such as iNaturalist ( inaturalist.org ), and conservation and environmental organizations. Members of historical societies may provide additional local knowledge and a familiarity with regional geographic and landscape features. Future research on the topic could benefit from including a broader demographic of citizen science participants in experiments, along with additional methods such as surveys, to understand the advantages and limitations to working with each of these groups.

Despite large differences in the spatial extent of the areas considered in the experiments (seven states in the US vs. a national forest) and the biology of the organisms (fish in aquatic habitat vs. plants in, mostly, terrestrial habitat), the experiments produced strikingly similar average distances between student- and expert-contributed points (8.3 km with a range of 0.9󈞔.7 km and 4.6 km with a range of 0.2󈞑.1 km, respectively). However, when the distance is measured by uncertainty radii assigned for each collection locality by the experts, differences emerge. Relatively more of the contributed fish georeferences (71%) are within an uncertainty radius of the expert point than the plant georeferences (15%), perhaps because the extent of fish habitat is more easily identified on a map than that of plants and there is often relatively less of it. Also, the relatively larger uncertainty radii of the fish experiment (expert mean = 4,136 m, range = 0�,118 m) than the plant experiment (mean = 1,054 m, range = 16󈞁,095 m) simplified the process for students to place a point within the uncertainty radius of the expert in that experiment.

Creation of a consensus point from replicates for a collection locality improved upon the overall percentage of points within one uncertainty radius in the plant experiment (the fish experiment did not consistently replicate) when the consensus was produced as the median point, but not the mean point (Table 1 ). The median is less sensitive to outliers and makes more sense than the mean for building consensus in this context. We do not address the relationship between number of replicates used to produce the median and the median’s accuracy here, but the relationship has clear importance when designing efficient citizen science projects in the domain. We expect a plateau above which more replicates do not improve accuracy of the median and therefore might represent wasted effort if other statistics are not also being estimated with the additional points. We expect that the location of such a plateau will vary from project to project for reasons discussed above (habitat requirements differ, as do typical sizes of uncertainty radii), and that location needs to be determined in a pilot study specific to that dataset until patterns begin to emerge across datasets. The additional points beyond those needed to improve the median might be important if used to estimate a measure of uncertainty for the locality if there is a relationship between the spread of points and the uncertainty that an expert might assign the locality (e.g., as an uncertainty radius or polygon Chapman 2006 ). The relationship between spread and uncertainty might plateau at a different place than the accuracy of the median.

The accuracy of the data clearly improved beyond that produced using the automated GEOLocate algorithm when students were part of the workflow. The percentage of GEOLocate-generated points within an uncertainty radius of the expert points was improved upon by the students in both experiments (e.g., 12.75% vs. 15.16% within 1 uncertainty radius for the plants Table 1 ), and even more so when the median was calculated (18.15%). Note that the GEOLocate algorithm may have provided an important step in the student and expert contributions, especially in the fish experiment where the spatial extent of possible localities was very large. We actually cannot say whether the involvement of a georeferencing algorithm improved or reduced the accuracy of student points, because the experiment did not make that contrast. Future studies may wish to include an additional experiment that determines accuracy of citizen science participants in the absence of an algorithm. Further consideration of the topic, particularly by researchers in the field of human computation and machine learning, could investigate how the automated georeferencing algorithm could be improved by closing the loop—providing feedback to it in the form of citizen-science contributed data.

While the median-point consensus of replicates represented an improvement on the percentage of individual points within threshold numbers of uncertainty radii (e.g., 18.15% vs. 15.16% within 1 uncertainty radius for the plants Table 1 ), the fact that the single best point for each locality is even more often within those thresholds (38.98% within 1 uncertainty radius for plants Table 1 ) invites the question: are there ways to assess the likelihood that a contributed point is the best for a collection locality in the absence of expert points for all collection localities? One way that this might be accomplished is to assess the overall performance of georeferencers, assigning them reputation scores that reflect attributes such as success with localities for a handful of points that experts have georeferenced. A likelihood of success with such an approach is suggested by the fact that the 99 single best points within one uncertainty radius for plants were contributed by 31% of contributors (and not 65%, which would be one best per each of 99 of the 154 total students). Furthermore, a quarter of those 99 points were contributed by just four students.

We also looked at this relationship in another way, asking if the accuracy of the median point improves when data from only the best georeferencers are considered. In the case of thresholds of uncertainty radii, the percentages improved at most thresholds, but generally not dramatically (e.g., 50.37% at a threshold of 5 uncertainty radii for all georeferencers, 51.48% with exclusion of the 19 worst georeferencers, and 55.51% with the exclusion of the worst half of georeferencers Table 1 ). The improvement is most striking, though, when the absolute distance of median from expert point is considered at low thresholds (e.g., 5.56% within 100 meters for all georeferencers and 23.70% and 23.90% with exclusion of 19 worst and worst half, respectively). This relationship can become especially relevant when the fitness for use depends on a precision within some absolute distance. For example, considering global latitudinal diversity gradients, modeling species distributions, and relocating a population are three activities that typically require increasingly precise data.

Hunter et al. ( 2013 ) provide a case study of an implementation involving data validation and trust metrics for improving the quality and measuring the reliability of citizen science data within Coral Watch ( www.coralwatch.org ). A similar approach could be used to develop a weighted index of reputation based on some combination of (1) total number of user contributions, (2) frequency of user contributions, (3) geospatial deviation from known results, and (4) geospatial deviation for identical localities from users with higher reputation. Liu and Liu ( 2015 ) demonstrate a learning algorithm that can assess the quality of crowd-sourced data and provide results from only the strongest combination of contributors. The ability to sort “good” data from “bad” data, in an environment where the correct information is not known at the start, has obvious applications to the field of citizen science georeferencing, and we anticipate incorporating techniques similar to this in future work.

It is important to realize that, as illustrated in Fig. 1 , there are specimens for which a precise georeference is not warranted and for which the actual collection locality is obscured by the changes of time. For example, 23% of the single best points for the plant localities were not within 1 km of the expert point, despite there being 6󈝻 replicates for each. Based on the plant dataset, types of labels that resulted in large discrepancies between expert and student points included these cases: a) Directional labels that do not specify how the distance is measured. For example, in the case of “Sumatra flatwoods pond, 16 miles N of Sumatra, flatwoods pond,” students measured 16 miles due north, while the experts followed the main road out of Sumatra, which veered to the northeast. This was a common problem, with three of the ten most poorly placed student points falling into this category and b) Labels with overly general or contradictory information. For example, in the case of 𔄜 miles NE of Sumatra, by Fla. Rt. 379,” there is likely an error because Route 379 runs in a northwesterly direction from Sumatra. The issue of flagging collection localities that are likely to fall into this category for georefencing by experts or even the original collector (if still living) merits future consideration. Collection localities could perhaps be classified algorithmically with natural language processing into those requiring triage of this type to make more efficient citizen science engagement for georeferencing.


Voir la vidéo: Revitään ShtBoxStanceBoi Mondeosta Tarrat Pois (Octobre 2021).