Suite

Comment compter les occurrences de valeurs de champ uniques ?


J'ai une classe d'entités avec un champ qui contient les valeurs 1, 2 et 3. Je dois écrire un code qui rapporte le nombre total pour chaque valeur :

1: 29 fonctionnalités

2: 52 fonctionnalités

3: 57 fonctionnalités

Voici mon code pour l'instant :

print "start" import arcpy arcpy.env.overwriteOutput = 1 fc = r"D:AVI_DAVIDzevelzevel.gdbExport_Output_miv_cur" lst_field = arcpy.ListFields(fc,"USAGE") #usage est le champ pour f in lst_field : imprime le nom de f.

Ai-je besoin d'unRechercheCurseur? Ou unMettre à jour le curseur?


La réponse de @nmpeterson est bonne. Si vous ne souhaitez pas créer de tableau, vous pouvez obtenir ces informations sous forme deRechercheCurseur. Vous pouvez le faire en utilisant un dictionnaire pour compter les comptes :

import arcpy fc = r"D:AVI_DAVIDzevelzevel.gdbExport_Output_miv_cur" field = "USAGE" #Créer un dictionnaire pour stocker des valeurs uniques CountDi = {} avec arcpy.da.SearchCursor (fc, champ) comme curseur : pour ligne dans le curseur : sinon ligne[0] dans CountDi.keys() : CountDi[row[0]] = 1 else : CountDi[row[0]] += 1 pour la clé dans CountDi.keys() : print str( key) + ":", CountDi[key], "caractéristiques"

Une alternative serait d'utiliser des listes et des ensembles :

import arcpy fc = r"D:AVI_DAVIDzevelzevel.gdbExport_Output_miv_cur" field = "USAGE" Occurances = [] avec arcpy.da.SearchCursor (fc, field) comme curseur : pour la ligne du curseur : Occurances.append (row[0]) for i in set(Occurances): icount = Occurances.count(i) print str(i) + ":", icount, "features"

De nombreuses façons de dépecer un python. Notez que cela utilise le curseur de recherche d'analyse de données, qui nécessite ArcGIS 10.1 ou une version plus récente.


Il existe un outil dans ArcGIS appelé "Fréquence" (arcpy.Frequency_analysis()) qui permet de compter le nombre d'occurrences de chaque valeur unique dans un champ spécifique (ou des combinaisons uniques de valeurs dans plusieurs champs). Il créera une nouvelle table contenant le(s) nom(s) de champ d'origine avec une ligne pour chaque valeur/combinaison unique, et un autre champ "Fréquence" contenant le nombre de lignes dans la classe d'entités d'origine avec cette valeur particulière.

Dans votre cas, learcpyl'appel ressemblerait à ceci :

arcpy.Frequency_analysis(fc, PATH_TO_OUTPUT_TABLE, ["USAGE"])

Les statistiques récapitulatives avec un case_field produiront un tableau avec, LA FRÉQUENCE

Autonome :

 = arcpy.Statistics_analysis(, "en mémoire", [['', 'COMPTER']], '')

Fenêtre Python :

arcpy.analysis.Statistics("", r"", " COMPTER", "")

Compter le nombre d'occurrences uniques dans plusieurs fichiers

J'ai plusieurs fichiers journaux où je dois compter le nombre d'occurrences d'une ligne spécifique qui a un "ID unique" dans le cadre de celle-ci.

La ligne de journal ressemble donc à

Et les valeurs ci-dessus peuvent être répétées n'importe quel nombre de fois dans les journaux,

J'ai besoin de trouver une commande qui compte le nombre unique d'occurrences de la ligne de journal ci-dessus (avec des identifiants différents), dans plusieurs fichiers.


Comment regrouper des valeurs identiques et compter leur fréquence en Python ?

Débutant dans l'analyse avec Python, soyez indulgents :-) Je n'ai pas trouvé de réponse à cette question - désolé si elle est déjà répondue ailleurs dans un format différent.

J'ai un ensemble de données de transaction pour un point de vente. Les variables ainsi que l'explication sont :

  • section : la section du magasin, une str
  • prod_name : nom du produit, une str
  • ticket de caisse : le numéro de la facture, un int
  • caissier, le numéro du caissier, un int
  • coût : le coût de l'article, un flottant
  • date, au format MM/JJ/AA, un str
  • heure, au format HH:MM:SS, une str

Le reçu a la même valeur pour tous les produits achetés en une seule transaction, il peut donc être utilisé pour déterminer le nombre moyen d'achats effectués en une seule transaction.

Quelle est la meilleure manière de s'occuper de ça? Je souhaite essentiellement utiliser groupby() pour regrouper la variable de réception par ses propres occurrences identiques afin de pouvoir créer un histogramme.

Travailler avec les données dans un DataFrame pandas.

Voici quelques exemples de données avec en-tête (prod_name est en fait un nombre hexadécimal) :

À partir de cet ensemble d'échantillons, je m'attendrais à un histogramme du reçu qui montre deux occurrences du reçu 102857 (puisque cette personne a acheté deux articles en une seule transaction) et une occurrence respectivement du reçu 102856 et du reçu 102858. Remarque : mon ensemble de données n'est pas énorme, environ 1 million de lignes.


Comment comptez-vous le nombre d'occurrences de mots?

Comment comptez-vous le nombre d'occurrences de mots dans vos fichiers tex ? La raison pour laquelle je fais cela est de reconnaître plus facilement les mots que j'utilise trop dans un texte. Pour le moment, j'utilise le one-liner suivant dans le bash.

Ce qu'il fait, c'est afficher tous les fichiers .tex avec cat , remplacer les espaces et les ponctuations par un saut de ligne à l'aide de sed , trier la sortie, compter les mots uniques et les trier à nouveau après le nombre généré par uniq -c .

L'un des problèmes que j'ai avec cette approche est que les mots qui vont ensemble mais qui sont divisés par un espace sont comptés séparément. Ainsi, par exemple "New York", vous obtenez k occurrences de New et n occurrences de York, mélangées avec d'autres occurrences de New et York.

ÉDITER: Un autre problème est bien sûr, comment reconnaissez-vous l'inflexion des mots comme la déclinaison et la conjugaison ? Mais c'est probablement quelque chose qui dépasse le cadre d'un one-liner, ou quelqu'un a-t-il une idée de la façon de gérer cela?

EDIT2 : Comme Hendrik et Joseph l'ont souligné, ce n'est pas vraiment lié à TeX, mais peut-être que quelqu'un le trouve utile :)


1 réponse 1

Pour résoudre votre problème, j'ai effectué les opérations suivantes :

Puis effectué la requête suivante (violon disponible ici) :

Si vous êtes nouveau dans tout cela, je vous conseillerais de parcourir le violon ici qui montre le développement de mes processus de pensée qui ont conduit à la requête ci-dessus.

Je vous conseillerais de mettre cette logique dans un déclencheur onInsert/onUpdate - c'est probablement assez gourmand en calcul. Cela signifie que le calcul n'est effectué qu'une seule fois. La version 12 autorisera les colonnes générées (l'un des rares domaines où MySQL est supérieur à PostgreSQL) ce qui pourrait être une bonne solution.


1 réponse 1

Utilisez SUMIF au lieu de COUNTIF . SUMIF vous permet de rechercher une valeur dans une plage et d'accumuler des valeurs dans une autre plage si une correspondance est trouvée. COUNTIF compte les occurrences d'une correspondance, c'est pourquoi vous obtenez des résultats inférieurs aux attentes.

Disons que j'ai deux colonnes : Taper et Compter. Voici nos exemples de données :

Si je veux SUMIF tous les Compter valeurs quand Taper est la valeur A que j'utiliserais :

Faire cela pour les valeurs A , B et C donne les résultats corrects sur notre ensemble de données simple afin que nous puissions nous convaincre que c'est ce que nous voulons réellement :

Donc, dans votre cas, vous voudriez faire quelque chose comme:

Et cela vous donnerait le nombre total de coups tirés à chaque fois que vous enregistrez le type d'arme à feu comme Pistolet.

Notez qu'il n'est pas nécessaire que les colonnes soient adjacentes, ce qui est bien. Mais ils devraient avoir une portée similaire ou des choses étranges peuvent arriver.


Et enfin, trouvons les valeurs maximales et minimales d'une colonne donnée. Trouver les distances maximales et minimales pour ces vols semble assez intéressant & #8230 MIN et MAX fonctionnent tout comme SUM , AVG et COUNT:

Résultat : 11 milles. Eh bien, peut-être prendre le vélo la prochaine fois…

D'accord! C'était tout – ce sont les fonctions SQL de base que vous devez connaître… Il est temps de les peaufiner un peu.


Il peut sembler que COUNTIF est si simple qu'il ne compte même pas comme une fonction (jeu de mots), mais en vérité, son potentiel est assez impressionnant. Ses seuls critères de recherche suffisent pour mériter une telle description.

Le fait est que nous pouvons décider de rechercher non seulement des valeurs concrètes mais aussi celles qui répondent à certains critères.

Il est grand temps d'essayer de construire une formule ensemble.

Feuille de calcul Google COUNTIF pour le texte et les nombres (correspondance exacte)

Supposons que votre entreprise vende différents types de chocolat dans plusieurs régions de consommation et travaille avec de nombreux clients.

Voici à quoi ressemblent vos données de vente dans Google Sheets :

Commençons par les bases.

Il faut compter le nombre de "Chocolat au Lait" vendus. Placez le curseur dans la cellule où vous souhaitez obtenir le résultat et entrez le signe d'égalité (=). Google Sheets comprend tout de suite que nous allons entrer une formule. Dès que vous tapez la lettre "C", il vous sera demandé de choisir une fonction commençant par cette lettre. Sélectionnez "COUNTIF".

Le premier argument de COUNTIF est représenté par la gamme suivante:D6:D16. Soit dit en passant, vous n'avez pas besoin d'entrer la plage manuellement - la sélection de la souris suffit. Entrez ensuite une virgule (,) et spécifiez le deuxième argument - les critères de recherche.

Le deuxième argument est une valeur que nous allons rechercher dans la plage sélectionnée. Dans notre cas, ce sera le texte - "Chocolat au lait". N'oubliez pas de terminer la fonction par un crochet fermant ")" et appuyez sur "Entrée".

N'oubliez pas non plus d'entrer des guillemets doubles ("") lorsque vous utilisez des valeurs de texte.

Notre formule finale se présente comme suit :

En conséquence, nous obtenons trois ventes de ce type de chocolat.

=COUNTIF(C6:C16, D6:D16,"Chocolat au lait")

=COUNTIF(D6, D8, D10, D12, D14,"Chocolat au lait")

=COUNTIF(D6,"Chocolat au lait") + COUNTIF(D8,"Chocolat au lait") + COUNTIF(D10,"Chocolat au lait") + COUNTIF(D12,"Chocolat au lait") + COUNTIF(D14,"Chocolat au lait")

Vous avez peut-être remarqué qu'il n'est pas vraiment pratique de définir les critères de recherche dans la formule - vous devez les modifier à chaque fois. La meilleure décision serait d'écrire les critères dans une autre cellule de Google Sheets et de référencer cette cellule dans la formule.

Comptons le nombre de ventes réalisées dans la région "Ouest" en utilisant la référence de cellule dans COUNTIF. Nous obtiendrons la formule suivante :

La fonction utilise le contenu de A3 (la valeur de texte « Ouest ») dans ses calculs. Comme vous pouvez le voir, il est maintenant beaucoup plus facile de modifier la formule et ses critères de recherche.

Bien sûr, nous pouvons faire la même chose avec des valeurs numériques. On peut compter le nombre d'occurrences du nombre "125" en indiquant le nombre lui-même comme second argument :

ou en le remplaçant par une référence de cellule :

Fonction COUNTIF de la feuille de calcul Google et caractères génériques (correspondance partielle)

Ce qui est génial avec COUNTIF, c'est qu'il peut compter des cellules entières ainsi que parties du contenu de la cellule. Pour cela, nous utilisons caractères génériques: "?", "*".

Par exemple, pour compter les ventes dans une région particulière, nous ne pouvons utiliser que la partie de son nom : entrez "?est" dans B3. UNE point d'interrogation (?) remplace un caractère. Nous allons chercher les mots de 4 lettres se terminant par "est", y compris les espaces.

Utilisez la formule COUNTIF suivante en B3 :

Comme vous le savez déjà, la formule peut facilement prendre la forme suivante :

Et on peut voir 5 ventes dans la région « Ouest ».

Employons maintenant la cellule B4 pour une autre formule :

De plus, nous allons changer les critères en "??st" en A4. Cela signifie que maintenant nous allons chercher des mots de 4 lettres se terminant par "st". Puisque dans ce cas deux régions ("Ouest" et "Est") répondent à nos critères, nous verrons neuf ventes :

De même, nous pouvons compter le nombre de ventes de la marchandise à l'aide d'un astérisque (*). Ce symbole remplace non pas un seul, mais n'importe quel nombre de caractères:

"*Chocolat" critère comptabilise tous les produits se terminant par "Chocolat".

"Chocolat*" critère compte tous les produits commençant par "Chocolat".

Et, comme vous pouvez le deviner, si nous entrons "*Chocolat*", nous allons chercher tous les produits qui contiennent le mot "Chocolat".

) avant ces caractères. Dans ce cas, COUNTIF les traitera comme de simples signes plutôt que comme des caractères de recherche. Par exemple, si nous voulons rechercher les valeurs qui contiennent " ?", la formule sera :

COUNTIF feuilles Google pour moins de, plus de ou égal à

La fonction COUNTIF est capable de compter non seulement combien de fois un nombre apparaît, mais aussi combien de nombres sont supérieur/inférieur à/égal à/non égal à un autre numéro spécifié.

Pour cela, nous utilisons les opérateurs mathématiques correspondants : "=", ">", "<", ">=", "<=", "<>".

Consultez le tableau ci-dessous pour voir comment cela fonctionne :

Critères Exemple de formule La description
Le nombre est supérieur à =COUNTIF(F9:F19,">100") Comptez les cellules dont les valeurs sont supérieures à 100.
Le nombre est inférieur à =COUNTIF(F9:F19,"<100") Comptez les cellules dont les valeurs sont inférieures à 100.
Le nombre est égal à =COUNTIF(F9:F19,"=100") Comptez les cellules dont les valeurs sont égales à 100.
Le nombre n'est pas égal à =COUNTIF(F9:F19,"<>100") Comptez les cellules dont les valeurs ne sont pas égales à 100.
Le nombre est supérieur ou égal à =COUNTIF(F9:F19,">=100") Comptez les cellules dont les valeurs sont supérieures ou égales à 100.
Le nombre est inférieur ou égal à =COUNTIF(F9:F19,"<=100") Comptez les cellules dont les valeurs sont inférieures ou égales à 100.

Si vous souhaitez modifier les critères sans modifier la formule, vous pouvez également référencer les cellules.

Faisons référence à A3 et mettons la formule en B3, comme nous l'avons fait auparavant :

Pour créer des critères plus sophistiqués, utilisez un esperluette (&).

Par exemple, B4 contient une formule qui compte le nombre de valeurs supérieures ou égales à 100 dans la plage E9:E19 :

=COUNTIF(E9:E19,"> imgl2" loading="lazy" title="COUNTIF variantes" src="https://cdn.ablebits.com/_img-blog/google-sheets-countif/countif-dynamic-criteria .png">

Feuille de calcul Google COUNTIF avec plusieurs critères

Parfois, il est nécessaire de compter le nombre de valeurs qui répondent à au moins une des conditions mentionnées (logique OU) ou plusieurs critères à la fois (logique ET). Sur cette base, vous pouvez utiliser soit quelques fonctions COUNTIF dans une seule cellule à la fois, soit la fonction alternative COUNTIFS.

Compter dans Google Sheets avec plusieurs critères – ET logique

La seule façon que je vous conseillerais d'utiliser ici est d'utiliser une fonction spéciale conçue pour compter selon plusieurs critères - COUNTIFS :

Il est normalement utilisé lorsqu'il existe des valeurs dans deux plages qui doivent répondre à certains critères ou chaque fois que vous avez besoin d'obtenir le nombre se situant entre une plage de nombres spécifique.

Essayons de compter le nombre de ventes totales entre 200 et 400 :

=COUNTIFS(F8:F18,">=200",F8:F18,"<=400")

Compter dans Google Sheets avec plusieurs critères - OU logique

Lorsqu'un seul de tous les critères suffit, vous feriez mieux d'utiliser plusieurs fonctions COUNTIF.

Exemple 1. COUNTIF + COUNTIF

Comptons le nombre de ventes de chocolat noir et blanc. Pour ce faire, saisissez la formule suivante en B4 :

Conseil. Vous pouvez toujours introduire des références de cellule à vos formules. Voyez à quoi cela ressemble sur la capture d'écran ci-dessous en B3, le résultat reste le même :
Exemple 2. COUNTIF – COUNTIF

Maintenant, je vais compter le nombre de ventes totales entre 200 et 400 :

Je prends le nombre de totaux inférieurs à 400 et soustrait le nombre de ventes totales inférieures à 200 en utilisant la formule suivante :

La formule renvoie le nombre de ventes supérieur à 200 mais inférieur à 400.

Si vous décidez de référencer A3 et A4 qui contiennent les critères, la formule sera un peu plus simple :

=COUNTIF(F7:F17, A4) - COUNTIF(F7:F17, A3)

La cellule A3 aura les critères "<=200", tandis que A4 - "<=400". Mettez les deux formules dans B3 et B4 et assurez-vous que le résultat ne change pas – 3 ventes sur la plage nécessaire.

COUNTIF Google Sheets pour les cellules vides et non vides

Avec l'aide de COUNTIF, nous pouvons également compter le nombre de cellules vides ou non vides dans une certaine plage.

Supposons que nous ayons réussi à vendre le produit et que nous l'ayons marqué comme "Payé". Si le client a refusé la marchandise, nous écrivons zéro (0) dans la cellule. Si l'affaire n'a pas été conclue, la cellule reste vide.

Compter cellules non vides avec n'importe quelle valeur, utilisez ce qui suit :

Pour compter le nombre de cellules vides, assurez-vous de mettre la formule COUNTIF de la manière suivante :

Le nombre de cellules avec un valeur textuelle est compté comme ceci :

La capture d'écran ci-dessous montre que les cellules A3, A4 et A5 incluent nos critères :

Ainsi, on peut voir 4 deals clôturés dont 3 payés et 5 n'ont pas encore de marquage et, par conséquent, ne sont pas clôturés.

COUNTIF et mise en forme conditionnelle

Il existe une opportunité intéressante offerte par Google Sheets : changer le format de la cellule (comme sa couleur) selon certains critères. Par exemple, nous pouvons mettre en évidence les valeurs qui apparaissent le plus souvent en vert.

La fonction COUNTIF peut également jouer un petit rôle ici.

Sélectionnez la plage de cellules que vous souhaitez formater d'une manière spéciale. Cliquez sur Format -> Mise en forme conditionnelle.

Dans le Formatez les cellules si. liste déroulante choisissez la dernière option La formule personnalisée est, et entrez la formule suivante dans le champ qui s'affiche :

Cela signifie que la condition sera répondue si la valeur de B10 apparaît dans B10:B39 dans plus de 40% des cas :

De la même manière, nous ajoutons deux critères de règle de mise en forme supplémentaires - si la valeur de la cellule apparaît plus souvent que dans 25 % des cas et plus souvent que dans 15 % :

Gardez à l'esprit que le premier critère sera vérifié au préalable, et s'il est rempli, le reste ne s'appliquera pas. C'est pourquoi vous feriez mieux de commencer par les valeurs les plus uniques en passant aux plus courantes. Si la valeur de la cellule ne répond à aucun critère, son format restera intact.

Vous pouvez voir que la couleur des cellules a changé selon nos critères.

Pour nous en assurer, nous avons également compté la fréquence de certaines valeurs dans C3:C6 à l'aide de la fonction COUNTIF. Les résultats confirment que COUNTIF dans la règle de formatage a été appliqué correctement.

Tous ces exemples de fonctions nous permettent de comprendre clairement comment Google Spreadsheet COUNTIF offre de multiples possibilités de travailler avec les données de la manière la plus efficace.


Comment compter les occurrences de valeurs de champ uniques ? - Systèmes d'information géographique

] Juin 1749 : Insérer entre p. 250 et 251 . Voir plus d'informations sur cette carte.] --> A Groundplot of Part of the Citty of Westminster Containing Westminſter-Abby (or the Collegiate Church of St. Peter), Westminster-Hall, The Court of Wards, Court of Requests, Painted Chamber , Logements de la Chambre des Lords et des Princes, The Old & New Palace-Yard, The Great Sanctuary, et plusieurs autres lieux adjacents. 1685(?) . [ Voir plus d'informations sur cette carte.] Grundtriss der Statt London wie solche vor und nach dem Brand anzusehen, sampt dem Newen Model, wie selbige widrum Auffgebauwet werden solle . Theatri Europaei Continuatio X . Par Johann Philipp Abelinus, Matthaeus Merian der Ältere et Heinrich Oraeus.

Götzens sel. Erben , Wust u. Görlin, 1677 . Insérer entre sig. 2B4v et sig. 2B5r. [ Voir plus d'informations sur cette carte.] Une vue d'une partie de la banlieue nord-ouest de Londres, comme ils sont apparus, Anno 1570. Y compris l'ensemble de la paroisse de St. Giles in the Fields et son voisinage immédiat, ses églises paroissiales , érigé à différentes périodes, &c . Quelques comptes de l'hôpital et de la paroisse de St. Giles, Middlesex . Par John Parton.

, 1822 . 105 . [ Voir plus d'informations sur cette carte.] Untitled Copperplate Map of London . 1559 . [ Voir plus d'informations sur cette carte.] Londres, partie du comté de Middlesex et partie du comté de Surrey . 1662 . [ Voir plus d'informations sur cette carte.] Une carte de poche des villes de Londres. Westminster. & Southwark. Avec l'ajout des nouveaux édifices à cette année 1725 .

, 1725 . [ Voir plus d'informations sur cette carte.] Londres, Westminster, Southwark . 1690 . [ Voir plus d'informations sur cette carte.] Nouvelle Carte du Gouvernement Civil d'Angleterre et de Celuy de la Ville de Londres . 1700 . [Voir plus d'informations sur cette carte.] Une relation ou un dialogue complet entre un loyaliste et un fanatique converti depuis l'époque de la rébellion tardive, racontant leur complot pervers et leurs intentions barbares, par lequel leurs complots diaboliques sont plus complètement découverts qu'il ne l'a jamais été. avant : doucement disputé entre eux deux. Avec les lamentations des fanaticks et les adieux à cet équipage. Publié comme un avertissement à tous les sectaires rebelles . Londres : Imprimé pour F. Coles, 1660 . Aile F2375. EEBO. Plan de la Ville de Londres. Mézeray, 1698 . [Voir plus d'informations sur cette carte.] Une nouvelle carte correcte de vingt milles autour de Londres . 1700 . [ Voir plus d'informations sur cette carte.] Anonyme . Une vue de Londres sur l'année 1560 . L'histoire et l'enquête de Londres de sa fondation à l'heure actuelle . Vol. 1 . Par William Maitland.

, 1739 . [ Voir plus d'informations sur cette carte.] Une nouvelle carte de la ville de Londres bien agrandie depuis le grand incendie de 1666 dans laquelle se trouvent plusieurs rues, lieux et bâtiments remarquables qui ont été ajoutés depuis d'autres cartes de Londres avant que cela n'ait été publié .

, 1706 . Voir plus d'informations sur cette carte.]--> Un nouveau plan exact de la ville de Londres et de ses banlieues, avec l'ajout des nouveaux bâtiments, églises &c. à cette année actuelle 1720 .

, 1720 . Voir plus d'informations sur cette carte.]--> Une nouvelle carte de la ville de Londres &c. avec les nombreux bâtiments supplémentaires et les nouvelles rues Anno 1720 .

, 1720 . Voir plus d'informations sur cette carte.]--> Un nouveau plan exact des villes de Londres & Westminster et de l'arrondissement de Southwark avec tous les nouveaux bâtiments supplémentaires pour vous Année actuelle : 1724 .

, 1724 . [ Voir plus d'informations sur cette carte.] Un nouveau & plan exact de la ville de Londres et de ses banlieues, avec l'ajout des nouveaux bâtiments, églises &c. jusqu'à cette année 1731 (n'existe dans aucune autre) établie d'une manière telle qu'en un instant, on peut facilement trouver n'importe quel endroit qui y est contenu.

, 1731 . Voir plus d'informations sur cette carte.]--> Plan de la paroisse de St. George's, Hannover Square . 1730 . [ Voir plus d'informations sur cette carte.] Une carte de poche de Londres Westminster et Southwark avec de nouveaux bâtiments jusqu'à l'année 1759 .

, 1759 . Voir plus d'informations sur cette carte.] --> Croquis de la procession habituellement observée dans le couronnement de nos rois et reines avec un plan indiquant plusieurs nouveaux chemins et leurs parties adjacentes. 1761 . [ Voir plus d'informations sur cette carte.] Une carte de Londres, Westminster et Southwark avec vous New Buildngs jusqu'à l'année 1764 . Une nouvelle histoire de Londres de sa fondation à l'année actuelle . Par George Reeves. 2e éd.

, 1764 . Frontispice. Voir plus d'informations sur cette carte.] --> Un nouveau plan de la ville de Londres, Westminster et Southwark . Une enquête sur les villes de Londres et de Westminster : contenant l'original, l'antiquité, l'augmentation, le domaine moderne et le gouvernement de ces villes . Par John Stow et John Strype. Vol. 1 .


Contenu

Aperçu Modifier

Stevens a proposé sa typologie dans un 1946 La science article intitulé "Sur la théorie des échelles de mesure". [2] Dans cet article, Stevens affirmait que toutes les mesures scientifiques étaient effectuées à l'aide de quatre types d'échelles différents qu'il appelait « nominal », « ordinal », « intervalle » et « rapport », unifiant à la fois « qualitative » (qui décrit par son type « nominal ») et « quantitatif » (à un degré différent, tout le reste de ses échelles). Le concept de types d'échelle a reçu plus tard la rigueur mathématique qui lui manquait à ses débuts avec les travaux des psychologues mathématiques Theodore Alper (1985, 1987), Louis Narens (1981a, b) et R. Duncan Luce (1986, 1987, 2001). . Comme Luce (1997, p. 395) l'a écrit :

S. S. Stevens (1946, 1951, 1975) a affirmé que ce qui comptait était d'avoir une échelle d'intervalle ou de rapport. Des recherches ultérieures ont donné un sens à cette affirmation, mais étant donné ses tentatives d'invoquer des idées de type échelle, il est douteux qu'il l'ait compris lui-même. aucun théoricien de la mesure que je connais n'accepte la définition large de la mesure de Stevens. à notre avis, la seule signification sensée de « règle » est celle des lois empiriquement testables sur l'attribut.

Comparaison Modifier

Mesurer la propriété Mathématique

Niveau nominal Modifier

Le type nominal différencie les éléments ou les sujets uniquement sur la base de leurs noms ou (méta-)catégories et d'autres classifications qualitatives auxquelles ils appartiennent, ainsi les données dichotomiques impliquent la construction de classifications ainsi que la classification des éléments. La découverte d'une exception à une classification peut être considérée comme un progrès. Des nombres peuvent être utilisés pour représenter les variables, mais les nombres n'ont pas de valeur numérique ou de relation : par exemple, un identifiant global unique.

Des exemples de ces classifications incluent le sexe, la nationalité, l'origine ethnique, la langue, le genre, le style, l'espèce biologique et la forme. [6] [7] Dans une université, on pourrait aussi utiliser la salle d'affiliation comme exemple. D'autres exemples concrets sont

  • en grammaire, les parties du discours : nom, verbe, préposition, article, pronom, etc.
  • en politique, projection de puissance : hard power, soft power, etc.
  • en biologie, la taxonomie se classe sous les domaines : Archaea, Bacteria et Eukarya
  • en génie logiciel, type de défauts : défauts de spécification, défauts de conception et défauts de code

Les échelles nominales étaient souvent appelées échelles qualitatives, et les mesures effectuées sur des échelles qualitatives étaient appelées données qualitatives. Cependant, l'essor de la recherche qualitative a rendu cet usage confus. Si des nombres sont attribués en tant qu'étiquettes dans la mesure nominale, ils n'ont aucune valeur numérique ou signification spécifique. Aucune forme de calcul arithmétique (+, −, ×, etc.) ne peut être effectuée sur des mesures nominales. Le niveau nominal est le niveau de mesure le plus bas utilisé d'un point de vue statistique.

Opérations mathématiques Modifier

L'égalité et d'autres opérations qui peuvent être définies en termes d'égalité, telles que l'inégalité et l'appartenance à un ensemble, sont les seules opérations non triviales qui s'appliquent de manière générique aux objets de type nominal.

Tendance centrale Modifier

Le mode, c'est-à-dire le Le plus commun item, est autorisé comme mesure de tendance centrale pour le type nominal. En revanche, la médiane, c'est-à-dire la milieu de gamme item, n'a aucun sens pour le type nominal de données puisque le classement n'a pas de sens pour le type nominal. [8]

Échelle ordinale Modifier

Le type ordinal permet l'ordre de classement (1er, 2e, 3e, etc.) selon lequel les données peuvent être triées, mais ne permet toujours pas de degré de différence entre eux. Les exemples incluent, d'une part, dichotomique des données avec des valeurs dichotomiques (ou dichotomisées) telles que « malade » par rapport à « en bonne santé » lors de la mesure de la santé, « coupable » par rapport à « non-coupable » lors des jugements rendus par les tribunaux, « mauvais/faux » par rapport à « lors de la mesure de la valeur de vérité, et, d'autre part, non dichotomique données constituées d'un éventail de valeurs, telles que « tout à fait d'accord », « plutôt d'accord », « pas du tout d'accord », « pas du tout d'accord » lors de la mesure de l'opinion.

L'échelle ordinale place les événements dans l'ordre, mais il n'y a aucune tentative pour rendre les intervalles de l'échelle égaux en fonction d'une règle. Les ordres de classement représentent des échelles ordinales et sont fréquemment utilisés dans les recherches relatives aux phénomènes qualitatifs. Le rang d'un étudiant dans sa promotion implique l'utilisation d'une échelle ordinale. Il faut être très prudent en faisant des déclarations sur les scores basés sur des échelles ordinales. Par exemple, si la position de Devi dans sa classe est de 10 et la position de Ganga est de 40, on ne peut pas dire que la position de Devi est quatre fois plus bonne que celle de Ganga. La déclaration n'aurait aucun sens. Les échelles ordinales permettent uniquement de classer les éléments du plus haut au plus bas. Les mesures ordinales n'ont pas de valeurs absolues et les différences réelles entre les rangs adjacents peuvent ne pas être égales. Tout ce qu'on peut dire, c'est qu'une personne est plus haut ou plus bas sur l'échelle qu'une autre, mais des comparaisons plus précises ne peuvent être faites. Ainsi, l'utilisation d'une échelle ordinale implique une déclaration de « supérieur à » ou « inférieur à » (une déclaration d'égalité est également acceptable) sans que nous puissions dire de combien supérieur ou inférieur. La différence réelle entre les rangs 1 et 2, par exemple, peut être supérieure ou inférieure à la différence entre les rangs 5 ​​et 6. Étant donné que les nombres de cette échelle n'ont qu'une signification de rang, la mesure appropriée de la tendance centrale est la médiane. Une mesure de centile ou de quartile est utilisée pour mesurer la dispersion. Les corrélations sont limitées à diverses méthodes d'ordre de classement. Les mesures de signification statistique sont limitées aux méthodes non paramétriques (R. M. Kothari, 2004).

Tendance centrale Modifier

La médiane, c'est-à-dire milieu de gamme, l'item est autorisé comme mesure de tendance centrale, cependant, la moyenne (ou moyenne) comme mesure de tendance centrale n'est pas autorisée. Le mode est autorisé.

En 1946, Stevens a observé que la mesure psychologique, telle que la mesure des opinions, fonctionne généralement sur des échelles ordinales, donc les moyennes et les écarts types n'ont aucune validité, mais ils peuvent être utilisés pour obtenir des idées sur la façon d'améliorer l'opérationnalisation des variables utilisées dans les questionnaires. La plupart des données psychologiques recueillies par des instruments et des tests psychométriques, mesurant les capacités cognitives et autres, sont ordinales, bien que certains théoriciens aient soutenu qu'elles peuvent être traitées comme des échelles d'intervalle ou de rapport. Cependant, il existe peu de preuves prima facie suggérant que de tels attributs soient autre chose qu'ordinal (Cliff, 1996 Cliff & Keats, 2003 Michell, 2008). [9] En particulier, [10] les scores de QI reflètent une échelle ordinale, dans laquelle tous les scores sont significatifs à des fins de comparaison uniquement. [11] [12] [13] Il n'y a pas de zéro absolu et une différence de 10 points peut avoir des significations différentes à différents points de l'échelle. [14] [15]

Échelle d'intervalle Modifier

Le type d'intervalle permet de degré de différence entre les éléments, mais pas le rapport entre eux. Les exemples comprennent échelles de température avec l'échelle Celsius, qui a deux points définis (le point de congélation et d'ébullition de l'eau dans des conditions spécifiques) et ensuite séparé en 100 intervalles, Date lorsqu'il est mesuré à partir d'une époque arbitraire (comme AD), emplacement en coordonnées cartésiennes, et direction mesurée en degrés par rapport au nord vrai ou magnétique. Les ratios n'ont pas de sens puisque 20 °C ne peuvent pas être considérés comme "deux fois plus chauds" que 10 °C (contrairement à la température en Kelvins), et la multiplication/division ne peut pas non plus être effectuée directement entre deux dates. cependant, rapports de différences peut être exprimé par exemple, une différence peut être le double d'une autre. Les variables de type intervalle sont parfois aussi appelées "variables mises à l'échelle", mais le terme mathématique formel est un espace affine (dans ce cas une ligne affine).

Tendance centrale et dispersion statistique Modifier

Le mode, la médiane et la moyenne arithmétique sont autorisés à mesurer la tendance centrale des variables d'intervalle, tandis que les mesures de la dispersion statistique incluent la plage et l'écart type. Comme on ne peut diviser que par différences, on ne peut pas définir des mesures qui nécessitent certains ratios, comme le coefficient de variation. Plus subtilement, si l'on peut définir des moments autour de l'origine, seuls les moments centraux ont un sens, puisque le choix de l'origine est arbitraire. On peut définir des moments standardisés, puisque les rapports de différences sont significatifs, mais on ne peut pas définir le coefficient de variation, puisque la moyenne est un moment autour de l'origine, contrairement à l'écart type, qui est (la racine carrée) d'un moment central.

Échelle de rapport Modifier

Le type ratio tire son nom du fait que la mesure est l'estimation du rapport entre une grandeur d'une quantité continue et une unité de mesure de même nature (Michell, 1997, 1999). La plupart des mesures en sciences physiques et en génie sont effectuées sur des échelles de rapport. Les exemples incluent la masse, la longueur, la durée, l'angle du plan, l'énergie et la charge électrique. Contrairement aux échelles d'intervalle, les rapports peuvent être comparés en utilisant la division. De manière très informelle, de nombreuses échelles de ratio peuvent être décrites comme spécifiant « combien » de quelque chose (c'est-à-dire une quantité ou une ampleur). L'échelle de rapport est souvent utilisée pour exprimer un ordre de grandeur comme pour la température en ordres de grandeur (température).

Tendance centrale et dispersion statistique Modifier

La moyenne géométrique et la moyenne harmonique sont autorisées à mesurer la tendance centrale, en plus du mode, de la médiane et de la moyenne arithmétique. La plage studentisée et le coefficient de variation permettent de mesurer la dispersion statistique. Toutes les mesures statistiques sont autorisées car toutes les opérations mathématiques nécessaires sont définies pour l'échelle de rapport.

While Stevens's typology is widely adopted, it is still being challenged by other theoreticians, particularly in the cases of the nominal and ordinal types (Michell, 1986). [16] Some however have argued that the degree of discord can be overstated. Hand says, "Basic psychology texts often begin with Stevens’s framework and the ideas are ubiquitous. Indeed, the essential soundness of his hierarchy has been established for representational measurement by mathematicians, determining the invariance properties of mappings from empirical systems to real number continua. Certainly the ideas have been revised, extended, and elaborated, but the remarkable thing is his insight given the relatively limited formal apparatus available to him and how many decades have passed since he coined them." [17]

Duncan (1986) objected to the use of the word measurement in relation to the nominal type, but Stevens (1975) said of his own definition of measurement that "the assignment can be any consistent rule. The only rule not allowed would be random assignment, for randomness amounts in effect to a nonrule".

The use of the mean as a measure of the central tendency for the ordinal type is still debatable among those who accept Stevens's typology. Many behavioural scientists use the mean for ordinal data, anyway. This is often justified on the basis that the ordinal type in behavioural science is in fact somewhere between the true ordinal and interval types although the interval difference between two ordinal ranks is not constant, it is often of the same order of magnitude.

For example, applications of measurement models in educational contexts often indicate that total scores have a fairly linear relationship with measurements across the range of an assessment. Thus, some argue that so long as the unknown interval difference between ordinal scale ranks is not too variable, interval scale statistics such as means can meaningfully be used on ordinal scale variables. Statistical analysis software such as SPSS requires the user to select the appropriate measurement class for each variable. This ensures that subsequent user errors cannot inadvertently perform meaningless analyses (for example correlation analysis with a variable on a nominal level).

L. L. Thurstone made progress toward developing a justification for obtaining the interval type, based on the law of comparative judgment. A common application of the law is the analytic hierarchy process. Further progress was made by Georg Rasch (1960), who developed the probabilistic Rasch model that provides a theoretical basis and justification for obtaining interval-level measurements from counts of observations such as total scores on assessments.

Other proposed typologies Edit

Typologies aside from Stevens's typology have been proposed. For instance, Mosteller and Tukey (1977), Nelder (1990) [18] described continuous counts, continuous ratios, count ratios, and categorical modes of data. See also Chrisman (1998), van den Berg (1991). [19]

Mosteller and Tukey's typology (1977) Edit

Mosteller and Tukey [4] noted that the four levels are not exhaustive and proposed:

  1. Names
  2. Grades (ordered labels like beginner, intermediate, advanced)
  3. Ranks (orders with 1 being the smallest or largest, 2 the next smallest or largest, and so on)
  4. Counted fractions (bound by 0 and 1)
  5. Counts (non-negative integers)
  6. Amounts (non-negative real numbers)
  7. Balances (any real number)

For example, percentages (a variation on fractions in the Mosteller–Tukey framework) do not fit well into Stevens's framework: No transformation is fully admissible. [16]

Chrisman's typology (1998) Edit

Nicholas R. Chrisman [5] introduced an expanded list of levels of measurement to account for various measurements that do not necessarily fit with the traditional notions of levels of measurement. Measurements bound to a range and repeating (like degrees in a circle, clock time, etc.), graded membership categories, and other types of measurement do not fit to Stevens's original work, leading to the introduction of six new levels of measurement, for a total of ten:

  1. Nominal
  2. Gradation of membership
  3. Ordinal
  4. Intervalle
  5. Log-interval
  6. Extensive ratio
  7. Cyclical ratio
  8. Derived ratio
  9. Counts
  10. Absolute

While some claim that the extended levels of measurement are rarely used outside of academic geography, [20] graded membership is central to fuzzy set theory, while absolute measurements include probabilities and the plausibility and ignorance in Dempster-Shafer theory. Cyclical ratio measurements include angles and times. Counts appear to be ratio measurements, but the scale is not arbitrary and fractional counts are commonly meaningless. Log-interval measurements are commonly displayed in stock market graphics. All these types of measurements are commonly used outside academic geography, and do not fit well to Stevens' original work.

Scale types and Stevens's "operational theory of measurement" Edit

The theory of scale types is the intellectual handmaiden to Stevens's "operational theory of measurement", which was to become definitive within psychology and the behavioral sciences, [ citation needed ] despite Michell's characterization as its being quite at odds with measurement in the natural sciences (Michell, 1999). Essentially, the operational theory of measurement was a reaction to the conclusions of a committee established in 1932 by the British Association for the Advancement of Science to investigate the possibility of genuine scientific measurement in the psychological and behavioral sciences. This committee, which became known as the Ferguson committee, published a Final Report (Ferguson, et al., 1940, p. 245) in which Stevens's sone scale (Stevens & Davis, 1938) was an object of criticism:

…any law purporting to express a quantitative relation between sensation intensity and stimulus intensity is not merely false but is in fact meaningless unless and until a meaning can be given to the concept of addition as applied to sensation.

That is, if Stevens's sone scale genuinely measured the intensity of auditory sensations, then evidence for such sensations as being quantitative attributes needed to be produced. The evidence needed was the presence of additive structure – a concept comprehensively treated by the German mathematician Otto Hölder (Hölder, 1901). Given that the physicist and measurement theorist Norman Robert Campbell dominated the Ferguson committee's deliberations, the committee concluded that measurement in the social sciences was impossible due to the lack of concatenation operations. This conclusion was later rendered false by the discovery of the theory of conjoint measurement by Debreu (1960) and independently by Luce & Tukey (1964). However, Stevens's reaction was not to conduct experiments to test for the presence of additive structure in sensations, but instead to render the conclusions of the Ferguson committee null and void by proposing a new theory of measurement:

Paraphrasing N. R. Campbell (Final Report, p.340), we may say that measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules (Stevens, 1946, p.677).

Stevens was greatly influenced by the ideas of another Harvard academic, the Nobel laureate physicist Percy Bridgman (1927), whose doctrine of operationism Stevens used to define measurement. In Stevens's definition, for example, it is the use of a tape measure that defines length (the object of measurement) as being measurable (and so by implication quantitative). Critics of operationism object that it confuses the relations between two objects or events for properties of one of those of objects or events (Hardcastle, 1995 Michell, 1999 Moyer, 1981a,b Rogers, 1989).

The Canadian measurement theorist William Rozeboom (1966) was an early and trenchant critic of Stevens's theory of scale types.

Same variable may be different scale type depending on context Edit

Another issue is that the same variable may be a different scale type depending on how it is measured and on the goals of the analysis. For example, hair color is usually thought of as a nominal variable, since it has no apparent ordering. [21] However, it is possible to order colors (including hair colors) in various ways, including by hue this is known as colorimetry. Hue is an interval level variable.


Voir la vidéo: La stratégie optimale pour maximiser vos gains au blackjack (Octobre 2021).