Suite

Algorithme de regroupement des points en paires (exactement deux) par proximité sans réutilisation


J'ai une liste assez longue de centroïdes que je souhaite regrouper en groupes de deux par proximité (minimiser la proximité).

J'ai exploré k-means, qui les regroupe par proximité, mais le nombre de membres dans chaque groupe varie. Avec k-means, vous définissez un nombre de clusters, pas un nombre de membres dans chaque cluster.

Le problème du plus proche voisin résout ce problème pour deux éléments de l'ensemble, mais pas pour l'ensemble de données.

Les K voisins les plus proches semblent les diviser en groupes de N, mais cela semble permettre la réutilisation des points. Dans mon scénario, il ne peut y avoir de chevauchement.

Existe-t-il un algorithme particulier ou une suite d'algorithmes conçus pour résoudre ce problème ? Je suis assez pratique quand je sais contre quoi je travaille, mais je n'ai pas une bonne idée de la façon d'aborder le problème.

Pour en savoir plus sur le contexte et ce que nous essayons de résoudre :

Les points représentent un certain nombre de sites à travers les États-Unis. Chacun de ces sites est un concurrent (offre). Indépendamment, nous avons agrégé la demande (à partir des données du recensement, etc.). Nous voulons faire la moyenne des paires les plus proches afin de pouvoir utiliser l'offre agrégée lors du calcul de nos indices offre/demande pour une étendue spatiale donnée (définie par les polygones de demande).

Nous devons utiliser au moins deux points pour que les données individuelles d'un site donné soient masquées. Il s'agit d'une exigence de licence/de confidentialité. Sinon, nous analyserions chaque point individuellement. Nous ne voulons pas en utiliser plus de deux, car cela obscurcit davantage les données. En utilisant deux, nous respectons les exigences de licence, tout en minimisant l'effet de la moyenne sur un cluster.


Pourquoi l'algorithme de clustering k-means utilise-t-il uniquement la métrique de distance euclidienne ?

Y a-t-il un objectif spécifique en termes d'efficacité ou de fonctionnalité pour lequel l'algorithme des k-moyennes n'utilise pas par exemple la (dis) similitude cosinus comme une métrique de distance, mais ne peut utiliser que la norme euclidienne ? En général, la méthode K-means sera-t-elle conforme et correcte lorsque d'autres distances qu'euclidiennes sont prises en compte ou utilisées ?

[Ajout par @ttnphns. La question est double. La "distance (non)euclidienne" peut concerner la distance entre deux points de données ou la distance entre un point de données et un centre de cluster. Les deux manières ont été tentées d'aborder dans les réponses jusqu'à présent.]


Les références

Assad A, Ball M, Bodin L et Golden B (1983). Routage et planification des véhicules et des équipages : l'état de l'art. Comput Opns Res 10 : 63-211.

Lenstra J et Rinnooy Kan A (1981). Complexité des problèmes de tournées et d'ordonnancement des véhicules. Réseaux 11 : 221-228.

Tansini L (2001). Algoritmos de Asignación para MDVRPTW. Mémoire de Master–PEDECIBA, 2001, Instituto de Computación, Facultad de Ingeniería, UDELAR.

Caseau Y et Laburthe F (1998). Une heuristique rapide pour les gros problèmes de routage. Présenté à IFORS 98, Kaunas, Lituanie.

Laporte G, Gendreau M, Potvin JY et Semet F (2000). Heuristiques classiques et modernes pour le problème de tournées de véhicules. Int Trans Opl Res 7 : 285-300.

Toth P et Vigo D (1998). La recherche tabou granulaire (et son application au problème de tournées de véhicules). Document de travail, DEIS, Université de Bologne.

Cordeau JF, Laporte G et Mercier A (2001). Une heuristique de recherche tabou unifiée pour les problèmes de tournées de véhicules avec des fenêtres de temps. J Opl Res Soc 52 : 928-936.

Reimann M, Doerner K et Hartl RF (2003). Analyse d'un système de fourmis unifié pour le VRP et certaines de ses variantes. Dans : Gunther et al (éd). EvoWorkshops 2003, Notes de cours en informatique, Vol 2611, Springer-Verlag, Berlin, Heidelberg, pp 300-310.

Rousseau LM, Gendreau M, Pesant G et Focacci F (2004). Résoudre les VRPTW avec la génération de colonnes basée sur la programmation par contraintes. Ann Opl Res 130 : 199-216.

Berger J, Barkaoui M et Bräysy O (2001). Un algorithme génétique hybride parallèle pour le problème de tournées de véhicules avec des fenêtres temporelles. Document de travail, Centre de recherches pour la défense Valcartier, Canada.

Tchèque ZJ et Czarnas P (2002). Recuit simulé parallèle pour le problème de tournées de véhicules avec des fenêtres temporelles. Présenté au 10e atelier Euromicro sur le traitement parallèle, distribué et en réseau, Îles Canaries, Espagne.

Sa'adah P et Paechter B (2004). Amélioration du routage des véhicules à l'aide d'une colonie de temps d'attente client. Dans : Goos G, Hartmanis J et van Leeuwen J (eds). EvoCOP 2004, Notes de cours en informatique, Vol 3004, Springer-Verlag, Berlin, pp 188-198.

Bramel J et Simchi-Levi D (1997). Sur l'efficacité des formulations de couverture d'ensemble pour le problème de tournées de véhicules avec des fenêtres temporelles. Rés Ops 45 : 295-301.

Potvin J et Rousseau J (1993). Un algorithme de construction d'itinéraires parallèles pour le problème de routage et d'ordonnancement des véhicules avec des fenêtres de temps. Eur J Opl Res 66 : 331-340.

Salomon M (1987). Algorithmes pour les problèmes de tournées et d'ordonnancement des véhicules avec des contraintes de fenêtre de temps. Opns Res 35 : 254-264.

Salhi S et Nagy G (1999). Une heuristique d'insertion de cluster pour les problèmes de tournées de véhicules de dépôt unique et multiple avec le backhauling. J Opl Res Soc 50 : 1034-1042.

Ioannou G, Kritikos M et Prastacos G (2001). Une heuristique d'anticipation gourmande pour le problème de tournées de véhicules avec des fenêtres de temps. J Opl Res Soc 52 : 523-537.

Cordeau JF, Gendreau M et Laporte G (1997). Une heuristique de recherche taboue pour les problèmes de tournées de véhicules périodiques et multi-dépôts. Réseaux 30 : 105-119.

Salhi S et Sari M (1997). Une heuristique composite multi-niveaux pour le problème de mix de flotte de véhicules multi-dépôts. Eur J Opl Res 103 : 95-112.

Desaulniers G, Lavigne J et Soumis F (1998). Problèmes d'ordonnancement des véhicules multi-dépôts avec fenêtres horaires et coûts d'attente. Eur J Opl Res 111 : 479-494.

Russell R et Igo W (1979). Un problème de routage d'affectation. Réseaux 9 : 1-17.

Urquhart M, Viera O, Gonzalez M et Cancela H (1997). Techniques de tournées de véhicules appliquées à un problème de collecte de lait. Présenté à INFORMS Fall Meeting, Dallas, TX, États-Unis.

Foulds LR et Wilson JM (1997). Une variante du problème d'affectation généralisé qui se pose dans l'industrie laitière néo-zélandaise. Ann Opns Res 69 : 105–114.

Giosa D, Tansini L et Viera O (1999). Algorithmes d'affectation pour le problème de tournées de véhicules multi-dépôts. Présenté à SADIO, Buenos Aires, Argentine.

Berry M et Lindoff G 1995. Techniques d'exploration de données : pour le marketing, les ventes et le support client. John Wiley & Sons : Chichester.

Giosa D, Tansini L et Viera O (2002). Nouveaux algorithmes d'affectation pour le problème de tournées de véhicules multi-dépôts. J Opl Res Soc 53 : 977-984.


Algorithmes de classification automatique : une revue systématique et une analyse bibliométrique de la littérature pertinente

L'analyse de cluster est un outil essentiel dans l'exploration de données. Plusieurs algorithmes de clustering ont été proposés et implémentés, dont la plupart sont capables de trouver des résultats de clustering de bonne qualité. Cependant, la majorité des algorithmes de clustering traditionnels, tels que K-means, K-medoids et Chameleon, dépendent toujours de la fourniture a priori du nombre de clusters et peuvent avoir du mal à résoudre des problèmes où le nombre de clusters est inconnu. . Ce manque d'informations vitales peut imposer des charges ou des exigences de calcul supplémentaires aux algorithmes de clustering pertinents. Dans les problèmes d'analyse de clustering de données du monde réel, le nombre de clusters dans les objets de données ne peut pas être facilement pré-identifié et donc déterminer la quantité optimale de clusters pour un ensemble de données à haute densité et dimensionnalité est une tâche assez difficile. Par conséquent, des techniques sophistiquées de clustering automatique sont indispensables en raison de leur flexibilité et de leur efficacité. Cet article présente un aperçu taxonomique systématique et une analyse bibliométrique des tendances et des progrès des approches de regroupement métaheuristiques inspirées de la nature depuis les premières tentatives dans les années 1990 jusqu'aux nouvelles solutions d'aujourd'hui. Enfin, les problèmes clés liés à la formulation d'algorithmes métaheuristiques en tant que problème de clustering et les principaux domaines d'application sont également traités dans cet article.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


5.1 ਌omment les FunGC sont-ils calculés ?

Les FunGC sont calculés par un processus en deux étapes. Étant donné tous les gènes d'un organisme donné,

Étape 1 : Calculez un score de liaison fonctionnelle par paires entre chaque paire de gènes de l'organisme.

Étape 2 : calculez les FunGCs en recherchant des ensembles hautement connectés de gènes fonctionnellement liés à partir de l'étape 1

Dans un instant, nous examinerons ces étapes plus en détail. Mais d'abord, nous discutons de la dépendance de ces méthodes sur les données orthologues dans BioCyc.


5. Résultats par rapport aux cas analogiques

[27] L'algorithme d'homogénéisation par paires produit une liste de dates de points de rupture et d'ajustements pour chaque série d'entrée. Bien qu'il soit possible d'évaluer les résultats au niveau d'une série de stations individuelles, l'accent est mis ici sur les impacts agrégés à l'échelle du réseau tels que reflétés dans les changements de la valeur moyenne régionale. Nous présentons ces résultats agrégés en commençant par la structure d'erreur analogique la plus simple et en passant progressivement aux modèles les plus complexes.

[28] La figure 2 fournit une perspective géographique des tendances de l'analogue « données parfaites » à la fois pour les données d'entrée brutes (figure 2a) et pour les données homogénéisées par la version par défaut de l'algorithme (figure 2b). Les tendances ont été calculées en interpolant les valeurs de température annuelles sur une grille de 0,25 × 0,25 degré, puis en calculant la tendance pour chaque case de la grille comme décrit par Menné et al. [2009] . La version par défaut de l'algorithme préserve essentiellement le modèle des tendances, bien qu'il semble y avoir un léger lissage du modèle spatial. Néanmoins, dans le cas des « données parfaites », aucune version de l'algorithme par paire ne fait des ajustements injustifiés suffisants pour éloigner la tendance moyenne du CONUS de la vraie tendance, et les séries moyennes produites par les 100 versions aléatoires de l'algorithme sont indiscernables de celles sur la base des données d'entrée brutes (voir matériel auxiliaire).

[29] Dans le cas « Big breaks, perfect metadata », les données d'entrée non ajustées sont caractérisées par un champ de tendances bruité et hétérogène causé par l'imposition de cassures aléatoires dans le réseau tout au long de la série. Comme le montre la figure 3a, l'impact est un mélange de tendances avec des biais positifs et négatifs. Dans ce cas, l'algorithme par défaut est proche de reproduire le véritable modèle spatial et l'ampleur des tendances (figures 3b et 3c), ce qui est attendu étant donné que le moment de toutes les ruptures est connu. Néanmoins, certaines versions aléatoires de l'algorithme n'utilisent pas les métadonnées et traitent toutes les ruptures comme non documentées. De plus, l'utilisation d'un test de signification lors de l'estimation de l'ampleur de chaque rupture signifie que la récupération du vrai signal climatique à partir des données d'entrée n'est pas nécessairement parfaite. Cependant, comme il n'y a pas de biais global associé aux erreurs imposées, les versions aléatoires de l'algorithme produisent toutes des tendances moyennes CONUS qui ne s'écartent pas substantiellement de la véritable tendance de fond (Figure 4) et il n'y a pas de signe de préférence pour le résiduel potentiel. Erreur.

[30] Dans l'analogue « Tailles de rupture mixtes, certains clusters », les erreurs sont regroupées dans le temps (entre 1915 et 1975 et un peu plus fortement de 1915 à 1945), et une préférence de signe est présente dans les erreurs. Dans ce cas, les tendances homogénéisées depuis 1900 et depuis 1950 de l'ensemble sont toutes supérieures à la tendance d'entrée brute (Figure 5), une indication que l'algorithme tient compte du biais de signe dans les erreurs imposées pendant les périodes où les erreurs sont concentré.

[31] Dans la famille d'analogues « Cluster et biais de signe », les erreurs imposées présentent une préférence de signe encore plus grande et sont plus regroupées dans le temps, y compris plus près de la fin de la série, ce qui fausse les tendances moyennes pour toutes les périodes depuis 1900. L'impact du biais de signe sur les tendances des entrées brutes pour toute la période est illustré à la figure 6. Par rapport aux valeurs réelles (figure 6b), un plus grand nombre de tendances sont trop élevées plutôt que trop faibles dans les données non ajustées (figure 6a ). Néanmoins, la version par défaut de l'algorithme d'homogénéisation par paires est proche de reproduire à la fois l'amplitude et le modèle des tendances de température sous-jacentes (Figure 6c) malgré la préférence de signe. Comme le montre la figure 7, toutes les versions aléatoires de l'algorithme produisent des séries homogénéisées qui rapprochent la moyenne CONUS de la valeur réelle pour toutes les périodes de tendance, avec certaines configurations d'algorithme, y compris la version par défaut, produisant des résultats très proches de la « vérité » - en mouvement la tendance de plus de 95% pour cent vers le vrai signal climatique. En particulier, l'impact des erreurs positives omniprésentes semées dans 70 % des séries analogiques après 1980 est réduit par tous les membres de l'ensemble. Notamment, l'erreur résiduelle potentielle est essentiellement unilatérale dans ce cas, il existe une faible probabilité de surcompensation des changements de biais d'une petite quantité.

[32] La figure 8 fournit un aperçu récapitulatif de la famille d'analogues « Cluster et biais de signe » (et des séries chronologiques supplémentaires sont fournies en tant que matériel auxiliaire). Étant donné que chacun de ces quatre analogues a été semé avec des erreurs identiques, toute différence dans les performances d'homogénéisation pour un membre d'ensemble particulier est uniquement fonction de la présence ou de l'absence d'une composante de réponse forcée et du calendrier et des modèles de variations internes naturelles simulées par les divers sous-jacents. des modèles. Les résultats indiquent que, bien que l'efficacité des membres individuels dépende quelque peu de la nature du signal climatique sous-jacent et de la structure de covariance, la performance relative de chaque membre mesurée par le degré auquel la vraie tendance est récupérée reste largement inchangée d'analogue à analogique dans le famille. En d'autres termes, les performances d'une version particulière de l'algorithme semblent être largement, mais pas complètement, invariantes du signal climatique sous-jacent, comme le montre la figure 9. De plus, une comparaison des figures 4, 7 et 8 suggère également que le La structure d'erreur est une considération plus fondamentale dans la capacité de l'algorithme à récupérer le véritable signal climatique sous-jacent plutôt que la nature du signal climatique lui-même. À la lumière de cela, il peut être possible de choisir un certain nombre de configurations d'algorithmes par paires qui devraient être relativement performantes sous une grande variété de caractéristiques d'erreur.

[33] Les résultats de l'analogue le plus difficile « Très nombreuses petites ruptures avec biais de signe » sont résumés dans les figures 10 et 11. Dans ce cas, un grand pourcentage des ruptures est probablement inférieur à l'amplitude pouvant être détectée efficacement par la paire ( ou peut-être n'importe quel algorithme). Par conséquent, les différents ensembles produits par les versions aléatoires de l'algorithme ne déplacent pas assez la tendance vers la vraie valeur de tendance (Figure 10). De même, la distribution géographique des tendances (Figure 11) indique que les biais systématiques induits par les erreurs imposées ne sont que partiellement supprimés par l'algorithme d'homogénéisation, ce qui a pour conséquence un biais résiduel moyen qui sous-estime la véritable tendance CONUS et un champ hétérogène de les tendances.

[34] Notons enfin qu'une randomisation de 100 membres a été considérée au départ comme suffisante pour explorer la sensibilité des différents paramètres, d'autant plus que tous n'étaient pas censés avoir un impact substantiel sur les résultats. À titre de confirmation, l'analogue « clustering and sign bias-C20C1 » a été exécuté sur 500 randomisations de l'algorithme et les résultats ont été comparés à l'ensemble original de 100 membres ainsi qu'à un plus petit nombre de combinaisons. Comme l'indiquent les figures S6 à S10, les fourchettes médiane et interquartile sont bien représentées avec 100 membres et l'implication du pire des cas de cette randomisation élargie est que la fourchette des tendances d'ensemble peut être sous-estimée d'environ 25 %. Cependant, il convient de noter que la seule valeur aberrante dans l'ensemble élargi de 500 membres non capturée par l'ensemble de 100 membres résulte d'un ensemble de paramètres particulièrement conservateur qui a minimisé l'impact de l'homogénéisation. Plus généralement, c'est la queue conservatrice, qui minimise les ajustements, qui est mal quantifiée avec des tailles d'ensemble plus petites plutôt que la queue plus agressive de la distribution qui échantillonne les solutions plus proches de la vérité cible. À l'avenir, il est possible de paralléliser massivement la création d'ensembles de données par le biais de scientifiques citoyens et de leurs capacités informatiques, comme, par exemple, climateprediction.net [ Allen, 1999 ] si le code d'homogénéisation par paires peut être rendu convenablement portable et indépendant de la plate-forme. Cela pourrait également ouvrir de nouvelles opportunités telles que la dérivation d'une approche de réglage d'algorithme de réseau neuronal soit explicitement, soit via, par exemple, une interface avec la communauté des jeux sérieux [ Krotoski, 2010 ].

[35] Pour résumer, sur la base de tous les résultats analogiques, nous concluons que :

1. Dans les cas où il n'y a pas de biais de signe pour les erreurs amorcées, les versions aléatoires de l'algorithme produisent des résultats regroupés autour de la vraie tendance.

2. Pour les cas dans lesquels il y avait des erreurs semées avec un biais de signe, toutes les versions randomisées de l'algorithme ont déplacé la tendance dans la bonne direction.

3. Plutôt que de surcorriger, les algorithmes randomisés ne corrigent généralement pas suffisamment la tendance en présence d'erreurs avec un biais de signe en raison d'ajustements incomplets qui biaisent les tendances sous-jacentes. La propension à sous-corriger est sensible à la fréquence et à l'ampleur des cassures imparties, des cassures plus fréquentes et plus petites conduisant à des corrections plus incomplètes.

4. L'algorithme est potentiellement capable d'ajuster les données même lorsque des changements quasi-contemporains de nature similaire à l'échelle du réseau se produisent.

5. Bien que les performances de l'algorithme soient quelque peu affectées par les variations climatiques naturelles et la présence de changements forcés, cet impact est secondaire à celui de la structure d'erreur transmise aux observations brutes. La structure d'erreur, qui est inconnue dans le monde réel, est le principal facteur limitant l'efficacité de l'algorithme.


Préambule sur les maladies infectieuses

Les maladies infectieuses sont causées par des micro-organismes pathogènes, tels que des bactéries, des virus, des parasites ou des champignons. Les maladies peuvent être symptomatiques ou asymptomatiques. Certaines maladies infectieuses telles que le virus de l'immunodéficience humaine (VIH) peuvent être assez asymptomatiques mais peuvent entraîner des conséquences désastreuses après quelques années si elles ne sont pas contrôlées (https://www.who.int/topics/infectious_diseases/en/). La propagation des maladies infectieuses varie de micro-organismes à micro-organismes. Par exemple, certains virus tels que le VIH ne se transmettent que lors de contacts physiques étroits (transmission sexuelle ou contact sanguin) tandis que l'infection par le virus de la grippe est transmise par des gouttelettes émises à la suite d'éternuements, de toux ou de paroles, à quelques mètres de distance. Les zoonoses sont des maladies infectieuses des animaux qui peuvent provoquer des maladies lorsqu'elles sont transmises à l'homme.

Au XXe siècle, les maladies infectieuses étaient responsables du plus grand nombre de décès prématurés et d'invalidités dans le monde. La grippe espagnole est apparue au début du siècle précédent ( Taubenberger et Morens, 2006 https://www.cdc.gov/features/1918-flu-pandemic/index.html). On estime qu'un tiers de la population mondiale (500 millions d'individus) a été infecté et présente des symptômes pendant la pandémie de 1918 (Fig. 1 A). La maladie a été l'une des plus meurtrières de toutes les pandémies de grippe. Il a été estimé qu'au moins 50 millions de personnes sont décédées à la suite de l'infection. L'impact de cette pandémie ne s'est pas limité au premier quart du 20e siècle puisque presque tous les cas de grippe A ont été causés par des versions mutées du virus de 1918. Bien que nous ne couvrirons pas l'aspect virologique ou immunologique de l'infection grippale, il est important de comprendre le but de ce chapitre pourquoi la pandémie s'est produite. La pandémie de grippe de 1918 s'est produite pendant la Première Guerre mondiale, où la proximité, une mauvaise hygiène et des mouvements de masse inhabituels (troupes et population) ont contribué à la propagation du virus. Même les États-Unis ont signalé plus de 600 000 décès dans leur pays malgré la distance. De nombreux pays impliqués dans la guerre n'ont pas réussi à communiquer sur le nombre de morts causés par la grippe. Cela a été volontairement gardé le silence afin de maintenir le moral du public. Bien que cela puisse être compris d'un point de vue militaire, cela a des conséquences mortelles car le virus viendrait en d'autres vagues. A cette époque, les virus n'étaient pas encore connus et le diagnostic, la prévention et les traitements étaient très limités. En tant que tel, les gens souffriraient du virus de la grippe lui-même (maladie grippale) et de ses conséquences telles qu'une infection pulmonaire par des bactéries (pneumonie) chez les personnes sensibles. Cela montre à quel point une mauvaise communication et une mauvaise utilisation des données sur les pandémies pourraient affecter des millions de vies. Depuis, des progrès ont été réalisés afin de suivre les pandémies de grippe A. Depuis 1952, le Système mondial de surveillance et de riposte à la grippe (GISRS) de l'Organisation mondiale de la santé surveille l'évolution des virus de la grippe. Il sert également de mécanisme d'alerte mondial pour les virus émergents à potentiel pandémique comme observé en 1918. Nous comprenons maintenant mieux les facteurs qui influencent la transmission ( Fig. 1 B). La grippe n'est qu'une des diverses pandémies que nous avons traversées. En fait, outre la grippe, la variole, la tuberculose et le choléra sont des menaces constantes ( Holmes et al., 2017 ). L'amélioration des conditions d'hygiène et les campagnes de vaccination ont été des moyens très efficaces pour réduire la propagation des infections. Il existe différents cas de propagation virale, par exemple, il y a un suivi constant des cas de poliomyélite car trois pays signalent toujours des cas alors que l'OMS a pour mission de l'éradiquer complètement. Le 21e siècle a déjà vu émerger des pandémies infectieuses telles que le SRAS (syndrome respiratoire aigu sévère), le MERS (syndrome respiratoire du Moyen-Orient), Ebola et Zika. En contrôlant les infections, nous pouvons réduire les décès prématurés ainsi que les maladies liées aux infections telles que la cirrhose (hépatite B), le cancer du foie (hépatite C), le cancer de l'estomac (Helicobacter pylori), ou l'aggravation d'affections telles que cardiovasculaires et respiratoires (grippe A). Parce que nous ne pouvons pas toujours compter sur la médecine pour développer rapidement des vaccins ou d'autres traitements, la meilleure prévention consiste à détecter tôt les pandémies possibles et à arrêter la transmission. En bloquant la transmission, nous pourrions éventuellement également réduire la mutation des virus et ainsi maintenir le virus à un stade que les vaccins pourraient aider à combattre.

Leçons de la grippe 𠇎spagnol” de 1918. (A) Graphique représentant le nombre de décès pendant le pic de la pandémie de grippe de 1918. (B) Depuis la grippe 𠇎spagnol”, de nombreuses connaissances ont été acquises sur les mécanismes de transmission de la grippe et les facteurs qui l'influencent.


1. Introduction

Une question centrale en typologie phonologique (et en phonologie plus généralement) est de savoir s'il existe des principes qui régissent la taille, la structure et les éléments constitutifs des inventaires phonologiques, et si oui, quels sont-ils. Les recherches des dernières décennies ont proposé de nombreux facteurs, souvent extralinguistiques, qui prédisent la composition des inventaires phonologiques. Ces facteurs proposés incluent la démographie (Pericliev Reference Pericliev 2004, Hay & Bauer Reference Hay and Bauer 2007, Donohue & Nichols Reference Donohue and Nichols 2011, Moran et al. Référence Moran, McCloy et Wright 2012, Greenhill Référence Greenhill, Bowern et Evans 2014), environnement et climat (Everett Référence Everett 2013, Everett et al. Référence Everett, Blasi et Roberts 2015, Référence Everett, Blasi et Roberts 2016), génétique (Dediu & Ladd Référence Dediu et Ladd 2007, Creanza et al. Référence Creanza, Ruhlen, Pemberton, Rosenberg, Feldman et Ramachandran 2015), géographie et mouvements de population (Atkinson Référence Atkinson 2011), culture (Labov et al. Référence Labov, Rosenfelder et Fruehwald 2013) et l'anatomie (Dediu et al. Référence Dediu, Janssen et Moisik 2017).

Les facteurs structurels, c'est-à-dire internes au langage ou systémiques, incluent la généralisation « la taille prédit » : le nombre de segments dans un inventaire détermine en grande partie son contenu, de sorte que les petits systèmes recrutent peu de dimensions (et de base), tandis que les systèmes plus grands impliquent des dimensions supplémentaires (et secondaire) (Lindblom & Maddieson Référence Lindblom, Maddieson, Hyman et Li 1988). Dans cet article, nous nous concentrons sur un autre facteur structurel, à savoir l'économie des caractéristiques. Le principe d'économie des traits est l'un des piliers des discussions contemporaines sur les inventaires de segments phonologiques dans les langues du monde. Deux formulations différentes, bien que largement congruentes, de ce principe ont été proposées par Lindblom & Maddieson (« les petits paradigmes ont tendance à présenter une phonétique « non marquée » alors que les grands systèmes ont une phonétique « marquée » » Référence Lindblom, Maddieson, Hyman et Li 1988 : 70) et Clements (« les langues ont tendance à maximiser le rapport entre les sons et les caractéristiques » Référence Clements 2003 : 287). Cette idée remonte au moins aux premiers travaux de la phonologie structuraliste, notamment Trubetzkoy (Référence Trubetzkoy 1939), Martinet (Référence Martinet 1952) et Hockett (Référence Hockett 1955), qui se sont intéressés à la mesure dans laquelle les inventaires phonologiques sont symétriques par rapport à caractéristiques, ou, en d'autres termes, combien les inventaires phonologiques « de kilométrage » tirent des caractéristiques individuelles voir un aperçu des premiers développements de ce concept dans Clements (Référence Clements 2003). Des conclusions similaires ont ensuite été tirées en utilisant différentes formulations et/ou différents ensembles de données (Marsico et al. Référence Marsico, Maddieson, Coupé et Pellegrino 2004, Coupé et al. Référence Coupé, Marsico, Pellegrino, Pellegrino, Marsico, Chitoran et Coupé 2009, Mackie & Mielke Référence Mackie, Mielke, Clements et Ridouane 2011, Moran Référence Moran 2012, Dunbar & Dupoux Référence Dunbar et Dupoux 2016), et des investigations théoriques et expérimentales de l'économie des traits est devenue un axe majeur de la recherche phonologique : voir Pater ( Référence Pater 2012), Verhoef et al. (Référence Verhoef, Kirby et de Boer 2016) et Seinhorst (Référence Seinhorst 2017).

L'objectif de cet article n'est pas de proposer une autre explication ou interprétation du principe d'économie des traits, mais de prendre du recul afin de réévaluer dans quelle mesure il s'intègre réellement à la structure des inventaires de segments phonologiques des langues du monde, en se concentrant sur les consonnes. .

Clements ( Reference Clements 2003 : 288–289) émet l’hypothèse que le principe d’économie de caractéristiques ne peut être limité que par des facteurs fonctionnels : « les combinaisons de caractéristiques évitées peuvent être montrées inefficaces du point de vue de la communication vocale. C'est-à-dire que leur articulation est relativement complexe ou que leurs attributs auditifs ne sont pas assez distincts de ceux d'un autre son du système. Note de bas de page 1 Marsico et al. (Référence Marsico, Maddieson, Coupé et Pellegrino 2004) et Coupé et al. (Référence Coupé, Marsico, Pellegrino, Pellegrino, Marsico, Chitoran et Coupé 2009) ont tenté de quantifier la quantité de variance résiduelle laissée inexpliquée par le principe d'économie de caractéristiques en calculant les facteurs de redondance et la cohésion des inventaires phonologiques dans UPSID (Maddieson & Precoda Référence Maddieson et Precoda 1992). Notre objectif est de fournir une évaluation exploratoire de la structure de cette variance résiduelle. Notre postulat est que si l'évaluation par Clements du pouvoir explicatif du principe de l'économie des traits était correcte, nous serions en mesure d'expliquer la majorité des exceptions au principe de l'économie des traits en invoquant des facteurs de perception et/ou de production, et que la variance laissé inexpliqué après cela consisterait en un bruit aléatoire en raison de la nature probabiliste du changement de son. L'hypothèse de Cléments serait donc faussée (de manière non statistique, observationniste) si l'on découvrait qu'il existe des principes régissant les structures d'inventaire qui ne découlent pas des types de facteurs fonctionnels évoqués plus haut.

Le cœur de notre approche pour tester cette hypothèse est la notion de classe de cooccurrence. Les classes de cooccurrence sont des groupes de sons qui ont tendance à être trouvés ensemble dans les inventaires. Nous donnons une définition entièrement algorithmique de cette notion au §2, mais à ce stade, nous aimerions explorer ses implications. Nous considérons les classes de cooccurrence comme une méthode particulièrement puissante d'analyse phonologique, puisque presque tous les principes régissant la structure des inventaires phonologiques se reflètent de manière plausible dans la structure de ces classes. Nous donnons deux exemples en (1).

Notre principal intérêt est de savoir comment le principe d'économie des caractéristiques se reflète dans la structure des classes de cooccurrence. Afin d'étudier cela, nous proposons d'abord de reformuler le principe de façon plus structurelle. En nous appuyant sur la notion de symétrie d'inventaire sonore explorée par Dunbar & Dupoux ( Référence Dunbar et Dupoux 2016), nous opérationnalisons le principe d'économie de caractéristiques en l'interprétant comme largement synonyme du principe de superposition : de nouvelles classes de sons apparaissent en raison de l'ajout de nouvelles caractéristiques aux combinaisons déjà existantes. Une confirmation empirique de ceci se trouve dans Moran ( Référence Moran 2012 : 248) en ce qui concerne les voyelles, de sorte que « une fois que les langues étendent leurs inventaires au-delà des voyelles cardinales, elles ont tendance à le faire soit par nasalisation, soit par allongement, et dans une moindre mesure par ajouter des diphtongues à l'inventaire ».

Cette formulation a l'avantage de fournir un moyen simple d'articuler une prédiction structurelle : si l'on étudie des classes de cooccurrence empiriques, on devrait voir qu'elles sont progressivement définies par une succession de caractéristiques supplémentaires. On devrait donc voir à la fois des grandes classes dominées par des distinctions de base (lieu, manière et VOT) et des classes plus petites dans lesquelles ces distinctions sont augmentées de différentes articulations supplémentaires. Nous appelons les classes qui respectent le principe de fonctionnalité/économie de couches des classes conformes . Plus important encore, le principe de fonctionnalité/économie de couches prédit que certaines constellations ne devraient pas exister. En particulier, il interdit les connexions inter-couches (la structuration proche des segments avec différents nombres de fonctionnalités activées) et les connexions entre les caractéristiques (la structuration proche des segments avec différentes fonctionnalités privatives activées). C'est-à-dire que s'il existe une classe de segments palatalisés, nous ne nous attendons pas à ce que certains des membres de cette classe se modèlent avec des segments labialisés (qui seraient une connexion de fonction croisée) ou des segments simples (qui seraient une couche croisée connexion), car cela impliquerait que les langues n'épuisent pas l'utilité de la fonctionnalité [+palatalisé]. Nous appelons classes non conformes les classes qui ne respectent pas le principe feature-economy/layering. Un bon exemple d'une classe conforme est les longs arrêts voisés : /bː dː gː/. Ils se distinguent par une seule valeur de trait distinctif [+long], et épuisent les combinaisons possibles de valeurs de VOT et de manière pour tous les lieux d'articulation. Short voiced stops /b d g/, however, do not form a conformant class in our data. Instead they are embedded inside a large complex class, the ‘first extension set’. We discuss conformant and non-conformant classes in §4.

It is important to stress that this type of analysis is based on bidirectional dependences (the presence of segment A is probabilistically dependent on the presence of segment B, and vice versa), not on unidirectional implicational universals (languages with segment A tend to also have segment B, but segment B is also frequently found without segment A). For example, languages with /pʲ/ have a very strong tendency to have /p/ as well. Nevertheless, the bidirectional co-occurrence dependence between these segments is very low: the absence of /pʲ/ is a very weak indicator of the absence of /p/. On the other hand, the absence of /pʲ/ is a strong indicator of the absence of /bʲ/, and vice versa.

This paper aims to make the following contributions. First, we propose a statistical method for identifying co-occurrence classes of sounds in the world's languages. Second, using this method, we empirically identify several co-occurrence classes worthy of attention in themselves, one of them being the basic consonant inventory . Third, using the structure of the co-occurrence classes identified by this new method, we show the limits of the applicability of the feature-economy principle in its various formulations.

The paper is organised as follows. In §2, the method used to derive co-occurrence classes is described, together with the dataset it is applied to. In §3, the resulting classification of the major types of segments in the languages of the world is presented, and a brief overview of the classes is given. §4 is devoted to the consequences of the structure of the co-occurrence classes for the feature-economy principle, and §5 presents conclusions.


Major Map

Major Maps help undergraduate students discover academic, co-curricular, and discovery opportunities at UC Berkeley based on intended major or field of interest. Developed by the Division of Undergraduate Education in collaboration with academic departments, these experience maps will help you:

Explore your major and gain a better understanding of your field of study

Relier with people and programs that inspire and sustain your creativity, drive, curiosity and success

Discover opportunities for independent inquiry, enterprise, and creative expression

Engage locally and globally to broaden your perspectives and change the world

Reflect on your academic career and prepare for life after Berkeley

Use the major map below as a guide to planning your undergraduate journey and designing your own unique Berkeley experience.


Voir la vidéo: Classification ascendante hiérarchique cours 14: les données, la problématique (Octobre 2021).