Informations

12.7 : Limites des arbres phylogénétiques - Biologie


Résultats d'apprentissage

Identifier certaines limites des arbres phylogénétiques

Il peut être facile de supposer que les organismes les plus proches se ressemblent davantage, et bien que ce soit souvent le cas, ce n'est pas toujours vrai. Si deux lignées étroitement apparentées ont évolué dans des environnements considérablement variés ou après l'évolution d'une nouvelle adaptation majeure, il est possible que les deux groupes apparaissent plus différents que d'autres groupes qui ne sont pas aussi étroitement apparentés. Par exemple, l'arbre phylogénétique de la figure 1 montre que les lézards et les lapins ont tous deux des œufs amniotiques, contrairement aux grenouilles ; pourtant, les lézards et les grenouilles semblent plus semblables que les lézards et les lapins.

Un autre aspect des arbres phylogénétiques est que, sauf indication contraire, les branches ne rendent pas compte de la durée, seulement de l'ordre évolutif. En d'autres termes, la longueur d'une branche ne signifie généralement pas plus de temps passé, et une branche courte ne signifie pas moins de temps passé, sauf indication contraire sur le diagramme. Par exemple, sur la figure 1, l'arbre n'indique pas combien de temps s'est écoulé entre l'évolution des œufs amniotiques et des cheveux. Ce que l'arbre montre, c'est l'ordre dans lequel les choses se sont déroulées. Toujours en utilisant la figure 1, l'arbre montre que le trait le plus ancien est la colonne vertébrale, suivie des mâchoires articulées, et ainsi de suite. N'oubliez pas que tout arbre phylogénétique fait partie d'un tout plus grand et, comme un vrai arbre, il ne pousse pas dans une seule direction après le développement d'une nouvelle branche.

Ainsi, pour les organismes de la figure 1, ce n'est pas parce qu'une colonne vertébrale a évolué que l'évolution des invertébrés a cessé, cela signifie seulement qu'une nouvelle branche s'est formée. De plus, des groupes qui ne sont pas étroitement liés, mais évoluent dans des conditions similaires, peuvent apparaître plus similaires sur le plan phénotypique les uns aux autres qu'à un parent proche.

Rendez-vous sur ce site Web pour voir des exercices interactifs qui vous permettent d'explorer les relations évolutives entre les espèces.

12.7 : Limites des arbres phylogénétiques - Biologie

Il peut être facile de supposer que les organismes les plus proches se ressemblent davantage, et bien que ce soit souvent le cas, ce n'est pas toujours vrai. Si deux lignées étroitement apparentées ont évolué dans des environnements considérablement variés ou après l'évolution d'une nouvelle adaptation majeure, il est possible que les deux groupes apparaissent plus différents que d'autres groupes qui ne sont pas aussi étroitement apparentés. Par exemple, l'arbre phylogénétique de la figure 1 montre que les lézards et les lapins ont tous deux des œufs amniotiques, alors que les grenouilles n'en ont pas encore les lézards et les grenouilles se ressemblent plus que les lézards et les lapins.

Figure 1. Cet arbre phylogénétique de vertébrés en forme d'échelle est enraciné par un organisme dépourvu de colonne vertébrale. À chaque point de ramification, des organismes aux caractères différents sont placés dans des groupes différents en fonction des caractéristiques qu'ils partagent.

Un autre aspect des arbres phylogénétiques est que, sauf indication contraire, les branches ne rendent pas compte de la durée, seulement de l'ordre évolutif. En d'autres termes, la longueur d'une branche ne signifie généralement pas plus de temps passé, et une branche courte ne signifie pas moins de temps passé, sauf indication contraire sur le diagramme. Par exemple, sur la figure 1, l'arbre n'indique pas combien de temps s'est écoulé entre l'évolution des œufs amniotiques et des cheveux. Ce que l'arbre montre, c'est l'ordre dans lequel les choses se sont déroulées. Toujours en utilisant la figure 1, l'arbre montre que le trait le plus ancien est la colonne vertébrale, suivie des mâchoires articulées, et ainsi de suite. N'oubliez pas que tout arbre phylogénétique fait partie d'un tout plus grand et, comme un vrai arbre, il ne pousse pas dans une seule direction après le développement d'une nouvelle branche.

Ainsi, pour les organismes de la figure 1, ce n'est pas parce qu'une colonne vertébrale a évolué que l'évolution des invertébrés a cessé, cela signifie seulement qu'une nouvelle branche s'est formée. De plus, des groupes qui ne sont pas étroitement liés, mais évoluent dans des conditions similaires, peuvent apparaître plus similaires sur le plan phénotypique les uns aux autres qu'à un parent proche.


Les schémas phylogénétiques récupèrent les relations épidémiologiques connues du VIH et révèlent la transmission commune de plusieurs variantes

La croissance des bases de données de séquences du virus de l'immunodéficience humaine (VIH) résultant des tests de résistance aux médicaments a motivé les efforts utilisant des méthodes phylogénétiques pour évaluer comment le VIH se propage 1-4. Une telle inférence est potentiellement à la fois puissante et utile pour suivre l'épidémiologie du VIH et l'allocation de ressources aux campagnes de prévention. Nous avons récemment utilisé la simulation et un petit nombre de cas illustratifs pour montrer que certains modèles phylogénétiques sont associés à différents types de liens épidémiologiques 5 . Notre approche originale a ensuite été généralisée pour les grands ensembles de données de séquençage de nouvelle génération et implémentée en tant que pipeline de calcul gratuit 6 . Des travaux antérieurs ont affirmé que la direction et le caractère direct de la transmission ne pouvaient pas être établis à partir de la phylogénie, car on ne pouvait pas être sûr qu'il n'y avait pas de liens intermédiaires ou manquants impliqués 7-9. Ici, nous abordons ce problème en étudiant les modèles phylogénétiques de 272 chaînes de transmission du VIH précédemment identifiées avec 955 paires de transmission représentant diverses géographies, groupes à risque, sous-types et régions génomiques. Ces transmissions du VIH avaient un lien connu sur la base d'informations épidémiologiques telles que des études sur les partenaires, la transmission mère-enfant, des paires identifiées par la recherche des contacts et des affaires criminelles. Nous montrons que la phylogénie résultante déduite de séquences génétiques réelles du VIH révèle en effet des modèles distincts associés à la transmission directe contre les transmissions à partir d'une source commune. Ainsi, nos résultats établissent comment interpréter les arbres phylogénétiques basés sur les séquences du VIH lors du suivi de qui-infecte-qui, quand et comment les informations génétiques peuvent être utilisées pour un meilleur suivi de la propagation du VIH. Nous étudions également les limitations qui découlent d'un échantillonnage limité et des tendances temporelles génétiques dans les populations de donneurs et de receveurs VIH.

Déclaration de conflit d'intérêts

Les auteurs ne déclarent aucun intérêt concurrent.

Les figures

Figure 1.. Exemples réels de PP, PM,…

Figure 1.. Exemples réels d'arbres PP, PM et MM.

Figure 2.. Association de la topologie phylogénétique et…

Figure 2.. Association de la topologie phylogénétique et du mode de transmission.

Figure 3.. Principale désintégration du signal paraphylétique.

Figure 3.. Principale désintégration du signal paraphylétique.

Si un patient (rouge) en infecte un autre (bleu), le virus…

Figure 4.. Analyses du postérieur empirique…

Figure 4.. Analyses de la probabilité a posteriori empirique d'observer le donneur connu comme le…


MÉTHODES

Cette enquête a été menée au cours du deuxième cours d'une série de deux cours d'introduction à la biologie pour les majors scientifiques dans une grande université publique avec une activité de recherche très élevée (Carnegie Foundation, 2013) dans le Midwest des États-Unis. Le cours grand nombre (m = 88) ont servi des étudiants poursuivant un certain nombre de majeures (tableau 2) à divers stades de leur carrière universitaire (24 % d'étudiants de première année, 33 % de deuxième année, 18 % de juniors et 25 % de seniors). Le premier cours de la série d'introduction portait sur la biologie cellulaire et comprenait peu ou pas d'exposition aux arbres phylogénétiques. Bien que recommandé, l'achèvement du premier cours n'était pas une condition préalable au deuxième cours.

Tableau 2. Inscriptions aux cours par grand groupe

Contexte du cours

L'instructeur a utilisé une approche centrée sur l'apprenant pour enseigner la biologie, dans laquelle de multiples formes d'engagement actif ont été utilisées à la place de conférences passives. Les activités du cours comprenaient des questions sur les cartes-lettres (Freeman et al., 2007), des groupes d'apprentissage collaboratif (Smith, 2000 Tanner et al., 2003), des discussions en petits groupes et en classe entière, des sessions de réflexion-paire-partage (Lyman, 1981) et des études de cas (Herreid, 1994). Enseignement basé sur un modèle (Hestenes, 1987 Hmelo et al., 2000 Brewe, 2008 Liu et Hmelo-Silver, 2009) était une stratégie pédagogique de premier plan, car les étudiants construisaient fréquemment des modèles en forme de boîte et de flèche de processus biologiques complexes, tels que l'évolution, les cycles des nutriments et le flux d'énergie à travers les écosystèmes. Les étudiants ont travaillé en groupes permanents et autosélectionnés de trois ou quatre personnes sur presque tous les aspects du cours, y compris les examens pyramidaux (Eaton, 2009) avec des composants individuels et en groupe (75 et 25 % des points, respectivement). Les objectifs d'apprentissage, l'enseignement et les évaluations ciblaient en grande partie les compétences cognitives d'ordre supérieur d'analyse, de synthèse et d'évaluation (Bloom et al., 1956 Crowe et al., 2008 Momsen et al., 2010, 2013).

Le cours d'introduction à la biologie comprenait trois unités principales : évolution, forme et fonction, et écologie (figure 2). Bien que les plus importants au cours de l'unité d'évolution, les arbres phylogénétiques ont été utilisés tout au long du cours lorsque cela était approprié. Par exemple, des arbres phylogénétiques sont apparus dans l'unité de forme et de fonction pour aider les élèves à visualiser et à raisonner sur les traits évolués nécessaires à la survie des plantes sur terre.

Figure 2. Chronologie des unités de cours primaires et collecte de données à partir des évaluations.

Instruction et collecte de données

Deux devoirs et deux examens ont été les sources de données pour cette étude (Figure 2). Les devoirs initiaux sur les arbres phylogénétiques ont été achevés en groupes peu de temps après l'introduction des arbres phylogénétiques dans le cadre de l'unité d'évolution. L'introduction consistait en une série de questions posées par l'instructeur et auxquelles les étudiants répondaient à l'aide de cartes-lettres. Les questions ont familiarisé les élèves avec les caractéristiques structurelles des arbres phylogénétiques, telles que les nœuds (représentent les ancêtres communs) et les groupes monophylétiques, et ont présenté l'idée que la parenté des taxons est déterminée par l'ascendance commune. Les questions sur les cartes-lettres ont été suivies de discussions en petits groupes et en classe entière jusqu'à ce que toute la classe ait trouvé la bonne réponse en utilisant un raisonnement approprié. Toutes les questions sur l'arbre phylogénétique utilisées pendant le cours et pour les évaluations faisaient référence à des cladogrammes, dans lesquels seuls les motifs de branchement ont un sens. Les chronogrammes (qui montrent le temps absolu) et les phylogrammes (qui montrent la quantité de changement) ont été brièvement mentionnés par l'instructeur, mais les étudiants n'ont jamais été obligés d'interagir avec eux ou de raisonner à partir d'eux pendant le cours (pour plus de descriptions des types d'arbres phylogénétiques, voir Baum et Offner, 2008Omland et al., 2008).

Le devoir initial d'arbre phylogénétique comportait une courte série de questions ouvertes conçues autour d'un arbre phylogénétique de cordés. En plus des invites sur les ancêtres communs récents, les synapomorphies et les groupes monophylétiques, une question concernant la parenté des taxons est apparue sur les devoirs de groupe (Figure 3). La mauvaise performance du groupe pour cette question a obligé l'instructeur à revoir les interprétations des arbres phylogénétiques pendant le cours. La question a de nouveau été présentée aux élèves et débattue dans le cadre de discussions dirigées en petits groupes. Une discussion subséquente avec toute la classe a reconnu l'ascendance commune la plus récente comme une stratégie de raisonnement appropriée pour déterminer la parenté des taxons sur les arbres phylogénétiques. Après que les devoirs initiaux aient été revus pendant la classe, la parenté avec les taxons a été spécifiquement ciblée par le biais de deux questions supplémentaires sur les cartes-lettres. L'enseignement spécifique aux arbres phylogénétiques et à la relation évolutive a eu lieu au cours de trois réunions de cours consécutives, se terminant à la semaine 5. Nous incluons donc la participation moyenne de chaque élève au cours de ces 3 jours dans une analyse ultérieure en tant que reflet de l'impact potentiel de l'enseignement sur le raisonnement des élèves avec les arbres phylogénétiques.

Figure 3. Arbre phylogénétique et question sur la relation avec les taxons du devoir initial.

Les arbres phylogénétiques et les questions relatives aux taxons similaires aux devoirs initiaux ont été placés sur trois évaluations ultérieures, qui ont suivi la fin de l'instruction de 1, 10 et 12 semaines, respectivement (Figure 2). De telles invites ont été incluses à la fois dans les composants individuels et de groupe de l'examen d'unité d'évolution dans lequel les étudiants ont terminé le composant individuel avant le composant de groupe (Figures supplémentaires S1 et S2). Un arbre phylogénétique a été fourni pour la composante individuelle, mais la composante de groupe exigeait des élèves qu'ils construisent un arbre phylogénétique à partir de données avant de répondre à une question sur les taxons. On n'a jamais demandé aux étudiants de construire des arbres phylogénétiques avant de terminer l'examen de l'unité d'évolution. Un arbre phylogénétique et des questions sur les taxons ont également été placés sur le devoir de révision 2 semaines avant l'examen final (Figure S3) et sur la composante individuelle de l'examen final (Figure S4). La structure des invites pour les devoirs de révision et l'examen final a été légèrement modifiée, passant d'une invite à deux choix avec un raisonnement ouvert à une invite à quatre choix avec un raisonnement ouvert. Cette modification a été faite pour plusieurs raisons. Premièrement, les étudiants avaient vu plusieurs questions sur les taxons tout au long du semestre pour éviter les problèmes de retest, nous avons créé des invites qui étaient familières aux étudiants mais offraient une opportunité quelque peu nouvelle d'interpréter la parenté. Deuxièmement, les feuilles à choix multiples empêchaient les étudiants de se sentir obligés de sélectionner un taxon ou l'autre, offrant aux étudiants la possibilité d'identifier les taxons comme étant également apparentés ou non apparentés. Dans les devoirs de révision et l'examen final, les taxons impliqués étaient également liés. L'arbre phylogénétique de l'examen final était également le seul arbre phylogénétique utilisé dans le cadre de cette enquête qui n'incluait pas de synapomorphies étiquetées.

Développement et codage de rubriques

La rubrique initiale pour le codage des réponses des élèves aux questions relatives aux taxons a été élaborée à l'aide d'une approche fondée sur la théorie (Glaser et Strauss, 1967). Cela reflétait la nature du projet qui se développait en temps réel en réponse aux expériences en classe et aux difficultés d'apprentissage des élèves.

La littérature existante sur les interprétations des arbres phylogénétiques (tableau 1) a ensuite été utilisée pour confirmer et affiner certaines catégories de la rubrique finale (matériel supplémentaire) et pour identifier deux nouvelles stratégies de raisonnement. Plus précisément, nous avons trouvé des preuves que les étudiants déterminent la parenté en comptant les synapomorphies (la parenté entre les taxons est déterminée en comptant les synapomorphies entre les taxons sur les arbres phylogénétiques) et en utilisant le raisonnement de négation (le raisonnement comprend des descriptions de la façon de ne pas interpréter la parenté des taxons sur les arbres phylogénétiques dans tous les cas, ce raisonnement se produit en même temps que d'autres raisonnements (voir le matériel supplémentaire). De plus, nous avons trouvé des preuves d'étudiants utilisant le groupement monophylétique (les taxons du même groupe monophylétique sont plus étroitement liés les uns aux autres qu'à un taxon en dehors du groupe monophylétique) pour raisonner sur la parenté. Alors que certaines recherches ont identifié le groupement monophylétique comme une approche de raisonnement possible, personne n'a fourni de preuves pour montrer que les étudiants utilisent réellement le groupement monophylétique.

Pour former les évaluateurs, toutes les réponses des devoirs initiaux et les deux composantes de l'examen de l'unité d'évolution ont été numérotées, et un générateur de nombres aléatoires a été utilisé pour sélectionner 20 réponses initiales (15 % du total à l'époque). Deux évaluateurs indépendants ont codé les réponses initiales et sont parvenus à un consensus grâce à la discussion. Après l'étalonnage des rubriques, la concordance entre les deux évaluateurs était de 94 % pour les 258 réponses restantes des quatre évaluations, et les désaccords ont été résolus par la discussion. Les réponses des élèves comprenaient souvent plus d'une forme de raisonnement et, par conséquent, tombaient dans plusieurs catégories de rubriques, résultant en 360 codes de raisonnement au total attribués à 278 réponses de groupe et individuelles. Le codage était partiellement aveugle, dans lequel un évaluateur était au courant des identités de groupe et individuelles alors que le deuxième évaluateur ne l'était pas. En raison de l'accord élevé entre les évaluateurs indépendants, nous ne pensons pas que le biais de l'évaluateur était un problème important pour cette enquête.

Les questions relatives aux taxons utilisées tout au long du cours obligeaient les étudiants à choisir une réponse et à justifier leur choix. Étant donné que les réponses sélectionnées par les élèves n'étaient pas toujours cohérentes avec leur raisonnement, les réponses ont été codées à nouveau pour la réponse (correcte ou incorrecte) et le raisonnement utilisé pour étayer la réponse (correct, incorrect ou mixte, c'est-à-dire un mélange de raisonnement correct et incorrect). Les catégories d'ascendance commune la plus récente et de groupement monophylétique étaient considérées comme un raisonnement correct, tandis que le raisonnement par négation apparaissait toujours avec d'autres formes de raisonnement et n'était considéré ni correct ni incorrect. Toutes les autres catégories de rubriques ont été considérées comme un raisonnement incorrect pour la parenté des taxons. Cette procédure de codage a identifié les étudiants qui ont deviné les bonnes réponses (réponse correcte avec un raisonnement incorrect) et les étudiants qui ont mémorisé un raisonnement correct sans comprendre son application (réponse incorrecte avec un raisonnement correct). Seules les réponses avec à la fois des réponses correctes et un raisonnement correct ont démontré une compréhension de la parenté des taxons sur les arbres phylogénétiques.

Analyses statistiques

Suivant la suggestion de Theobald et Freeman (2014), nous avons construit des modèles statistiques pour tester diverses hypothèses concernant le raisonnement des étudiants sur les arbres phylogénétiques. Pour évaluer les hypothèses liées au raisonnement et à la sélection des réponses, nous avons construit des modèles statistiques qui tenaient compte des variables affectant le raisonnement et la sélection des réponses. De plus, des effets aléatoires ont été utilisés pour capturer des mesures répétées sur les mêmes groupes et individus sur plusieurs évaluations. Plus précisément, des modèles de régression logistique ordinale à effets mixtes ont été utilisés pour analyser le raisonnement lié aux taxons, tandis que des modèles de régression logistique à effets mixtes ont été utilisés pour analyser les réponses correctes. Pour le raisonnement de groupe, l'assignation de groupe a été modélisée comme un effet aléatoire, et l'évaluation était un effet fixe. Pour le raisonnement individuel, l'élève a été modélisé comme un effet aléatoire, tandis que l'évaluation, l'assiduité aux cours, l'année scolaire et la majeure académique étaient des effets fixes. Pour l'exactitude du groupe, l'attribution du groupe a été modélisée comme un effet aléatoire, et l'évaluation et le raisonnement (correct, incorrect ou mixte) étaient des effets fixes. Pour l'exactitude individuelle, l'élève a été modélisé comme un effet aléatoire, tandis que le raisonnement, l'évaluation, l'assiduité aux cours, l'année scolaire et la majeure scolaire étaient des effets fixes. F-des tests ont été utilisés pour déterminer la significativité de lots de variables explicatives (p. t des tests ont été utilisés pour déterminer la signification des variables explicatives individuelles. Des détails supplémentaires sur les analyses statistiques (par exemple, les rapports de cotes) sont disponibles dans le matériel supplémentaire.


Arbre de la vie

Le (a) concept de "l'arbre de vie" remonte à une esquisse de 1837 de Charles Darwin. Comme un chêne (b), l'"arbre de vie" a un seul tronc et de nombreuses branches.

La pensée classique sur l'évolution procaryote, incluse dans le modèle d'arbre classique, est que les espèces évoluent de manière clonale. C'est-à-dire qu'ils produisent eux-mêmes une progéniture avec uniquement des mutations aléatoires provoquant la descente dans la variété d'espèces modernes et éteintes connues de la science. Ce point de vue est quelque peu compliqué chez les eucaryotes qui se reproduisent sexuellement, mais les lois de la génétique mendélienne expliquent que la variation de la progéniture, encore une fois, est le résultat d'une mutation au sein de l'espèce. Le concept de transfert de gènes entre espèces non apparentées n'a été considéré comme une possibilité que relativement récemment. Le transfert horizontal de gènes (HGT), également connu sous le nom de transfert latéral de gènes, est le transfert de gènes entre espèces non apparentées. HGT s'est avéré être un phénomène omniprésent, de nombreux évolutionnistes postulant un rôle majeur pour ce processus dans l'évolution, compliquant ainsi le modèle d'arbre simple. Il a été démontré que des gènes sont transmis entre des espèces qui ne sont que de loin apparentées en utilisant la phylogénie standard, ajoutant ainsi une couche de complexité à la compréhension des relations phylogénétiques. Enfin, comme exemple de transfert de gène ultime, des théories de fusion de génomes entre organismes symbiotiques ou endosymbiotiques ont été proposées pour expliquer un événement d'une grande importance : l'évolution de la première cellule eucaryote, sans laquelle l'homme n'aurait pu exister.


4. CONCLUSION

Il est bien établi que différents processus dominent à différentes échelles spatiales et temporelles. L'échelle phylogénétique n'a reçu qu'une attention limitée même si de nombreuses recherches en écologie et en évolution reposent aujourd'hui sur la phylogénie moléculaire (tableaux 1 et 2). La prise en compte explicite de différents aspects de l'échelle phylogénétique, y compris le grain, l'étendue, la dépendance à l'échelle, l'échelle phylogénétique et les domaines de l'échelle phylogénétique, peut donc éclairer de multiples domaines (par exemple, la macroévolution, l'écologie des communautés, la biogéographie, la macroécologie).

Nous espérons que la perspective présentée ici stimulera d'autres recherches théoriques, empiriques et méthodologiques. Une considération explicite de l'échelle phylogénétique peut détourner notre attention des mécanismes particuliers vers l'appréciation de l'interaction de multiples processus qui, ensemble, mais à différentes échelles phylogénétiques, façonnent la diversité de la vie.


12.7 : Limites des arbres phylogénétiques - Biologie

z g ^ u 8X 6H OR V 1q# |kb Φ ϊ[email protected] 2 w 嬻 e * q ! د Fak| endstream endobj 70 0 obj > endobj 71 0 obj > endobj 72 0 obj > endobj 73 0 obj > stream

dvitpsk 5.78 Copyright 1998 Radical Eye Software (www.radicaleye.com)

> endstream endobj 85 0 obj 636 endobj 86 0 obj > stream 8Z]"%eL8#Xib6$Z_gBG1H*!?nj,nl*T&ls#DT'#!gi)Qf_1/GCV7l01p0]g]D i2uZO*68aelHaOW[uQ" i1+T!,JqoM71SpFNL"lI>AI)[email protected]>V"^,=RYuI MEdDWqmj(58$/m/NXL:tk]&+49/YQ>'ea%4A+:PYgHkDQ8P1>b% ]!ACbKIbLV!8 LN4-t3C!#cJ+sE:i+b#u01WVi?a(7dQQ#-[:$3^L.9!uWC#3J%a5c6iN,',)CR']] f?0> EfhQ#OUBfN5impG q"U3NQp"*F.'=1L&'s "u&oFfF7* aMO!+^t#nLT9thcGe`@Xkt]%$VtEeb`qK,WWK?7%ptl#Hp>tL*s9"O)4GBRde NF =g!r0'

> endstream endobj 89 0 obj 705 endobj 90 0 obj > stream 8Z7$#YDM%*`[email protected]%O"6 -KjYdDAdhEC^`.3J0o#BdMJ#@pNc4mGci*aG 2JrYOEUPCBL+WnqjCfQ68=oHFE9 ^?///Ng':PT4/[email protected] oduOie%,a!T9 Ng,O(J>'YS`^Y#0FrMp!0Qq)7])L%(KRFk dL!L8! [email protected])[email protected]/=B1`G9?TgLnG *Bq]>`Gkf?Mn1KI?=B4dNi]'m>tI?Lm9]0K=q4!5. =1PZO,,bLK^L+lU"WZd U_OiX^=5P)-qdL-o)l=?,FlmRXL0O6%M=KZlD?cTLPep8.6CVeM83AO:,UmAY#D 9Bn:Q"iYl$#YmZ!cp$ i211_"NOh2q9lG8U+SBc2T6"'[email protected])[email protected]@'MmQeC_>/+S +]IPo. %5*Kle8FKni:DCQ=(OXs[rh&`1*D,O5+U][email protected][ 2KliaeF_gFIhK(" Hjp)O77[^

> endstream endobj 97 0 obj 568 endobj 98 0 obj > stream 8Z7=,t3Q#j)%%j>s>5>UU-

> endstream endobj 99 0 obj 735 endobj 100 0 obj > stream 8Z]!CCUFi#_]nk"[email protected],lN7d\%9?:[email protected]_3pG :kNL8S-Wsn(2s:UC/ZY k^ $Q,m&[WP K ?*e(&2^[email protected]>> 1G#K#d1bm3rE/cYkOz. #WFZom-*MI,&

> endstream endobj 101 0 obj 317 endobj xref 0 102 0000000000 65535 f 0000000016 00000 n 00000000118 00000 n 0000005733 00000 n 0000005898 00000 n 0000006676 00000 n 0000007522 00000 n 0000008012 00000 n 0000008229 00000 n 0000008431 00000 n n 0000008523 00000 n 00000 0000058687 00000 n 0000058866 00000 n 0000059510 00000 n 0000059602 00000 n 0000059707 00000 n 0000064179 00000 n 0000064356 00000 n 0000064684 00000 n 0000064700 00000 n 0000115487 00000 n 0000115643 00000 n 0000115748 00000 n 0000124000012000 n 00001 n 0000177160 00000 n 0000177265 00000 n 0000185429 00000 n 0000185561 00000 n 0000185666 00000 n 0000193508 00000 n 0000193629 00000 n 0000193734 00000 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n n n 000000088 00000 000 n 000027306500 n 0000241648 00000 n 0000241801 00000 n 0000241906 00000 n n n 00000000888 00000 n 000027300600 00000 n 0000286672 00000 n 0000286761 00000 n 0000286867 00000 n 0000292152 00000 n 0000292273 00000 n 0000292578 00000 n 0000293812 00000 n 0000294104 00000 n 0000295243 00000 n 0000295473 00000 n 0000295821 00000 n 0000296131 00000 n 0000297746 00000 n 0000298386 00000 n 0000306295 00003 00000 n 00040 n 0000317381 00000 n 0000317727 00000 n 0000317806 00000 n 0000318107 00000 n 0000318147 00000 n 0000318191 00000 n 0000318439 00000 n 0000319548 00000 n 0000319641 00000 n 0000319694 00000 n 0000320270 00000 n 0000320291 00000 n 0000320931 00000 000 n 0000320952 00003 00003 00000 n 0000322415 00000 n 0000323209 00000 n 0000323230 00000 n 0000323862 00000 n 0000323883 00000 n 0000324746 00000 n 0000324767 00000 n 0000325464 00000 n 0000325485 00000 n 0000326174 00000 n 0000326195 00000 n 0000326943 00000 n 00004000000269 00000 n 00004 0000328625 00000 n 0000329102 00000 n remorque ] > > startxref 329124 %%EOF


Fond

La reconstruction d'arbres d'espèces phylogénétiques est d'une importance centrale dans de nombreuses disciplines biologiques. Par exemple, l'arbre de vie offre une vue remarquable des principes d'organisation en biologie [1, 2]. De plus, de nombreux nouveaux génomes sont séquencés et leurs identités taxonomiques peuvent être déterminées en les insérant dans des arbres d'espèces préconstruits [3]. De plus, combiné avec des arbres d'espèces, le profilage phylogénétique utilisant des schémas de gain et de perte d'homologues permet d'obtenir des performances élevées dans la prédiction des liaisons protéiques [4,5,6,7,8].

Des boîtes à outils et des pipelines ont été développés pour la reconstruction phylogénétique (tableau 1). Des boîtes à outils telles que BuddySuite [9], ETE3 [10] et MEGA [11] sont largement utilisées pour l'inférence phylogénétique et la manipulation d'arbres. BuddySuite et ETE3 fournissent des interfaces riches qui permettent aux chercheurs d'effectuer des développements secondaires. BuddySuite comprend un pipeline avec lequel reconstruire des arbres de gènes ou d'espèces, mais un logiciel tiers doit être spécifié et installé manuellement dans l'environnement d'exécution local, ce qui peut être gênant pour les utilisateurs sur différentes plates-formes. MEGA est un programme autonome et multiplateforme, et il fournit également une interface graphique conviviale. BIR [12], Agalma [13], PhyloPlAn [14] et AMPHORA [12] sont conçus pour l'analyse phylogénomique. Le BIR est particulièrement utile pour préparer des séquences de gènes pour l'inférence phylogénomique. Agalma dispose d'une interface en ligne de commande pour les analyses phylogénomiques basées sur les données génomiques et transcriptomiques. PhyloPlAn et AMPHORA (AMPHORA2 [14]) sont des pipelines efficaces pour l'inférence phylogénétique à grande échelle basée sur des gènes marqueurs soigneusement testés, et d'autres opérations telles que la curation taxonomique, l'estimation et l'insertion sont également disponibles. Les gènes marqueurs, cependant, ne sont conservés qu'entre les génomes microbiens, de sorte que PhyloPlAn et AMPHORA sont limités à la reconstruction d'arbres d'espèces bactériennes et archéennes.

Bien que les logiciels mentionnés ci-dessus soient puissants pour déduire des phylogénies, la plupart exigent que les utilisateurs téléchargent manuellement les données génomiques, nettoient et alignent les séquences ou préparent des fichiers de configuration complexes. Ces étapes laborieuses et chronophages peuvent entraver la reconstruction des arbres, en particulier lorsque le nombre d'espèces devient important. Par conséquent, il existe un besoin évident d'un pipeline flexible et efficace qui puisse réduire le temps requis pour les processus de construction d'arbres d'espèces.

Ici, nous présentons un package Python facile à utiliser nommé PhySpeTree, qui fournit une solution automatisée pour l'ensemble du processus de reconstruction d'arbres d'espèces, de la collecte de données à la construction d'arbres. PhySpeTree a deux pipelines parallèles basés sur l'ARN ribosomique de petite sous-unité le plus couramment adopté (ARNr SSU) [15] ou sur des protéines concaténées hautement conservées (HCP) [16]. La caractéristique distinctive de PhySpeTree est sa conception automatisée. Les utilisateurs n'ont qu'à saisir les abréviations des noms d'espèces, puis PhySpeTree peut automatiquement télécharger et analyser les séquences. Certaines étapes critiques, telles que l'alignement de séquences multiples et la construction d'arbres, peuvent être ajustées manuellement. De plus, PhySpeTree contient des modules pour faciliter l'analyse en aval. Par exemple, les utilisateurs peuvent appliquer le module « autobuild » pour étendre les arbres prédéfinis en insérant de nouveaux organismes. Les modules « iview » et « combine » sont conçus pour la visualisation d'arbres dans iTOL [17] et la construction d'arbres de consensus [18], respectivement. Associé aux modules accessoires, PhySpeTree simplifie considérablement la reconstruction de l'arbre.

Mise en œuvre

PhySpeTree est implémenté en Python et distribué en tant que package indépendant. PhySpeTree intègre plusieurs outils et fournit une solution automatisée pour la reconstruction d'arbres d'espèces (tableau 1). Le flux de travail de PhySpeTree est illustré à la figure 1. Tout d'abord, les utilisateurs saisissent les abréviations des noms d'espèces (Fichier supplémentaire 1 : Figure S1 et Fichier supplémentaire 2 : Tableau S2) et choisissent le type de séquence (SSU rRNA ou HCP) pour créer des arbres d'espèces. . Si l'option HCP est sélectionnée, PhySpeTree récupère et concatène les séquences HCP de la base de données Kyoto Encyclopedia of Genes and Genomes (KEGG) [19]. Sinon, PhySpeTree utilise des séquences d'ARNr SSU de la base de données SILVA [20]. Pour les organismes non annotés, les utilisateurs peuvent préparer des fichiers au format FASTA contenant des séquences d'ARNr HCP ou SSU, puis les insérer dans des bases de données prédéfinies. Deuxièmement, l'alignement de séquences multiples est réalisé par MUSCLE [21], MAFFT [22] ou ClustalW [23], et les blocs conservés sont sélectionnés par Gblocks [24] ou trimAI [25]. Enfin, PhySpeTree reconstruit des arbres d'espèces par RAxML [18], IQ-TREE [26] ou FastTree [27]. De plus, PhySpeTree fournit des modules flexibles pour faciliter l'analyse en aval, tels que la génération de fichiers de visualisation pour iTOL [17] et la combinaison d'arbres (Fig. 1).

Le flux de travail de PhySpeTree. PhySpeTree récupère et télécharge les séquences correspondantes suivantes avec plusieurs alignements de séquences, sélection de blocs conservés et reconstruction d'arbre. PhySpeTree permet également aux utilisateurs d'insérer leurs propres séquences d'ARNr HCP ou SSU. Les arborescences de sortie sont au format « newick ». ① Reconstruction automatique des arbres ② Traitement des fichiers fasta définis par l'utilisateur pour les organismes non annotés ③ Reconstruction des arbres d'espèces avec des organismes non annotés

Option ARNr SSU

Pour les organismes bactériens et archéens, les séquences d'ARNr SSU sont largement utilisées pour construire des arbres d'espèces [2]. Nous avons pré-construit un jeu de données selon la dernière version de la base de données SILVA (Release 132, Dec. 13, 2017) [20]. L'ensemble de données contient des séquences d'ARNr SSU tronquées de 140 662 espèces, et les nucléotides qui ne sont pas alignés sont supprimés (Fichier supplémentaire 1 : Figure S1A et Fichier supplémentaire 2 : Tableau S1). Lorsque l'option ARNr SSU est sélectionnée, PhySpeTree récupère automatiquement les séquences associées.

Option HCP

Il a été rapporté que les arbres d'espèces basés sur HCP ont une résolution plus élevée que ceux construits sur la base d'un seul gène [15]. Par conséquent, PhySpeTree fournit également l'option HCP. Tout d'abord, nous avons choisi 31 HCP à copie unique sans transfert horizontal de Ciccarelli et al [16]. Ensuite, nous les avons mappés manuellement aux orthologues KEGG (version 90.1, 1er mai 2019) [19] (Fichier supplémentaire 2 : tableau S3). Lorsque les utilisateurs choisissent l'option HCP, PhySpeTree récupère directement les séquences HCP de la base de données KEGG. L'option HCP prend actuellement en charge 5943 organismes (Fichier supplémentaire 1 : Figure S1B et Fichier supplémentaire 2 : Tableau S2).

Alignement de séquences et reconstruction d'arbres

PhySpeTree intègre divers outils pour l'alignement de séquences multiples et la reconstruction d'arbres. Pour l'alignement des séquences, MUSCLE [21], MAFFT [22] et Clustal [22] sont fournis. Pour déduire des phylogénies précises, la méthode basée sur le maximum de vraisemblance RAxML est définie comme l'option par défaut [18]. De plus, IQ-TREE [26] et FastTree [27] sont des alternatives pour accélérer la reconstruction d'arbres. Les paramètres avancés des outils intégrés peuvent être spécifiquement définis et transmis dans PhySpeTree, permettant aux utilisateurs de manipuler les étapes critiques de l'alignement des séquences et de la reconstruction de l'arbre.


Qu'est-ce qu'un cladogramme

Un cladogramme est un diagramme de branchement qui montre la relation évolutive entre un groupe de clades. UNE clade est un groupe d'organismes, composé de tous les descendants évolutifs d'un ancêtre commun. Un cladogramme ne représente pas la quantité de changement évolutif dans le groupe, ni n'indique le temps évolutif ou la distance génétique. Chaque branche du cladogramme se termine par un clade. Il part d'un dernier ancêtre commun. Les cladogrammes sont généralement formés en fonction des caractères morphologiques. Un cladogramme montrant la relation entre les espèces de mammifères est montré dans Figure 1.

Figure 1 : Un cladogramme de mammifères


Informations sur l'auteur

Affiliations

Département d'écologie, d'évolution et de biologie des organismes, Iowa State University, 50011, Ames, Iowa, États-Unis

Ehsan Kayal et Dennis V Lavrov

Département de zoologie des invertébrés, Musée national d'histoire naturelle, Smithsonian Institution, 20013-7012, Washington, DC, États-Unis

Département Biochimie, Fac. Médecine, Université de Montréal, Pavillon Roger-Gaudry, C.P. 6128, succ. Centre-Ville, H3C 3J7, Montréal, QC, Canada

Béatrice Roure & Hervé Philippe

National Systematics Laboratory of NOAA’s Fisheries Service, National Museum of Natural History, MRC-153, Smithsonian Institution, PO Box 37012, 20013-7012, Washington, DC, USA


Voir la vidéo: Puiden ajoa lumisissa olosuhteissa (Janvier 2022).