Informations

Un outil pour aligner les données de séquence du génome entier sur un autre génome et donner une note plus élevée aux régions d'exons ?


Je souhaite aligner les données WGS de plusieurs mammifères sur une référence telle que la séquence du génome humain. Étant donné que dans la plupart des cas, les exons doivent être conservés et épissés de la même manière et que les introns doivent varier, je souhaite utiliser un outil prenant en compte l'annotation de l'exon et de l'intron.

C'est-à-dire que les correspondances dans une région d'exon auraient dû recevoir une pondération plus élevée que les correspondances dans les régions introniques.

De plus, lorsqu'une paire de lecture correspond à 2 exons, la taille de l'insert doit être plus flexible car la longueur de l'intron peut varier selon les différents mammifères. Étant donné que l'insert de bibliothèque est inférieur à 2 Ko pour les bibliothèques courtes, la situation la plus courante devrait être une lecture sur l'exon et une autre sur l'intron.

Ceci est différent de RNA-seq car j'utilise les données WGS d'un génome entier, donc les exons et les introns sont dans les lectures. Et je veux les aligner sur une séquence de référence humaine.


Si vous n'essayez pas d'assembler mais simplement d'aligner chaque lecture sur le génome, vous pouvez utiliser disculper. Sur une plate-forme Unix/Linux, une fois que vous l'avez installé, exécutez quelque chose comme :

exonérer -m genome2genome WGS.fasta genome.fasta > out.txt

DudisculperManuel:

genome2genome Ce modèle est similaire au modèle coding2coding, sauf que les introns sont modélisés sur les deux séquences. (ne fonctionne pas encore bien)

Ce que je recommanderais cependant, c'est de s'aligner sur un ensemble de données d'ADNc de référence, et non sur l'ensemble du génome. Dans ce cas, vous devriez utiliser ceci à la place :

exonérer -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt

Extrait du manuel d'exonération :

cdna2genome Ceci combine les propriétés des modèles est2genome et coding2genome, pour permettre la modélisation d'un ADNc entier où une région codante centrale peut être flanquée d'UTR non codantes. Lorsque le début et la fin du CDS sont connus, ils peuvent être spécifiés à l'aide de l'option --annotation (voir ci-dessous) pour permettre uniquement à la région de codage correcte d'apparaître dans l'alignement.

MethGo : un outil complet pour analyser les données de séquençage du génome entier au bisulfite

La méthylation de l'ADN est une modification épigénétique majeure régulant plusieurs processus biologiques. Une approche standard pour mesurer la méthylation de l'ADN est le séquençage au bisulfite (BS-Seq). BS-Seq couple la conversion au bisulfite de l'ADN avec le séquençage de nouvelle génération pour profiler la méthylation de l'ADN à l'échelle du génome à une résolution de base unique. L'analyse des données BS-Seq implique l'utilisation d'aligneurs personnalisés pour cartographier les lectures converties au bisulfite et les pipelines bioinformatiques pour l'analyse des données en aval.

Résultats

Ici, nous avons développé MethGo, un outil logiciel conçu pour l'analyse des données du séquençage du bisulfite du génome entier (WGBS) et du séquençage du bisulfite à représentation réduite (RRBS). MethGo fournit à la fois des analyses génomiques et épigénomiques, y compris : 1) la distribution de couverture de chaque cytosine 2) le niveau global de méthylation de la cytosine 3) la distribution du niveau de méthylation de la cytosine 4) le niveau de méthylation de la cytosine des éléments génomiques 5) la distribution du niveau de méthylation de la cytosine à l'échelle du chromosome 6) centré sur le gène niveau de méthylation de la cytosine 7) niveaux de méthylation de la cytosine aux sites de liaison du facteur de transcription (TFBS) 8) appel au polymorphisme nucléotidique simple (SNP) et 9) appel à variation du nombre de copies (CNV).

Conclusion

MethGo est un outil simple et efficace pour l'analyse des données BS-Seq incluant à la fois WGBS et RRBS. Il contient 9 analyses dans 5 modules principaux pour profiler (épi)génome. Il dresse le profil de la méthylation de l'ADN à l'échelle du génome à l'échelle mondiale et au niveau du gène. Il peut également analyser le schéma de méthylation autour des sites de liaison des facteurs de transcription et évaluer les variations génétiques telles que les SNP et les CNV. MethGo est codé en Python et est accessible au public à l'adresse http://paoyangchen-laboratory.github.io/methgo/.


Fond

La domestication est le processus d'adaptation des animaux à l'environnement captif et aux interventions humaines telles que la protection, l'offre de nourriture et la promotion de l'élevage [1]. Par rapport à leurs ancêtres sauvages, les animaux domestiques présentent une grande variation de comportement, de morphologie et de physiologie en réponse à la domestication, et cette variation est le résultat de changements génétiques sur plusieurs générations. La différenciation génétique entre les animaux domestiques et leurs ancêtres sauvages est influencée par de multiples mécanismes, notamment la sélection, la mutation, la dérive et le flux génétique [2]. La détection des signatures sélectives associées à la domestication est importante pour comprendre la base génétique des adaptations à de nouveaux environnements et des changements phénotypiques rapides. Ces dernières années, le reséquençage du génome entier offre une vision globale de la détection des signatures laissées par la domestication, comme chez le porc [3], les poulets [4], les chiens [5] et les yaks [6].

Les canards domestiques chinois sont parmi les premiers oiseaux aquatiques domestiqués au monde, datant de 2228 ans avant le présent (YBP) [7]. La Chine est célèbre pour son abondance de races de sauvagine, jusqu'à 31 races de canards domestiques ont été reconnues. En raison de la domestication et de la reproduction directionnelle, les canards domestiques présentent de nombreuses caractéristiques typiques en termes de morphologie, de comportement et de performances de production, telles qu'une réduction de la taille du cerveau [8], des modifications de la morphologie des pattes [9], une diminution des comportements d'agression [10] et une productivité des œufs plus élevée. Les canards domestiques ont été élevés à diverses fins, telles que la production d'œufs et/ou de viande. Les canards Shaoxing et Shanma sont d'excellentes races chinoises de canards de type œuf, caractérisées par une petite taille corporelle, une maturité précoce et une productivité élevée. Dans l'histoire écrite chinoise, le canard de Shaoxing remonte à la dynastie Song il y a environ 1000 ans. Au cours de 50 ans d'élevage systématique, la production d'œufs de canards Shaoxing a atteint 300 à l'âge de 500 jours [11]. Le canard Shanma, un autre canard indigène chinois célèbre, est domestiqué depuis 400 ans dans la province du Fujian [12]. Le canard Fenghua (FH) est une race de canard locale spéciale à double usage dans la province du Zhejiang, qui a une apparence similaire aux colverts. Différent des autres races domestiques, le canard Fenghua conserve encore certaines habitudes des canards sauvages telles que la reproduction saisonnière, le vol et une résistance élevée aux maladies, en raison de la courte période de domestication. Les canards de Pékin chinois sont nommés canards de Pékin de Cherry Valley après avoir été exportés au Royaume-Uni en 1872. Après plus de 100 ans de sélection intensive, les canards Cherry Valley Pékin sont réputés pour leur croissance rapide, leur taux de maigreur élevé et leur taux de conversion alimentaire élevé [13].

Bien que de nombreuses études aient été menées sur la diversité et l'origine des canards domestiques chinois en appliquant des marqueurs microsatellites, le séquençage de l'ADN mitochondrial et le reséquençage du génome entier, l'origine et l'évolution des canards domestiques chinois sont encore débattues. Certains chercheurs suggèrent que les canards domestiques chinois proviennent de canards colverts sauvages [14, 15], tandis que d'autres soutiennent que les canards domestiques pourraient également provenir de canards à bec tacheté chinois [16, 17]. Le colvert est l'espèce de canard sauvage la plus commune en Chine, ce qui revêt une importance économique particulière [18]. Le canard à bec tacheté est un proche parent du canard colvert, avec des distributions se chevauchant partiellement dans la plupart du Japon, de la Corée et du nord-est de la Chine [19]. En raison de l'hybridation observée de colverts et de canards à bec tacheté en Asie de l'Est [19], une autre hypothèse suggère que les canards domestiques pourraient provenir d'hybrides de colverts et de canards à bec tacheté [17, 20].

Les canards ne sont pas seulement importants sur le plan économique, mais servent également d'importants systèmes d'étude non-modèle en biologie évolutive [21]. Ainsi, élucider l'histoire évolutive des différentes races domestiques est essentiel pour tenter de comprendre comment différents régimes sélectifs ont façonné leur variation génétique. Par conséquent, nous avons séquencé les génomes de 60 individus de deux populations sauvages, les canards à bec tacheté et les colverts, et de quatre races chinoises indigènes (canards Fenghua, Shaoxing, Shanma et Cherry Valley Pékin) pour explorer les relations génétiques entre les canards sauvages et domestiques et identifier les empreintes génomiques de la sélection lors de la domestication des canards indigènes.


Revoir

Étant donné les données de séquence du génome entier (WGS), il existe trois approches de base pour rechercher des insertions de non-référence qui sont souvent utilisées ensemble, intégrant la prise en charge de chaque approche : regroupement de paires de lecture discordantes, mappage de lecture séparée et assemblage de séquences. Il convient de mentionner que tous ces éléments ne sont pas applicables à toutes les méthodes WGS. Les paires de lecture ne sont pas nécessairement présentes en fonction de la méthode de préparation de la bibliothèque ou de la technologie de séquençage. Actuellement, l'approche la plus répandue du WGS est via la technologie Illumina HiSeq utilisant des lectures appariées. À l'avenir, à mesure que les méthodes de séquençage à lecture longue arriveront à maturité, de nouvelles méthodes de calcul pour la détection des insertions pourraient être nécessaires, ou les méthodes précédentes de détection des insertions à partir d'une séquence capillaire ou d'assemblages comparatifs de génomes entiers [4] pourraient être réutilisées.


Conclusion

Il n'y a pas d'étalon-or pour l'assemblage et l'annotation du génome. Cependant, la disponibilité des données NGS (en particulier les données TGS) et de leurs outils d'analyse a permis le séquençage de plusieurs génomes de haute qualité d'espèces importantes en aquaculture ces dernières années. Les débutants et les petits groupes de recherche sont toujours confrontés à des défis, car l'assemblage et l'annotation du génome sont généralement des procédures analytiques complexes (ou pipelines) nécessitant des collaborations interdisciplinaires (de la biologie à l'informatique) et des coûts élevés pour affiner/maintenir le génome. Les recommandations abordées ici sont des directives générales qui pourraient être envisagées pour éviter les pièges courants tout au long du processus d'assemblage et d'annotation du génome entier. Cependant, les caractéristiques complètes (par exemple, les avantages et les inconvénients) de chaque étape et/ou technologie n'ont pas été largement discutées.

Enfin, les nouvelles technologies émergentes et les outils analytiques pourraient considérablement améliorer les assemblages et les annotations du génome de bout en bout à l'avenir en remplaçant les efforts de plusieurs années du passé par des solutions rapides et peu coûteuses. En attendant, l'accent doit être mis sur les points suivants : Premièrement, définir l'objectif de recherche réalisable. Deuxièmement, évitez le piège d'essayer d'obtenir un assemblage et une annotation parfaits/complets du génome, ce qui pourrait conduire à un projet sans fin. Troisièmement, effectuez l'assemblage et l'annotation pour acquérir une expérience de première main, y compris en bioinformatique. Quatrièmement, demandez de l'aide et des conseils internes et externes à des experts. Enfin, soyez ouvert au partage des données génomiques pour à la fois augmenter la productivité de la recherche et sensibiliser le public.


Résultats

STMP identifie un gène candidat pour l'arythmie ventriculaire néonatale dans un trio père-mère-enfant

Le format trio est un arrangement familial courant dans les études de séquençage entreprises pour découvrir la base génétique d'une maladie connue ou pour aider au diagnostic de la maladie [39,40]. Dans beaucoup de ces trios, la progéniture est le seul sujet clairement affecté (trios “simplex”), proposant plusieurs modes possibles d'expression phénotypique, y compris l'hérédité récessive ou codominante, l'hérédité autosomique dominante avec une pénétrance réduite, et un de novo mutation chez le proposant. STMP annote fonctionnellement et hiérarchise ces allèles, y compris tous les cas possibles d'hétérozygotie composée et les variantes non codantes importantes. Pour démontrer l'utilité de STMP pour la découverte de variantes génétiques associées à la maladie chez les individus atteints d'une maladie manifeste dans ce format, nous avons utilisé STMP en mode « & x0201ctrio” » pour étudier les données de séquence du génome entier d'un trio père-mère-enfant avec ventricule néonatal. arythmie. Dans ce trio, la progéniture a été affectée par une arythmie ventriculaire polymorphe néonatale précédée d'une élévation du segment ST ( Figure 2A.). Les tests génétiques cliniques des gènes héréditaires d'arythmie, y compris les tests de délétion-duplication, n'ont pas révélé de mutations causant la maladie. STMP a identifié 25 variants candidats. Parmi les variants hétérozygotes du composé candidat, une nouvelle mutation non-sens et un variant UTR 5’ commun ont été trouvés en trans dans ATP2B4 cette dernière variante, rs4600103, a été trouvée dans une région de chromatine accessible et active telle que déterminée par les régions hypersensibles à la DNAse dérivées d'ENCODE et l'enrichissement pour les modifications des histones du promoteur (H3K4me3) dans les fibroblastes cardiaques humains (HCF) et les myocytes cardiaques (HCM) et les modifications des histones actives ( H3K27ac) dans les fibroblastes pulmonaires humains ( Figure 2B ). ATP2B4 code pour une ATPase calcique de la membrane plasmique qui médie la signalisation neuronale de l'oxyde nitrique dans les myocytes cardiaques et interagit directement avec un gène, SNTA1, qui a été impliqué dans l'arythmie ventriculaire héréditaire et la mort subite présumée du nourrisson par arythmie [41&# x0201343]. À l'aide des bases de données de liaison aux facteurs de transcription TRANSFAC et JASPAR, nous avons identifié des motifs altérés pour les sites de liaison aux facteurs de transcription ELK1 et NF&# x003baB (TFBS) à proximité du SNP. En utilisant les données de 1000 génomes, nous avons identifié une autre variante commune, rs4951276 (MAF 0,35 ASN, 0,09 EUR) en déséquilibre de liaison élevé (r 2 = 0,87) avec rs4600103, ce qui peut expliquer certains des effets régulateurs. Cette variante intronique réside dans un élément activateur putatif, contenant la marque de chromatine active, H3K27ac, et devrait perturber les motifs TFBS pour FOXP1. Pour interroger l'impact potentiel de ces variantes dans la régulation ATP2B4 expression, nous avons cloné les éléments régulateurs prédits entourant chaque allèle dans une construction de rapporteur de luciférase entraînée par un promoteur minimal et mesuré l'activité transcriptionnelle relative à la fois dans HEK 293 et ​​dans la lignée cellulaire de cardiomyocytes de rat néonatal, H9c2. Fait intéressant, il a été démontré que l'allèle A mineur à rs4600103 avait une activité transcriptionnelle réduite par rapport à l'allèle G majeur, alors que les deux allèles à rs4951276 avaient des activités de rapporteur similaires ( Figure 2C ). Ces résultats indiquent que rs4600103 peut être une variante fonctionnelle identifiée à ATP2B4 en modifiant un élément cis-régulateur putatif. Il reste difficile de savoir si cette variante, en combinaison avec la variante tronquante en trans, est associée à la maladie. Il se peut qu'un facteur encore non identifié tel qu'un élément régulateur agissant en trans, une variante structurelle sur l'autre allèle ou un modificateur spécifique à l'environnement ou au sexe du phénotype soit en jeu. Cette incertitude met en évidence l'un des défis inhérents à l'identification d'un seul allèle probablement pathogène dans un gène de maladie récessif.

A) Pedigree (à gauche) et ECG néonatal représentatif d'un sujet présentant une fibrillation ventriculaire (à droite). B) Capture d'écran du navigateur de génome UCSC montrant les pistes réglementaires ENCODE entourant une nouvelle variante dans l'UTR 5’, rs4600103 (boîte rouge), trouvée dans cis avec une variante absurde dans ATP2B4, ainsi que la variante liée (r 2 = 0,87) rs4951276 (boîte verte). Les pistes pour l'accessibilité de la chromatine, y compris l'hypersensibilité à la DNaseI et la modification des histones du promoteur (H3K4M3), les données ChIP-seq sont présentées pour les myocytes cardiaques humains (HCM), les fibroblastes cardiaques humains (HCF) et le tissu cardiaque. Les clusters d'hypersensibilité DNaseI, le facteur de transcription ChIP-seq et la modification active des histones (H3K27Ac) ChIP-seq sont présentés pour plusieurs lignées cellulaires ENCODE. C) Validation fonctionnelle des variantes courantes à l'aide d'essais de rapporteurs spécifiques aux allèles. Variantes courantes à ATP2B4, rs4600103 et rs4951276 ont été évalués dans des tests de rapporteur de luciférase dans HEK293 et ​​H9c2. Les valeurs sont exprimées sous forme de changement de pli relatif par rapport au vecteur vide (pLuc) et représentent la moyenne &# x000b1 SEM des triples de trois expériences indépendantes.

Prédictions de réponse aux médicaments à partir des données WGS

Lorsqu'il est exécuté sur les données WGS d'un seul proposant, le STMP fournit, pour la première fois, l'attribution d'haplotypes pharmacogénomiques et l'annotation des allèles pharmacogénomiques cliniquement associés, y compris ceux qui sont définis sur une seule variante ou sur des bases d'haplotypes. Pour démontrer l'utilité de STMP dans ce contexte, nous avons évalué la concordance entre les attributions d'allèles étoiles générées par STMP pour cinq gènes avec les directives associées du Clinical Pharmacogenomics Implementation Consortium (CPIC) pour le dosage et l'administration des médicaments (CYP2C9, CYP2C19, CYP2D6, VKORC1, et SLCO1B1). La concordance d'appels d'haplotypes entre STMP et la détermination manuelle d'haplotypes en aveugle a démontré que chez les douze individus, la paire d'allèles étoiles attribuée par les taux humains a été trouvée dans l'ensemble des allèles étoiles possibles rapportés par STMP pour les cinq gènes. Comme décrit [44], STMP a fourni 1 recommandations par sujet pour la modification de la dose ou de l'administration du médicament, et 3 prédictions supplémentaires de réponse génétique aux médicaments à haute fiabilité à partir des données WGS.

Identification d'allèles putatifs de risque de maladie mendélienne à partir des données WGS

Lorsqu'il est appliqué aux données WGS de proposants uniques, STMP fournit une annotation fonctionnelle riche et une hiérarchisation des allèles potentiels de risque de maladie mendélienne, y compris de nouvelles variantes, des variantes structurelles et des variantes réglementaires importantes. Le STMP permet une recherche à l'échelle du génome de ces variantes génétiques, ou peut être limité à des ensembles de gènes spécifiques si une question diagnostique ciblée est poursuivie. Pour démontrer l'utilité de STMP pour découvrir de telles variantes à l'échelle du génome, nous avons appliqué STMP aux données de séquence Illumina WGS (profondeur de lecture haploïde médiane 51x, 101 pb x 2 lectures appariées, générées sur le HiSeq 2000) de douze participants adultes non apparentés (âge médian 53, 6 femmes, 7 d'ascendance est-asiatique) recrutés dans les cliniques de soins primaires du centre médical de l'Université de Stanford. Les méthodes d'identification des variants nucléotidiques uniques, des indels et des variants structurels sont décrites dans Dewey et al (2014) [44]. Sur un processeur Intel Xeon X5670 à six cœurs exécutant Linux 64 bits avec 128 Go de RAM et utilisant cinq threads simultanés, stanovar a effectué une annotation complète des fichiers de variantes de format standard.vcf et.gff dans une moyenne de 96 (plage 90�) minutes par génome. STMP a hiérarchisé les candidats à risque de maladie mendélienne et identifié les génotypes et les haplotypes affectant la réponse aux médicaments en 5 minutes par participant. Le temps de traitement total médian, y compris l'appel de génotype ciblé des SNV et des indels avec des associations cliniques et un filtrage basé sur les spectres de fréquence du site local, était de 122 minutes (plage de 116 minutes). Nous avons utilisé des filtres de fréquence allélique de ρ% dans les enquêtes de population générale et 㰥% dans notre cohorte locale, des seuils de fréquence allélique plus élevés pour les données de séquences locales peuvent être appropriés dans les populations enrichies en phénotypes mendéliens et allèles variants associés. Des seuils de fréquence allélique plus élevés pour les données de séquences locales peuvent être appropriés dans les populations enrichies pour les phénotypes mendéliens et les allèles variants associés. La curation manuelle a découvert plusieurs mutations bien établies causant une maladie dans cette cohorte sans maladie mendélienne apparente, y compris une variante d'insertion-délétion de 19 pb dans BRCA1 qui a été précédemment impliqué dans le cancer héréditaire du sein et de l'ovaire, incitant une chirurgie prophylactique [44].

Les variantes découvertes chez chaque participant, avant et après le filtrage de fréquence allélique, sont présentées dans Tableau 1 . Un filtrage plus poussé des variants survenant à des fréquences alléliques élevées dans la cohorte a été particulièrement efficace pour réduire le nombre de candidats à risque de maladie mendélienne précédemment signalés et le nombre de variants de perte de fonction apparemment rares (selon les informations externes sur la fréquence des allèles) dans les gènes de la maladie mendélienne . Cela suggère que même un petit nombre de génomes locaux « de contrôle » peut réduire considérablement le nombre de faux positifs potentiels résultant d'un artefact de séquençage systématique lié aux particularités locales du séquençage et de l'analyse ou à une variation commune auparavant non appréciée.


Méthodes

Cultures clonales à partir de biopsies multi-organes de donneurs de rein

Des biopsies humaines ont été obtenues en peropératoire à partir de donneurs de rein vivants en bonne santé, selon le permis éthique Dnr 2015/1115-31. À partir du rein explanté de chaque donneur, une biopsie à l'aiguille du cortex rénal et un morceau de graisse surrénale ont été obtenus. De plus, un morceau de peau avec de la graisse sous-cutanée annexée a été obtenu. Les tissus ont été conservés dans du PBS froid et immédiatement traités pour l'isolement cellulaire.

Isolement et expansion clonale de progéniteurs tubulaires à partir de biopsies rénales humaines

À l'aide d'une biopsie à l'aiguille (1 mm de diamètre/10 mm de hauteur), 7 à 8 mg de tissu du cortex rénal du rein explanté ont été obtenus en peropératoire. Le protocole d'isolement et de culture cellulaire a été adapté de [55, 56]. Le tissu a été haché en petits morceaux avec un scalpel. Environ 1/5 de la biopsie a été utilisée pour l'extraction directe d'ADN/ARN à partir de tissus rénaux entiers. Le reste a été remis en suspension dans le milieu et passé à travers des tamis tissulaires avec des mailles de 100 et 70 um, excluant ainsi les glomérules de la préparation. La partie tubulaire, qui avait traversé les tamis cellulaires, a été sédimentée, puis traitée avec 1 × trypsine-EDTA pendant 5 min à 37 ° C et agitation douce, puis mélangée au milieu et passée à travers une passoire de 40 μm pour obtenir un seul suspension cellulaire. Le tri FACS des cellules CD133+ et l'expansion clonale unicellulaire dans des plaques à 96 puits ont été tentés (m = 4 biopsies) en utilisant l'anticorps clone AC133 (Milteny biotec, Bergisch Gladbach, Allemagne), mais sans succès. Pour obtenir la croissance des clones, des suspensions de cellules individuelles ont été directement étalées dans 6 à 8 puits de microtitration à 6 puits à 37 ° C et 5 % de CO2. Les boîtes de culture étaient recouvertes de fibronectine (Sigma-Aldrich) et le milieu de culture était EBM + EGM-2 MV BulletKit (Lonza, Bâle, Suisse). Vingt-quatre heures après l'étalement, le milieu a été changé. Tout d'abord, le milieu de placage a été collecté et replaqué dans un nouveau microtitrage à 6 puits pour permettre une fixation supplémentaire des progéniteurs rénaux. Une semaine après l'étalement, 1 à 20 colonies par puits étaient distinguables. Les colonies de forme ronde et de contacts étroits entre les cellules ont été envisagées pour une culture ultérieure, tandis que les cellules dispersées ont été rejetées (Fichier supplémentaire 1 : Figure S1b). Lorsqu'elles ont atteint ≈ 1000 cellules, les colonies ont été détachées avec de la trypsine, prélevées manuellement et déplacées vers de nouveaux microtitrages à 6 puits recouverts de fibronectine, une colonie par puits. L'ensemble de la procédure a été réalisée sous inspection stéréomicroscopique. Les colonies ont été cultivées jusqu'à la confluence et utilisées pour l'extraction d'ADN. Les clones qui ont atteint la confluence en 1 semaine ont été transférés dans des boîtes de Pétri de 10 cm de diamètre. Le temps moyen de culture était de 27,9 ± 0,8 jours (m = 26 clones issus de 6 biopsies).

Pour évaluer l'efficacité de la stratégie de culture, une sélection de clones a été soumise à une analyse FACS des marqueurs progéniteurs tubulaires [39] et à une analyse qPCR pour les marqueurs de différents types de cellules rénales. Cent mille cellules par clone ont été colorées pour les marqueurs progéniteurs des tubules rénaux CD133 (clone AC133) et CD24 (clone 32D12, tous deux de Milteny biotec, Bergisch Gladbach, Allemagne) et analysées avec FACS (FACSCalibur™ - BD Biosciences). Le pourcentage de cellules doublement positives a été calculé par comparaison avec des cellules du même clone colorées avec des IgG de contrôle correspondantes (Milteny biotec) (voir également le fichier supplémentaire 1 : Figure S1c). Un sous-ensemble de clones séquencés et non séquencés a également été testé pour l'expression de transcrits considérés comme des marqueurs de différents types cellulaires présents dans le rein (voir Fichier complémentaire 1 : Figure S1e et la section « Extraction d'ARN et qPCR » dans la section « Méthodes » ). Les analyses FACS et qPCR de l'expression des marqueurs des cellules rénales dans les clones KT ont été effectuées après 3 à 5 semaines de culture. Pour éviter la perte de cellules des clones destinés au séquençage, seuls les clones séquencés sélectionnés ont été inspectés pour l'expression des marqueurs rénaux : P4903_104 P4903_117, P4903_118, P4903_119, P4903_131, P4903_132, testés par FACS P4206_106 P4206_107 P4206_122 P4903_102, testés par P4903_1131 et P4903_113128 , testé à la fois par FACS et qPCR. Les analyses ont été étendues aux clones non utilisés pour le séquençage (clones non séquencés). Ces clones provenaient soit d'une biopsie test (m = 7, individu femelle, 57 ans) ou ont été sélectionnés parmi des clones non séquencés d'individus KD10 (m = 3), KD11 (m = 4), et KD12 (m = 11).

Expansion clonale de progéniteurs adipeux à partir de biopsies humaines

Un à dix grammes de graisse abdominale sous-cutanée (externe au fascia superficiel) et viscérale (péri-rénale) ont été obtenus de donneurs de rein opérés selon le permis éthique Dnr 2015/1115-31. Une partie du tissu a été congelée pour une extraction directe d'ADN/ARN. Le reste a été rincé avec précision, nettoyé des vaisseaux visibles et haché avec un scalpel. Le tissu a été placé dans 30 à 50 ml de solution saline équilibrée de Hank (HBSS) contenant 1 mg/ml de collagénase (Collagénase A, Roche, Bâle, Suisse) dans un incubateur à agitation à 37 °C jusqu'à digestion complète (30 à 40 min). Pour séparer la fraction vasculaire stromale (SVF) des adipocytes matures, le tissu digéré a été centrifugé à 500g pendant 10 min et le surnageant jeté. Le culot SVF a été remis en suspension dans 1 ml de tampon de lyse des érythrocytes (solution de lyse RBC, Qiagen) à température ambiante pendant 5 min. Pour arrêter la lyse, les cellules ont été sédimentées par centrifugation à 500g pendant 5 min et le surnageant jeté. Le SVF a été remis en suspension dans un milieu et filtré à travers une passoire de 40 μm, puis étalé dans une boîte de culture de 10 cm de diamètre avec un milieu d'ensemencement à faible teneur en sérum (Dulbecco's Modified Eagle's Medium (DMEM)/Ham's F-12, Life Technologies qui contenait 0,5 % sérum bovin). Après 12 h dans un 37°C et 5% CO2 incubateur, les cellules non adhérentes ont été soigneusement éliminées et les pré-adipocytes adhérents ont été détachés par 3 à 5 min de trypsinisation. Les cellules ont été rincées et colorées pour le marqueur hématopoïétique CD45-APC (clone HI30, BD Biosciences, USA) et le marqueur endothélial CD31-PE (clone L133.1, BD Biosciences). Les progéniteurs de graisse CD45 neg CD31 neg ont été triés par FACS à l'aide d'un trieur de cellules BD FACSAria™ Mu (BD Biosciences) (voir le fichier supplémentaire 1 : Figure S1f) et une seule cellule a été ensemencée dans des plaques de culture à 96 puits non revêtues, une plaque/biopsie. Des cellules supplémentaires ont été triées dans des plaques à 6 puits en une population de 10 000 à 30 000 pré-adipocytes, 1 puits/biopsie, et cultivées pendant 1 semaine avant congélation. Le milieu d'étalement (DMEM F12 10 % FBS) des cultures de cellules individuelles a été changé tous les 2 jours. Le nombre de colonies a été noté 2 semaines après l'étalement. A confluence (environ 3 semaines), les cellules ont été trypsinisées et déplacées dans des plaques à 24 puits. En fonction de la confluence des cellules, les colonies ont ensuite été déplacées dans des plaques à 6 puits. Après une moyenne de 46,2 ± 1,3 et 48,0 ± 1,5 jours de culture pour la graisse sous-cutanée et viscérale, respectivement, les colonies étaient confluentes et utilisées pour l'extraction d'ADN.

Expansion clonale de progéniteurs épithéliaux à partir de biopsies humaines

Des biopsies cutanées du bas-ventre ont été obtenues de donneurs de rein subissant une intervention chirurgicale. Le tissu a été placé dans du HBSS froid sans Ca 2+ et Mg 2+ (Life Technologies) contenant des antibiotiques et des antimycotiques (Anti-anti, Gibco, Life Technologies) et maintenu à 4 °C pendant 4 à 6 h. La graisse sous-cutanée et les tissus conjonctifs lâches (hypoderme) ont été soigneusement retirés. Le tissu a été aplati et découpé en bandes d'environ 3 à 4 mm de large. Les morceaux ont été placés avec le côté cutané vers le bas dans une boîte contenant du HBSS avec des antibiotiques et du dispase (Corning, USA) et maintenus à 4°C pendant la nuit. L'épiderme digéré a été pelé du côté dermique, haché et trypsiné avec TrypLE Select (Gibco, Life Technologies) à 37°C pendant 30-40 min. Le tissu digéré a été passé à travers un filtre à mailles de 70 µm, collecté dans un nouveau tube contenant du milieu et centrifugé. Le culot a été remis en suspension dans du milieu EpiLife, filtré à travers une passoire de 40 m et étalé dans 4 puits d'un multipuits à 6 puits recouvert de collagène (5 g/cm 2 de protéine bovine Collagène I, Gibco, en suivant la "procédure de revêtement mince") . Le milieu de croissance était le milieu EpiLife (Gibco, Life Technologies), pas de sérum. La procédure n'a produit aucune colonie pour les individus KD05, KD09, KD10, KD11 et KD12. La culture de l'épiderme à partir de l'individu KD06 a produit 2 colonies. Des colonies de cellules petites, serrées et à prolifération rapide étaient visibles sur les extrémités de la boîte à partir de 2 semaines après l'étalement. Lorsqu'elles ont atteint ≈ 1000 cellules, les colonies ont été détachées avec de la trypsine, prélevées manuellement et déplacées vers de nouveaux microtitrages à 6 puits recouverts de collagène, une colonie par puits. L'ensemble de la procédure a été réalisée sous inspection stéréomicroscopique. Les cellules avaient tendance à se différencier en grands kératinocytes matures (voir l'image dans le fichier supplémentaire 1 : figure S1a), mais une partie des cellules a conservé une petite taille et une capacité de prolifération très élevée pour de multiples passages. L'ADN a été extrait 34 jours après le placage initial.

Extraction d'ADN

L'ADN a été extrait des puits confluents de la plaque à 6 puits à l'aide du kit Gentra Puregen, Qiagen. L'ADN a été extrait de biopsies tissulaires à l'aide du kit Gentra Puregen, complété par un tampon de lyse contenant de la protéinase K tel que recommandé par le fournisseur. L'ADN a été extrait de 3 ml de sang total qui a été collecté sur EDTA comme recommandé par les instructions du kit Gentra Puregen Blood.

Séquençage

La préparation de la bibliothèque et le séquençage ont été effectués au NGI Suède, Science for Life Laboratories, Stockholm, selon des méthodes standard. Pour les clones cellulaires, la préparation de la banque a été réalisée par une station semi-automatique NeoPrep en utilisant le kit Illumina TruSeq Nano (taille d'insert moyenne de 350 pb) et 25 ng d'ADN comme matériau de départ. Les bibliothèques des échantillons de sang en vrac ont été préparées avec des préparations de bibliothèques sans PCR Illumina TruSeq (taille d'insertion moyenne de 350 pb). Le séquençage a été réalisé sur Illumina HiSeq X, PE 2 × 150 pb.

Appel de variante somatique

Les lectures brutes ont été alignées sur le génome humain de référence (version d'assemblage GRCh37/hg19), en utilisant bwa mem 0.7.12 [57]. Les alignements ont été triés et indexés à l'aide de samtools 0.1.19 [58]. Les statistiques de contrôle de la qualité de l'alignement ont été recueillies à l'aide de qualimap v2.2 [59]. Les alignements bruts ont ensuite été traités selon les meilleures pratiques GATK [60] avec la version 3.3 de la suite logicielle GATK. Les alignements ont été réalignés autour d'InDels à l'aide de GATK RealignerTargetCreator et IndelRealigner, les doublons ont été marqués à l'aide de Picard MarkDuplicates 1.120 et les scores de qualité de base ont été recalibrés à l'aide de GATK BaseRecalibrator. Enfin, des fichiers VCF génomiques ont été créés à l'aide du GATK HaplotypeCaller 3.3. Les fichiers de référence du bundle de ressources GATK 2.8 ont été utilisés. Toutes les étapes ci-dessus ont été coordonnées à l'aide de Piper v1.4.0 (www.github.com/NationalGenomicsInfrastructure/piper).

Les variants somatiques ont été définis comme hétérozygotes dans le clone cellulaire unique et absents ou très rares dans un tissu non apparenté (sang), séquencés en bloc. Pour identifier les variantes somatiques, un pipeline spécifique a été développé. Pour chaque clone, des variantes ont été initialement appelées avec HaplotypeCaller (GATK) [61], MuTect2 (GATK 3.5.0) et FermiKit version r178 [62]. L'union de ces trois ensembles de variantes a été soumise à d'autres étapes de filtrage afin d'exclure (1) les artefacts de séquençage, (2) les variantes germinales (détectées à la fois dans le clone et la masse sanguine) et (3) les variantes survenues au cours de l'in culture in vitro du clone (trouvée uniquement dans un sous-ensemble de cellules du clone, montrant donc une FA faible). To this aim, the AF of each variant was derived from the .bam files and matched to the relative blood bulk sequencing. Somatic variants were defined as follows: the read fraction supporting the alternative allele was comprised between 0.4 and 0.6 in the clone sequence, a minimum of 3 reads supported the variant, the read fraction in the blood was low (alternative < 0.1), and the coverage in both the clone and blood was at least 15X. Chromosomes X and Y were excluded from the analyses (however, variants recovered on the X chromosomes of female donors can be found in Additional file 3). Additional quality filters were applied as follows: the reads supporting the variants were on both strands, the maximum coverage was 1000X, and the variants that were located in problematic regions [63, 64] were removed. Variants common to more than one sample were considered artifacts and removed. Variant validation was performed to ensure that our lists of somatic mutations only contained somatic variants that were present in the cell before in vitro culturing (see the section “Variant validation” in the “Methods” section). Comparison of variants recovered in DNA from a clone derived from the same ancestor cell, but cultured in 2 different wells and independently sequenced, shows high validation rate (99 and 97% for SNVs and InDels, respectively, Additional file 1: Table S1e) and supports low levels of culture-induced variants in our lists. However, we cannot exclude the presence of non-neutral, positively selected variants that might have occurred in vitro. Variants were annotated using the Ensembl Variant Effector Predictor from [65]. Frequency of detected somatic SNVs in the Swedish population (germline variants) was annotated in Additional file 2 and Additional file 3 using SweGen [66] version 20180409.

Variant validation

The variant validation was performed on a technical replicate of WGS. Two clones derived from the same ancestor cell (P4206_128 and P4206_130) were independently grown in culture. The DNA was extracted and sequenced independently, but clone P4206_130 was not included in the study. Variants were called in clones P4206_128 (discovery set) according to our somatic variant calling pipeline. Called variants that had a minimum coverage of 10x in both the discovery and the validation sets were used for the validation. In total, 870 SNVs and 71 InDels were tested. Variants were considered validated when at least 3 reads supporting the alternative alleles were present in the validation set. As a control for the background signal, we validated the variants in unrelated clones, e.g., clones derived from a different founder cell obtained from the same or a different biopsy. Additional validation and discussion of our somatic mutation calling strategy are available at [11].

Microsatellite instability

Microsatellite instability was assessed using MSIsensor v.0.5 [67] where every cell clone and representative blood bulk were analyzed and the msi score calculated.


Conclusion

There remain thousands of potentially important genomic regions that are overlooked with short-read sequencing, but are largely resolved by linked- or long-read technologies. While these regions represent only a small portion of the entire genome or exome, many of these regions are known to be important in human health and disease. Equally important, however, is that the impact of many other genes is entirely unknown because they are 100% dark. We presented a method that can resolve most camouflaged regions that we believe will help researchers identify mutations that are involved in disease. As a proof of principle, we rescued approximately 4214 variants in the ADSP dataset, including a ten-nucleotide frameshift mutation in CR1. While we cannot formally assess the CR1 frameshift mutation in Alzheimer’s disease (insufficient sample-size), we believe it is worth investigating in a larger cohort. In the long-term, we believe that linked- and long-read sequencing technologies will be the best solution for resolving dark and camouflaged regions.


File Formats

The preferred file format for viewing alignments in IGV is the BAM format, a binary form of Sequence Alignment Map (SAM) format.

  • Besides BAM, additional supported file formats related to alignments include GOBY, VCF, PSL, BED, and TDF.
  • For details on viewing the older Illumina Pipeline v1.3 sorted.txt format see here.

Both BAM and SAM files are described on the Samtools project page http://www.htslib.org and in the 2014 article titled Sequence Alignment/Map Format Specification by the SAM/BAM Format Specification Working Group.

IGV requires that BAM files have an associated index file.

  • The main file must include the .bam extension.
  • The index file should have the same filename but with the .bai extension and must reside in the same directory as the file that it indexes. For example, the index file for test-xyz.bam would be named test-xyz.bam.bai, or alternatively test-xyz.bai. When you specify the location of the alignment file, IGV automatically searches for the index file within the same directory.

If you receive a .bam file from a sequencing facility, you will usually also get the corresponding index file. If you need to create the index yourself, there are multiple tools available for indexing BAM files, including igvtools, the samtools package, and the Picard.SortSam module in GenePattern.


Any tool to align whole genome sequence data to another genome and give exon regions a higher mark? - La biologie

A database providing information on the structure of assembled genomes, assembly names and other meta-data, statistical reports, and links to genomic sequence data.

A curated set of metadata for culture collections, museums, herbaria and other natural history collections. The records display collection codes, information about the collections' home institutions, and links to relevant data at NCBI.

A collection of genomics, functional genomics, and genetics studies and links to their resulting datasets. This resource describes project scope, material, and objectives and provides a mechanism to retrieve datasets that are often difficult to find due to inconsistent annotation, multiple independent submissions, and the varied nature of diverse data types which are often stored in different databases.

The BioSample database contains descriptions of biological source materials used in experimental assays.

A collaborative effort to identify a core set of human and mouse protein coding regions that are consistently annotated and of high quality.

Includes single nucleotide variations, microsatellites, and small-scale insertions and deletions. dbSNP contains population-specific frequency and genotype data, experimental conditions, molecular context, and mapping information for both neutral variations and clinical mutations.

The NIH genetic sequence database, an annotated collection of all publicly available DNA sequences. GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis. GenBank consists of several divisions, most of which can be accessed through the Nucleotide database. The exceptions are the EST and GSS divisions, which are accessed through the Nucleotide EST and Nucleotide GSS databases, respectively.

A compilation of data from the NIAID Influenza Genome Sequencing Project and GenBank. It provides tools for flu sequence analysis, annotation and submission to GenBank. This resource also has links to other flu sequence resources, and publications and general information about flu viruses.

A project involving the collection and analysis of bacterial pathogen genomic sequences originating from food, environmental and patient isolates. Currently, an automated pipeline clusters and identifies sequences supplied primarily by public health laboratories to assist in the investigation of foodborne disease outbreaks and discover potential sources of food contamination.

A collection of nucleotide sequences from several sources, including GenBank, RefSeq, the Third Party Annotation (TPA) database, and PDB. Searching the Nucleotide Database will yield available results from each of its component databases.

Database of related DNA sequences that originate from comparative studies: phylogenetic, population, environmental and, to a lesser degree, mutational. Each record in the database is a set of DNA sequences. For example, a population set provides information on genetic variation within an organism, while a phylogenetic set may contain sequences, and their alignment, of a single gene obtained from several related organisms.

A public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities.

RefSeqGene A collection of human gene-specific reference genomic sequences. RefSeq gene is a subset of NCBI’s RefSeq database, and are defined based on review from curators of locus-specific databases and the genetic testing community. They form a stable foundation for reporting mutations, for establishing consistent intron and exon numbering conventions, and for defining the coordinates of other biologically significant variation. RefSeqGene is a part of the Locus Reference Genomic (LRG) Collaboration. Reference Sequence (RefSeq)

A collection of curated, non-redundant genomic DNA, transcript (RNA), and protein sequences produced by NCBI. RefSeqs provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis, expression studies, and comparative analyses. The RefSeq collection is accessed through the Nucleotide and Protein databases.

The Sequence Read Archive (SRA) stores sequencing data from the next generation of sequencing platforms including Roche 454 GS System®, Illumina Genome Analyzer®, Life Technologies AB SOLiD System®, Helicos Biosciences Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®.

A database that contains sequences built from the existing primary sequence data in GenBank. The sequences and corresponding annotations are experimentally supported and have been published in a peer-reviewed scientific journal. TPA records are retrieved through the Nucleotide Database.

A repository of DNA sequence chromatograms (traces), base calls, and quality estimates for single-pass reads from various large-scale sequencing projects.

Téléchargements

BLAST executables for local use are provided for Solaris, LINUX, Windows, and MacOSX systems. See the README file in the ftp directory for more information. Pre-formatted databases for BLAST nucleotide, protein, and translated searches also are available for downloading under the db subdirectory.

Sequence databases for use with the stand-alone BLAST programs. The files in this directory are pre-formatted databases that are ready to use with BLAST.

Sequence databases in FASTA format for use with the stand-alone BLAST programs. These databases must be formatted using formatdb before they can be used with BLAST.

This site contains files for all sequence records in GenBank in the default flat file format. The files are organized by GenBank division, and the full contents are described in the README.genbank file.

This site contains all nucleotide and protein sequence records in the Reference Sequence (RefSeq) collection. The ""release"" directory contains the most current release of the complete collection, while data for selected organisms (such as human, mouse and rat) are available in separate directories. Data are available in FASTA and flat file formats. See the README file for details.

This site contains next-generation sequencing data organized by the submitted sequencing project.

This site contains the trace chromatogram data organized by species. Data include chromatogram, quality scores, FASTA sequences from automatic base calls, and other ancillary information in tab-delimited text as well as XML formats. See the README file for details.

This site contains the UniVec and UniVec_Core databases in FASTA format. See the README.uv file for details.

This site contains whole genome shotgun sequence data organized by the 4-digit project code. Data include GenBank and GenPept flat files, quality scores and summary statistics. See the README.genbank.wgs file for more information.

Submissions

An online form that provides an interface for researchers, consortia and organizations to register their BioProjects. This serves as the starting point for the submission of genomic and genetic data for the study. The data does not need to be submitted at the time of BioProject registration.

A web-based sequence submission tool for one or a few submissions to the GenBank database, designed to make the submission process quick and easy.

Tool for submission to the GenBank database of Barcode short nucleotide sequences from a standard genetic locus for use in species identification.

A stand-alone software tool developed by the NCBI for submitting and updating entries to public sequence databases (GenBank, EMBL, or DDBJ). It is capable of handling simple submissions that contain a single short mRNA sequence, complex submissions containing long sequences, multiple annotations, segmented sets of DNA, as well as sequences from phylogenetic and population studies with alignments. For simple submission, use the online submission tool BankIt instead.

A command-line program that automates the creation of sequence records for submission to GenBank using many of the same functions as Sequin. It is used primarily for submission of complete genomes and large batches of sequences.

This link describes how submitters of SRA data can obtain a secure NCBI FTP site for their data, and also describes the allowed data formats and directory structures.

A single entry point for submitters to link to and find information about all of the data submission processes at NCBI. Currently, this serves as an interface for the registration of BioProjects and BioSamples and submission of data for WGS and GTR. Future additions to this site are planned.

This link describes how submitters of trace data can obtain a secure NCBI FTP site for their data, and also describes the allowed data formats and directory structures.

Outils

Finds regions of local similarity between biological sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as to help identify members of gene families.

Allows you to retrieve records from many Entrez databases by uploading a file of GI or accession numbers from the Nucleotide or Protein databases, or a file of unique identifiers from other Entrez databases. Search results can be saved in various formats directly to a local file on your computer.

Tools that provide access to data within NCBI's Entrez system outside of the regular web query interface. They provide a method of automating Entrez tasks within software applications. Each utility performs a specialized retrieval task, and can be used simply by writing a specially formatted URL.

This tool compares nucleotide or protein sequences to genomic sequence databases and calculates the statistical significance of matches using the Basic Local Alignment Search Tool (BLAST) algorithm.

NCBI's Remap tool allows users to project annotation data and convert locations of features from one genomic assembly to another or to RefSeqGene sequences through a base by base analysis. Options are provided to adjust the stringency of remapping, and summary results are displayed on the web page. Full results can be downloaded for viewing in NCBI's Genome Workbench graphical viewer, and annotation data for the remapped features, as well as summary data, is also available for download.

An integrated application for viewing and analyzing sequence data. With Genome Workbench, you can view data in publically available sequence databases at NCBI, and mix these data with your own data.

A graphical analysis tool that finds all open reading frames in a user's sequence or in a sequence already in the database. Sixteen different genetic codes can be used. The deduced amino acid sequence can be saved in various formats and searched against protein databases using BLAST.

The Primer-BLAST tool uses Primer3 to design PCR primers to a sequence template. The potential products are then automatically analyzed with a BLAST search against user specified databases, to check the specificity to the target intended.

A utility for computing alignment of proteins to genomic nucleotide sequence. It is based on a variation of the Needleman Wunsch global alignment algorithm and specifically accounts for introns and splice signals. Due to this algorithm, ProSplign is accurate in determining splice sites and tolerant to sequencing errors.

Provides a configurable graphical display of a nucleotide or protein sequence and features that have been annotated on that sequence. In addition to use on NCBI sequence database pages, this viewer is available as an embeddable webpage component. Detailed documentation including an API Reference guide is available for developers wishing to embed the viewer in their own pages.

A utility for computing cDNA-to-Genomic sequence alignments. It is based on a variation of the Needleman-Wunsch global alignment algorithm and specifically accounts for introns and splice signals. Due to this algorithm, Splign is accurate in determining splice sites and tolerant to sequencing errors.

A system for quickly identifying segments of a nucleic acid sequence that may be of vector origin. VecScreen searches a query sequence for segments that match any sequence in a specialized non-redundant vector database (UniVec).


Voir la vidéo: Cours Bioinformatique-Chapitre 5: Alignement-3ème année-20192020 (Janvier 2022).