Posted on

Ein frei zugängliches Dashboard zur Untersuchung der genetischen Vielfalt klinischer Isolate von Mycobacterium tuberculosis

Ein frei zugängliches Dashboard zur Untersuchung der genetischen Vielfalt klinischer Isolate von Mycobacterium tuberculosis

Erstellung eines Datensatzes zur genetischen Vielfalt aus M. Tuberkulose klinische Isolate

Um einen robusten Datensatz für eine umfassende Erforschung der genetischen Vielfalt zusammenzustellen, haben wir zuvor hinterlegte Gesamtgenomsequenzen aus klinischen Isolaten von aggregiert M. Tuberkulose und konsolidierte sie in einem zugänglichen Dashboard. Dieser Datensatz umfasst 51.183 Genomsequenzen, die aus klinischen TB-Isolaten infizierter Patienten gewonnen wurden. Unsere anschließende Analyse priorisierte nicht-synonyme Mutationen, Indels und genomische Deletionen und ermöglichte so eine eingehende Metaanalyse der genetischen Variationen in jedem von ihnen kodierten Protein M. Tuberkulose. Wir haben uns nur auf proteinkodierende Gene konzentriert, da die beabsichtigte Anwendung dieses Datensatzes darin bestand, die Untersuchung des Vorhandenseins zielbasierter, nicht-synonymer Veränderungen in zirkulierenden klinischen Isolaten von zu ermöglichen M. Tuberkulose. Dies bedeutet, dass genetische Unterschiede in ribosomalen RNA-Genen, einschließlich rrs und rrl, die mit der Resistenz gegen Streptomycin bzw. Linezolid verbunden sind, in dieser Analyse nicht berücksichtigt werden. Insgesamt wurden 1.063.811 nicht-synonyme Veränderungen an 694.579 Stellen in 4029 Protein-kodierenden Genen beobachtet. Wir identifizierten durchschnittlich 173 Veränderungen pro Gen und bei Normalisierung auf die Proteinlänge ergaben sich durchschnittlich 49 % der Stellen, die einen Polymorphismus enthielten. Die Erhaltung an den Standorten war im Allgemeinen recht hoch, mit durchschnittlichen Generhaltungswerten von 99,93 %. Wir haben auch einen kleineren repräsentativen Datensatz von 5844 Proben isoliert, der die zugrunde liegende genetische Vielfalt besser widerspiegelt. Im Vergleich zu diesem repräsentativen Datensatz wies unser vollständiger Datensatz eine ähnliche Verteilung der Arzneimittelanfälligkeit auf (Abb. 1A). Wie erwartet wurden die Proben für den gesamten Datensatz hauptsächlich von Ländern mit geringerer TB-Inzidenz, aber höherer Kapazität zur Sequenzierung des gesamten Genoms hinterlegt (Abb. 1B). Tatsächlich war der größte Teil der Unterrepräsentation in Ländern mit hoher Belastung im globalen Süden zu verzeichnen, insbesondere in Asien (China, die Philippinen, Indien, Indonesien). Unser vollständiger Datensatz war für Proben der Linie 4 leicht überrepräsentiert und für Linie 2 sowie die Linien 5–9 unterrepräsentiert (Abb. 1C). Während für die meisten klinischen Proben keine genauen Metadaten zum Entnahmedatum verfügbar waren, wurden alle in unserem Datensatz gesammelten Probendaten zwischen 2010 und 2023 hinterlegt (Abb. 1D). Dieser endgültige Datensatz stellt einen umfassenden Katalog der genetischen Varianz aus klinischen Isolaten für jedes Protein dar M. Tuberkulose.

Abb. 1

Überblick über die Datenerfassung und -analyse – Vergleich der tatsächlichen oder prognostizierten Arzneimittelreaktion für die (A) Gesamtdatensatz (äußerer Ring) im Vergleich zum repräsentativen Stichprobensatz (innerer Ring) und (B) basierend auf dem Ursprungsland für den gesamten Datensatz. (C) Abstammung des gesamten Datensatzes (äußerer Ring) im Vergleich zum repräsentativen Datensatz (innerer Ring). (D) Histogramm des Datums, an dem das klinische Isolat hinterlegt wurde.

Um diese umfangreiche Ressource für die Forschungsgemeinschaft zur Entdeckung von Tuberkulosemedikamenten zugänglicher zu machen, haben wir eine benutzerfreundliche Schnittstelle für die Datenabfrage eingerichtet (Dieses Dashboard kann zur Untersuchung der genetischen Varianz jedes Proteins von Interesse verwendet werden). M. Tuberkulose Gleichzeitig werden auch Metriken wie die Erhaltung zwischen eng verwandten Systemen bereitgestellt Mykobakterium Spezies.

Genetische Vielfalt und Artenerhaltung von Genen korrelieren mit der Genanfälligkeit

Um Essentialität und Erhaltung auf globaler Ebene zu vergleichen, haben wir unsere umfangreiche Datenbank genutzt, um die genetische Varianz zwischen klinischen Isolaten mit Gen-Vulnerabilitäts-Scores zu vergleichen, einem Maß für die Gen-Essentialität, das durch ein genomweites CRISPRi-vermitteltes Essentialitäts-Screening ermittelt wird8 (Abb. 2A,B). Diese Beziehungen wurden getrennt für Gene untersucht, die als essentiell und nicht essentiell eingestuft wurden (basierend auf dem CRISPRi-vermittelten Essentialitätsscreening).8), da diese Gruppen innerhalb des Merkmalsraums unterschiedliche Cluster bildeten. Erstens zeigte dies einen statistischen Unterschied im Grad der genetischen Varianz der kodierenden Regionen zwischen Genen, die entweder als essentielle oder nicht essentielle Gene klassifiziert wurden (Abb. 2A). Zweitens war es wahrscheinlicher, dass essentielle Gene eine höhere Anzahl konservierter Positionen aufwiesen als nicht-essentielle Gene. Tatsächlich gab es eine klare Korrelation zwischen dem Vulnerabilitäts-Score, der die Bayes’sche Modellierung zur Quantifizierung der Vulnerabilität jedes Gens verwendet, und der genetischen Varianz zwischen klinischen Isolaten (Abb. 2B).

Abb. 2
Abbildung 2

Genomweiter Vergleich von Genanfälligkeit, genetischer Vielfalt und Artenerhaltung–(A) Histogramm der Gene pro Prozentsatz der polymorphen Positionen. Die Einfügung zeigt einen direkten Vergleich zwischen vorhergesagten essentiellen und nicht-essentiellen Genen. (B) Vergleich der genetischen Diversität (% der Positionen, die unter allen Isolaten vollständig konserviert sind) und des Gen-Vulnerabilitäts-Scores8. (C) Vergleich von genetischer Vielfalt und Artenschutz (zwischen Mykobakterium Spezies). (D) Vergleich des Gen-Vulnerabilitäts-Scores und des Artenschutzes. Gene sind nach ihrer Wesentlichkeit farblich gekennzeichnet.

Abgesehen von der genetischen Varianz innerhalb einer Art gibt es auch Hinweise darauf, dass die genetische Erhaltung zwischen Bakterienarten direkt mit der Wesentlichkeit von Genen zusammenhängt4. Die Gattung von Mykobakterium enthält über 190 Arten, darunter die bekanntesten Mitglieder M. Tuberkulose Und M. lepraeder Erreger der Lepra. Mitglieder der Gattung sind an ihren wachsartigen, lipidreichen Zellwänden aus Mykolsäure zu erkennen. In unser Dashboard haben wir die Aminosäuresequenzen von sechs Arten dieser Gattung aufgenommen, darunter M. abscessus, M. marinum Und Mycolicibacterium smegmatisdie zusammen mehr als 24.000 Proteinsequenzen enthalten. Der Artenschutz wurde dann anhand der durchschnittlichen Sequenzidentität zwischen bewertet M. Tuberkulose und die anderen Arten. Wie bei der Wesentlichkeit und Anfälligkeit gab es einen statistisch signifikanten Zusammenhang zwischen der genetischen Varianz zwischen klinischen Isolaten und der Artenerhaltung, wenn sie mithilfe der linearen Regression der kleinsten Quadrate analysiert wurde (Abb. 2C). Dies stützt frühere Arbeiten, die darauf hindeuten, dass essentielle Gene zwischen den Bakterienarten stärker konserviert sind als nicht-essentielle Gene. Schließlich ergab der Vergleich der Artenschutz- und Vulnerabilitätswerte auch einen statistisch relevanten Zusammenhang (Abb. 2D; Ergänzungstabelle S1). Zusammengenommen deuten diese Daten darauf hin, dass es einen Zusammenhang zwischen der genetischen Erhaltung, sowohl bei klinischen Isolaten als auch bei verschiedenen Arten, und der Anfälligkeit und Wesentlichkeit von gibt M. Tuberkulose Proteine ​​(Ergänzungstabelle S1).

Identifizierung inhärenter Arzneimittelresistenzen bei neuen antituberkulösen Arzneimittelzielen

Die Hauptanwendung dieses Datensatzes zur genetischen Diversität besteht darin, eine Basislinie für die genetische Varianz jedes Arzneimittelziels neuer oder zukünftiger klinischer Verbindungen bereitzustellen, um die zukünftige Populationsdynamik zu messen. Dies würde sowohl inhärente Resistenzen innerhalb der Population identifizieren als auch einen Hinweis darauf liefern, ob zielbasierte Mutationen, die in im Labor generierten Resistenzstämmen beobachtet wurden, in klinischen Isolaten lebensfähig sein könnten. Um den Nutzen unseres Dashboards zu demonstrieren, haben wir uns auf die jeweiligen Wirkstoffziele von vier Verbindungen konzentriert, die sich in klinischen Studien der Stufe II zur Behandlung von Tuberkulose befinden: (i) SQ109, ein 1,2-Ethylendiamin, das auf den Mykolsäuretransporter MmpL3 abzielt9; (ii) GSK070, ein Oxaborol-Derivat, das die Leucyl-tRNA-Synthetase (LeuS) hemmt.10; (iii) BTZ-043, ein Benzothiazinon, das nachweislich DprE1 hemmt11 Und; (iv) Q203 (Telacebec), ein Imidazopyridinamid, von dem bekannt ist, dass es auf das Cytochrom abzielt v. Chr1 komplex, insbesondere QcrB12.

MmpL3 (Rv0206c) gehört zur Superfamilie Resistance, Nodulation and Division (RND) und transportiert Trehalosemonomycolat für die Zellwandbiogenese. Während SQ109 die am weitesten fortgeschrittene Verbindung zur Bekämpfung von MmpL3 ist, gibt es mehrere Klassen von Verbindungen, die nachweislich dieses promiskuitive Arzneimittelziel hemmen. Während der Entwicklung dieser Verbindungen wurden 136 einzigartige Aminosäureveränderungen an 83 verschiedenen Positionen innerhalb des MmpL3-Proteins aus einer Reihe von identifiziert Mykobakterium Arten, überwiegend M. Tuberkulose13. Während viele dieser Mutationen nicht direkt mit einer SQ109-Resistenz in Zusammenhang stehen, ist es denkbar, dass einige zu einer Kreuzresistenz führen. Wir haben unseren Datensatz zur genetischen Diversität analysiert, um Mutationen in der MmpL3-Kodierungssequenz zu identifizieren (Abb. 3A). Es wird vorhergesagt, dass SQ109 mit den Transmembrandomänen (TMs) 4–5 und 10–11 (236–300 und 625–688 aa) von MmpL3 interagiert, es wurden jedoch Mutationen identifiziert, die das gesamte Protein abdecken13. Zwei Mutationen, die nichts mit Arzneimittelresistenz zu tun haben, F384I und D466E, waren in unserem Datensatz prominent und weitere Untersuchungen ergaben, dass diese Mutationen fast ausschließlich in Proben aus Linie 6 und mit Tieren assoziierten Linien auftraten. Dies legt nahe, dass die Mutationen aus einzelnen Akquisitionsereignissen entstanden sind und sich wahrscheinlich im Rahmen einer neutralen Evolution entwickelt haben. Als nächstes verglichen wir die genetische Vielfalt von MmpL3 mit in vitro im Labor erzeugten Mutationen, von denen bekannt ist, dass sie Resistenzen gegen Inhibitoren dieses Ziels hervorrufen13. Unsere Analyse identifizierte eine genetische Varianz an 10 Aminosäurepositionen, die auch Resistenz verleihende Mutationen aufrechterhalten kann (Tabelle 1; Abb. 3A). Zwei Aminosäurepositionen waren besonders angereichert, wobei T284A in 17 Isolaten aus L4.5 vorkam, die hauptsächlich aus China und Vietnam stammten, und T286M in 8 Isolaten aus L3 vorkam, die größtenteils unbekannter Herkunft waren, sowie zwei Isolaten aus dem Vereinigten Königreich. Ohne Selektionsdruck würde dies darauf hindeuten, dass diese Mutationen nur minimale Auswirkungen auf das Bakterienwachstum haben und unter Medikamentendruck selektiert werden könnten.

Abb. 3
Abbildung 3

Genetische Vielfalt von Wirkstoffzielen der nächsten Generation in der aktuellen Entwicklung – Genweite genetische Variation in (A) MmpL3, (B) LeuS, (C) DprE1 und (D) QcrB. Siehe ergänzende Abbildungen. S1 und S2 für die Sequenzausrichtung und vorhergesagte Arzneimittelbindungsregionen für LeuS und DprE1. Zu den Einsätzen gehören Regionen, von denen eine Interaktion mit Inhibitoren vorhergesagt wird und in denen Mutationen aus im Labor angepassten Resistenzstämmen identifiziert wurden.

Tabelle 1 Genetische Vielfalt klinischer Isolate im Vergleich zu bekannten Resistenz verleihenden Mutationen.

Das Oxaborol-Derivat GSK070 ist das fortschrittlichste von mehreren chemischen Serien, die auf LeuS (Rv0041) abzielen. Man geht davon aus, dass die Verbindungen innerhalb der Editierdomäne binden, und in In-vitro-Experimenten wurden mehrere zielbasierte Mutationen identifiziert, vorwiegend im verwandten Pathogen. M. abscessus14,15,16,17,18,19,20 (Abb. 3B; ergänzende Abb. S1; ergänzende Tabelle S2). Die auffälligsten genetischen Variationen, die nicht mit Arzneimittelresistenz zusammenhängen, wurden an den Positionen P54 (L4.2-assoziiert) und R403 (L2.2-assoziiert) beobachtet. Diese Mutationen traten meist in einer einzelnen Gruppe auf und entstanden daher wahrscheinlich nur in Abwesenheit von Selektionsdruck. Im Hinblick auf die Arzneimittelresistenz sind zwei Mutationen – V468L und K502E (entspricht V482 und K516 in M. Tuberkulose) – im Labor angepasst identifiziert M. abscessus In unserem Datensatz zur genetischen Vielfalt wurden resistente Stämme beobachtet (Tabelle 1). DprE1 (Rv3790) ist auch ein promiskuitives Ziel bei der Entdeckung von Tuberkulosemedikamenten, da mehrere Verbindungen dieses Ziel hemmen, darunter BTZ-043. Tatsächlich wurden eine Vielzahl von Mutationen, die eine Resistenz gegen DprE1-Inhibitoren bewirken, aus im Labor angepassten Resistenzstämmen identifiziert, die größtenteils mit der Bindungsregion der Verbindung assoziiert sind11,21,22,23,24,25,26 (Ergänzende Abbildung S2; ergänzende Tabelle S3). Es wurde eine signifikante Anreicherung von A356T beobachtet, die mit Isolaten aus L1.2.1.2 assoziiert war (Abb. 3C), es wurde jedoch keine genetische Varianz beobachtet, die mit bekannten Resistenz verleihenden Mutationen korrelierte. Schließlich das Cytochrom v. Chr1 Der Komplex, insbesondere die QcrB-Untereinheit (Rv2196), ist das Ziel mehrerer Verbindungen, einschließlich Q203, und im Q wurden mehrere Resistenz verleihende Mutationen identifiziertP (oder QO) Stelle, an der die Verbindungen voraussichtlich binden12,27,28,29,30,31,32,33,34,35,36 (Ergänzungstabelle S4). Während es bei diesem Ziel keine wesentliche Anreicherung der genetischen Varianz gab, wurden zwei bekannte Resistenz verleihende Mutationen – T313A und M342V – beobachtet (Tabelle 1; Abb. 3D; Ergänzungstabelle S4). Es ist erwähnenswert, dass bei allen hier diskutierten Wirkstoffzielen die genetische Varianz an den vorhergesagten Wirkstoffbindungsstellen im Vergleich zur umgebenden Proteinsequenz deutlich geringer war.