Zeng, An-PingAn-PingZeng11381282790000-0001-9768-7096Song, LifuLifuSong2018-06-072018-06-072018http://tubdok.tub.tuhh.de/handle/11420/1671Diese Doktorarbeit besteht aus drei Hauptteilen mit dem Generalziel, Biomoleküle und biologische Systeme auf Systemebene zu analysieren bzw. zu programmieren. Im ersten Teil dieser Arbeit wurden vergleichende genomische Untersuchungen von Mutans - Streptokokken - Stämmen, die an der Entstehung von Karies beteiligt sind, durchgeführt, um deren Pathogenität auf systembiologischer Ebene besser zu verstehen. Genom-Alignment ergab eine mosaikartige Struktur der Genomanordnung. Gene, die mit der Pathogenität in Zusammenhang stehen, weisen hohe Variationen unter den Stämmen auf, wohingegen Gene für die Resistenz gegen oxidativen Stress gut konserviert sind, was die Bedeutung dieses Merkmals in der dentalen Biofilm-Gemeinschaft anzeigt. Die Analyse genomweiter metabolischer Netzwerke zeigte signifikante Unterschiede in 42 Signalwegen. Eine bemerkenswerte Besonderheit ist die einzigartige Anwesenheit von zwei Lactatoxidasen in S. sobrinus DSM 20742, was wahrscheinlich auf eine ungewöhnliche Fähigkeit dieses Stamms hinweist, H2O2 zu produzieren und seine ökologische Nische zu erweitern. Zusätzlich können Lactatoxidasen einen einzigartigen energetischen Weg mit anderen Enzymen in S. sobrinus DSM 20742 bilden, der seinen Mangel im Citratverwertungsweg beheben kann. Unter Verwendung von derzeit verfügbaren 67 S. mutans-Genomen, einschließlich der in dieser Studie sequenzierten Stämme, wurde die theoretische Kerngenomgröße von S. mutans geschätzt und eine Modellierung von S. mutans pan-genom durch Anwendung verschiedener Fitting-Modelle durchgeführt. Ein "offenes" Pan-Genom wurde gezeigt. Eine Online-Regulierungsdatenbank für Streptococcus, genannt StrepReg, wurde durch Integration eines Transkriptionsfaktor-basierten Genregulationsnetzwerkes, das aus einer zeitreihen Transkriptomanalyse in Zusammenarbeit mit Projektpartnern abgeleitet wurde (http://biosystem.bt1.tu-harburg.de:1555/homes/). Obwohl die Systembiologie ein sehr nützliches Werkzeug ist, um das Systemverhalten von biologischen Systemen zu verstehen, ist die Etablierung von prädiktiven Multiskalenmodellen aufgrund der Komplexität biologischer Systeme immer noch eine große Herausforderung. Aus dem gleichen Grund scheitern mathematische Modelle oft für Anwendungen unter physiologische Bedingungen, wie z.B. bei der Identifizierung von Targets in Metabolic Engineering für die Entwickelung von Hochleistungsproduktionsstämmen. Zur Lösung der Probleme wurde im zweiten Teil dieser Arbeit ein neuartiges Mehrfach Input-Output (I/O) System vorgeschlagen und verifiziert, das verschiedene genetische Manipulationen in die Zellen einbringen und die entsprechenden intrazellulären Signaländerungen aufzeichnen kann, mit dem Ziel, Schlüsselreaktionen bzw. Enzyme in Stoffwechselwegen in E. coli zu identifizieren und Biomoleküle zu optimieren. Die Grundidee dabei war, die Interaktionen von Phagen mit E. coli-Zellen zu gestalten und zu nutzen. Konkret wurde ein Mehrfach-I/O-System unter Verwendung verschiedener M13-Phagenderivate implementiert, die verschiedene genetische Modifikationen (Störungen) in E. coli-Zellen nach einer Phageninfektion einführen können, wie etwa eine Aufwärts- oder Abwärtsregulierung spezifischer Genexpressionen. Unter Verwendung eines rational entworfenen biologischen Schaltkreises wurden die intrazellulären Signalveränderungen nach der Einführung von Störungen durch Phageninfektion mit dem Phagenreproduktionsprozess verknüpft. Dies bedeutet, dass Signaländerungen, die durch spezifische Störungen verursacht werden, mit den spezifischen Phagenpopulationen verbunden sind, die die entsprechenden Störungen einführen. Mit anderen Worten werden die verschiedenen Signale in Formen von entsprechenden Populationen von Phagenderivaten "aufgezeichnet". Die Nützlichkeit des Mehrfach-I/O-Systems wurde in drei Anwendungen gezeigt, d.h. Identifizierung von vorteilhaften genetischen Manipulationen, paralleler Bewertung verschiedener Designs von Biomolekülen und parallelem Screening von Schlüsselenzymen für die L-Lysin-Biosynthese in E. coli. Verschiedene Genoperationen, die mit der L-Lysinbiosynthese in E. coli verwandt waren oder nicht, wurden als Inputs verwendet und die intrazellulären Lysinkonzentrationsänderungen wurden verwendet, um Ausgangssignale auszulösen. Korrekte Vorhersagen von vorteilhaften genetischen Manipulationen für eine erhöhte Lysinproduktion in E. coli wurden erzielt. Neue und effektive Varianten eines Schlüsselenzyms Aspartatkinase III (AK-III), das durch L-Lysin streng gehemmt wird, wurden parallel erhalten und ausgewertet. Es ist anzumerken, dass das I/O-System eine besonders hohe Empfindlichkeit bei der Erfassung von Signaländerungen aufweist, die durch die eingeführten bestimmten Störungen verursacht werden. Der in dieser Arbeit entwickelte Ansatz eröffnet neue Möglichkeiten in Systems Metabolic Engineering und synthetischer Biologie industrieller Mikroorganismen für praktische Anwendungen. Im dritten Teil dieser Arbeit wurde ein neuartiges selbstfehlererkennendes Drei-BasenBlock-Codierungsschema (SED3B) für eine zuverlässige Informationscodierung in DNA, insbesondere für Anwendungen in lebenden Zellen vorgeschlagen und verifiziert, das die inhärente Redundanz der DNA-Synthese zur Fehlerkorrektur in der DNA-Datenspeicherung voll ausnutzt. Zusätzlich zu der hohen Fehlertoleranz wurde gezeigt, dass SED3B-codierte Sequenzen sich von den natürlich gebildeten DNA-Sequenzen grundsetzlich unterscheiden, was zum ersten Mal eine geringe biologische Relevanz der zu diesem Zweck codierten Sequenzen anzeigt. Merkmale, wie die effektive Fehlertoleranz und die geringe biolo-gische Relevanz, machen SED3B zu einer ansprechenden Lösung für die orthogonale Informationscodierung in lebenden Zellen mit geringen bzw. keinen Beeinträchtigungen ihrer biologischen Funktionen, z. als Kommentarsprache beim Programmieren von Zellen in vivo und für ein biologisches barcoding. Basierend auf einem fehleranfälligen PCRExperiment wurde geschätzt, dass mehr als 12.000 Jahre kontinuierlicher Replikation erforderlich wären, um die SED3B-codierte Information in E. coli-Zellen zu verlieren. Um die Verwendung von SED3B als Kommentar- und Barcode-Kodierungssystem in der synthetischen Biologie zu erleichtern, wurde ein Online-Kodierungs-Dekodierungssystem implementiert und unter http://biosystem.bt1.tu-harburg.de/sed3b veröffentlicht. Im Prinzip ist SED3B auch für eine in vitro große Datenspeicherung in synthetisierter DNA anwendbar. Obwohl weitere Untersuchungen erforderlich sind, zeigen erste Ergebnisse, dass SED3B ein gutes Potenzial zur Erhöhung der Speicherdichte auf mehrere extaabytes (EBs) pro Gramm DNA hat, was theoretisch viel höher ist als bei den bekannten Methoden für digitale DNA-Informationskodierung.This thesis is consisted of three major but different parts with the general aims of systems level evaluation and engineering of biomolecules and biological systems. In the first part of this thesis, comparative genomic studies of mutans streptococci strains, which are involved in the development of dental caries, were performed for better understanding their pathogenicity at the level of systems biology. A mosaic-like structure of genome arrangement was revealed by genome alignment analysis. Genes related to pathogenicity were found to have high variations among the strains, whereas genes for oxidative stress resistance are well conserved, indicating the importance of this trait in the dental biofilm community. Genome-scale metabolic network analysis revealed significant differences in 42 pathways. A striking dissimilarity is the unique presence of two lactate oxidases in S. sobrinus DSM 20742, probably indicating an unusual capability of this strain in producing H2O2 and expanding its ecological niche. In addition, lactate oxidases may form a unique energy-producing pathway with other enzymes in S. sobrinus DSM 20742 that can remedy its deficiency in citrate utilization pathway. An "open" pan-genome was inferred by pan-genome analysis using 67 S. mutans genomes currently available including the strains sequenced in this study. An online regulation database for S. mutans, named StrepReg, was constructed by integrating a transcription factor-based gene regulatory network, which was derived from time-series transcriptome analysis, with STRING protein-protein interaction information and KEGG pathway information (http://biosystem.bt1.tu-harburg.de:1555/homes/). Although systems biology is a powerful tool in understanding the system level behaviors of biological systems, the establishment of predictive, multiscale models in systems biology is still a challenge due to the complexity of biological systems. For the same reason, mathematical models often fail in applications under physiological conditions, such as for identification of targets in metabolic engineering for the development of highly production strains. In the second part of this thesis, a novel multiple input-output (I/O) system was therefore proposed and verified, which allows the identification of limiting bioreactions or key enzymes in metabolic pathways and even the optimization of biomolecules in vivo. The basic idea is to design a multiple I/O system which can introduce various genetic manipulations (perturbations) into the cells and record the specific intracellular signal changes correspondingly. This was achieved by engineering the interactions of phage with E. coli cells. Specifically, a multiple I/O system was implemented using M13 phage derivatives which can introduce various perturbations into E. coli cells after infection, such as up- or down-regulation of specific gene expressions. Using a rationally designed biological circuit, the intracellular signal changes after introduction of the perturbations by the phage infection were linked to the phage reproduction process. This means, signal changes caused by specific perturbations are linked to the specific populations of phages introducing the corresponding perturbations. In this way, the various signals are ‘recorded’ in forms of corresponding populations of phage derivatives. The usefulness of the multiple I/O system was demonstrated with three applications, i.e. identification of beneficial genetic manipulations, parallel evaluation of various designs of enzymes, and parallel screening of key enzymes for L-lysine biosynthesis in E. coli. Various gene operations related or not related to L-lysine biosynthesis in E. coli were used as inputs and the intracellular lysine concentration changes were used to trigger output signals. Correct predictions of beneficial genetic manipulations for enhanced lysine production in E. coli were achieved. New and effective variants of a key enzyme aspartate kinase III (AK-III), which is strictly inhibited by L-lysine, were obtained and evaluated in parallel. Importantly, the I/O system shows a ultra-sensitivity in capturing signal changes caused by the certain perturbations introduced. The approach developed in this work opens up new possibilities in systems metabolic engineering and synthetic biology of industrial microorganisms for practical applications. In the third part of this thesis, a novel self-error-detecting, three-base block encoding scheme (SED3B), which takes full advantage of the inherent redundancy feature of DNA synthesis for error correction, was proposed for reliable information encoding in DNA of living cells. In addition to the high error tolerance, SED3B encoded sequences were shown to be orthogonal to natural DNA sequences, indicating for the first time a low biological relevance of the encoded sequences. Features such as effective error tolerance and low biological relevance make SED3B an appealing solution for orthogonal information encoding in living cells with low or no affections to their biological functions, e.g. as a comment language in programming cells in vivo and for biological barcode encoding. Based on error-prone PCR experiments it was estimated that more than 12,000 years of continuous replication would be required to make the SED3B encoded information in E. coli cells become unrecoverable. To facilitate the usage of SED3B as a comment and barcode encoding system in synthetic biology, an online encoding-decoding system was implemented and released at http://biosystem.bt1.tu-harburg.de/sed3b. In principle, SED3B is also applicable for in vitro large data storage in synthesized DNA. Although further investigation is required, preliminary analysis shows that SED3B has a great potential for increasing the storage density to over several exabytes (EBs) per gram DNA which is theoretically much higher than that of methods reported in literature so far.enhttp://rightsstatements.org/vocab/InC/1.0/biotechnologysystems biologysynthetic biologyBiowissenschaften, BiologieMedizinAnalysis and engineering of biomolecules and microorganisms: from genome-scale study of pathogens to programming of DNA and cellsDoctoral Thesisurn:nbn:de:gbv:830-8822117210.15480/882.166811420/167110.15480/882.1668Wittmann, ChristophChristophWittmannPhD Thesis