Specificity Determining Features at the Interface of Biomolecular Complexes as Regulators of Biological Functions
Ranga, Vipin (2023-01-13)
Ranga, Vipin
Åbo Akademi - Åbo Akademi University
13.01.2023
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-952-12-4254-0
https://urn.fi/URN:ISBN:978-952-12-4254-0
Tiivistelmä
Amino acid residues at the biomolecular interface play essential roles in many biological and cellular processes; relevant to this thesis, protein-protein interactions regulate signaling pathways and enzymatic activity, whereas protein-DNA interactions control gene expression, and protein-peptide interactions are central to the immune system. Biomolecular recognition and binding stability are largely determined by residues at the molecular interface. In this thesis, we focused on three biological datasets that are related to humans and human health: 1) dysregulated citrullination in the inflamed joints of rheumatoid arthritis patients, 2) a novel family of PRD-like transcription factors critical to the first few cell divisions in human life, and 3) epitopes that likely activate a cytotoxic T cell-mediated immune response against SARS-CoV-2 infection. For each dataset, in order to study the structural and functional consequences of molecular interactions, we applied a wide range of bioinformatics techniques to analyze sequences, structures and biological data retrieved from various databases, as well as taking into account experimental results from collaborators and from the literature.
In rheumatoid arthritis, normally cytoplasmic peptidylarginine deiminase (PAD) enzymes citrullinate arginine residues in extracellular matrix (ECM) proteins. To examine specificity determining features that regulate the citrullination activity, we analyzed the sequence and structure data of the ECM proteins that were found citrullinated in chronically inflamed human joints. For citrullination, we found that an arginine side chain needs to be exposed to solvent but can arise from β-strands, α-helices, loops and β-turns. Moreover, there is no sequence motif linked to enzymatic activity. In addition, we studied the effect of citrullination on proteins important for a normal ECM, focusing on integrin binding to fibronectin and transforming growth factor-β (TGF-β). Citrullination of these proteins was found to inhibit cell attachment and spreading since PAD-treatment of the isoDGR motif in fibronectin and the RGD motif in TGF-β significantly reduced their binding with integrin αVβ3 and αVβ6, respectively.
The expression of the human paired (PRD)-like transcription factors (TFs) are limited to the period of embryonic genome activation up to the 8-cell stage. We identified that one of these PRD-like TFs, LEUTX, binds to a TAATCC sequence motif. Sequence comparisons revealed that LEUTX protein is comprised of two domains: the DNA-binding homeodomain and a Leutx domain containing a transactivation domain. We identified specificity determining residues in the LEUTX homeodomain that are important for recognition of the TAATCC-containing 36 bp DNA motif enriched in genes involved in embryonic genome activation. We demonstrated using molecular models why a heterozygotic missense mutation A54V at the DNA-specificity determining position of LEUTX has significantly reduced overall transcriptional activity, as well as why the double mutant – I47T and A54V – form of LEUTX restores binding to the DNA motif similarly to that seen in the I47T mutation alone.
At the onset of the COVID-19 pandemic we sought to understand the molecular factors that trigger the cytotoxic T cell-mediated immune response against the SARS-CoV-2 virus, taking advantage of binding data and 3D structures for related viruses and other pathogenic organisms. We first predicted the MHC class I (MHC-I)-specific immunogenic epitopes of length 8- to 11 amino acids from the SARS-CoV-2 proteins. Next, we predicted that the 9-mer epitopes would have the highest potential to elicit a strong immune response. For experimental validation, the predicted 9-mer epitopes were matched with the SARS-CoV-derived epitopes that are known to elicit an effective T cell response in vitro. Furthermore, our observations provide a structural explanation for the binding of SARS-CoV-2 epitopes to MHC-I molecules, identifying conserved immunogenic epitopes essential for understanding the pathogenesis of COVID-19.
The three investigated datasets were made in concert with collaborative experimental studies and/or considering publicly available experimental data. The experimental studies generally provided the starting point for the in silico studies, which in turn had the objective of providing a detailed explanation of the experimental results. Furthermore, the in silico results could be used to devise novel and focused experiments, suggesting that bioinformatics predictions and wet-laboratory experimental investigations optimally take place with multiple advantages. Overall, this thesis demonstrates the synergy that is possible by applying this interdisciplinary approach to understanding the consequences of molecular interactions. Aminosyror i kontaktytan mellan olika biomolekyler spelar en viktig roll i många biologiska och cellulära processer; relevanta interaktioner för den här avhandlingen är protein-protein interaktioner som reglerar signaleringsrutter och enzymatisk aktivitet, protein-DNA interaktioner som kontrollerar genexpression, samt protein-peptid interaktioner som har en central roll i immunförsvaret. Biomolekylär igenkänning och bindningsstabilitet beror till stor del på de aminosyror som finns i den molekylära kontaktytan. I den här avhandlingen fokuserade vi på tre biologiska dataset som är relaterade till människor och människors hälsa: 1) felreglerad citrullinering i inflammerade leder hos patienter med reumatoid artrit, 2) en nyupptäckt familj av PRD (human paired)-lika transkriptionsfaktorer som är nödvändiga för de första celldelningarna i människolivet, och 3) epitoper som troligen aktiverar en cytotoxisk T-cell-förmedlad immunrespons mot SARS-CoV-2 infektioner. För att studera de strukturella och funktionella konsekvenserna av de molekylära interaktionerna i varje dataset, användes en mängd olika bioinformatiska tekniker för att analysera sekvenser, strukturer och biologiska data från olika databaser och dessutom beaktades experimentella resultat från samarbetspartners och från litteraturen.
I reumatoid artrit citrullinerar vanligen PAD (cytoplasmatiska peptidyl arginin deiminas)-enzymer arginin-aminosyror i proteiner i det extracellulära matrixet (ECM). För att undersöka egenskaper som avgör specificiteten hos citrullineringsaktiviteten analyserade vi sekvens- och strukturdata för ECM-proteiner som blir citrullinerade i kroniskt inflammerade leder hos människor. Vi upptäckte att en argininsidokedja måste vara i kontakt med det omgivande lösningsmedlet för att kunna citrullineras, att de kan finnas i beta-strängar, alfa-helixar och beta-svängar, samt att det inte finns några sekvensmotiv som är kopplade till enzymatisk aktivitet. Utöver detta studerade vi effekten av citrullinering på proteiner som är viktiga för normal extracellulär matrix, med fokus på integrinbinding till fibronektin och TGF-β (transforming growth factor-β). Citrullinering av dessa proteiner upptäcktes inhibera cellvidhäftning och spridning eftersom PAD-behandling av isoDGR-motivet i fibronektin och RGD-motivet i TGF-β ordentligt reducerar deras bindning till integrin αVβ3 och αVβ6, respektive.
Expressionsnivåerna av PRD-lika transkriptionsfaktorer (TF) är begränsade till perioden av zygotens genomaktivering upp till 8-cells stadiet. Vi identifierade att en av dessa PRD-lika transkriptionsfaktorer, LEUTX, binder till ett TAATCC sekvensmotiv. Sekvensjämförelser avslöjade att LEUTX proteinet består av två domäner, det DNA-bindande homeodomänet och en leutx-domän som innehåller en transaktiveringsdomän. Vi identifierade specificitetsbestämmande aminosyror i LEUTX homeodomänen som är viktiga för igenkänning av TAATCC-innehållande 36 baspars DNA-motivet som är berikad med gener involverade i zygotens genomaktivering. Vi använde molekylära modeller för att visa varför en heterozygotisk missense-mutation, A54V, i DNA-specificitetsbestämmande positionen i LEUTX har ordentligt minskad generell transkriptionsaktivitet, och varför dubbelmutanten I47T och A54V återställer bindning till DNA-motivet på samma sätt som observerats i enbart I47T mutationen.
När COVID-19 pandemin inleddes försökte vi förstå de molekylära faktorer som startar den cytotoxiska T-cell-förmedlade immunresponsen mot SARS-CoV-2 viruset, genom att utnyttja bindningsdata och 3D strukturer för relaterade virus och andra patogena organismer. Vi förutspådde först MHC klass I (MHC-I)-specifika immunogena epitoper av längden 8 till 11 aminosyror från SARS-CoV-2 proteiner. Därefter förutspådde vi att epitoper bestående av 9 aminosyror hade den högsta potentialen att orsaka en stark immunrespons. För experimentell validering matchades de 9 aminosyror långa epitoperna med epitoper från SARS-CoV som man vet att orsakar en effektiv T-cell respons in vitro. Våra observationer bidrar också med en strukturell förklaring för bindningen av SARS-CoV-2 epitoper till MHC-I molekyler, vilket identifierar konserverade immunogena epitoper som är nödvändiga för att förstår patogenesen hos COVID-19.
De tre undersökta dataseten gjordes i samarbete med experimentella studier och/eller genom att ta allmänt tillgängliga experimentella data i beaktande. De experimentella studierna gav en startpunkt för in silico-studierna, vilka i sin tur hade som mål att ge en detaljerad förklaring till de experimentella resultaten. In silico-resultaten kan också användas för att utveckla nya och fokuserade experiment, vilket indikerar att bioinformatiska förutspåelser och experimentella studier optimalt sker med många fördelar. Över lag visar denna avhandling synergin som är möjlig genom att använda detta interdisciplinära arbetssätt för att förstå konsekvenserna av molekylära interaktioner.
In rheumatoid arthritis, normally cytoplasmic peptidylarginine deiminase (PAD) enzymes citrullinate arginine residues in extracellular matrix (ECM) proteins. To examine specificity determining features that regulate the citrullination activity, we analyzed the sequence and structure data of the ECM proteins that were found citrullinated in chronically inflamed human joints. For citrullination, we found that an arginine side chain needs to be exposed to solvent but can arise from β-strands, α-helices, loops and β-turns. Moreover, there is no sequence motif linked to enzymatic activity. In addition, we studied the effect of citrullination on proteins important for a normal ECM, focusing on integrin binding to fibronectin and transforming growth factor-β (TGF-β). Citrullination of these proteins was found to inhibit cell attachment and spreading since PAD-treatment of the isoDGR motif in fibronectin and the RGD motif in TGF-β significantly reduced their binding with integrin αVβ3 and αVβ6, respectively.
The expression of the human paired (PRD)-like transcription factors (TFs) are limited to the period of embryonic genome activation up to the 8-cell stage. We identified that one of these PRD-like TFs, LEUTX, binds to a TAATCC sequence motif. Sequence comparisons revealed that LEUTX protein is comprised of two domains: the DNA-binding homeodomain and a Leutx domain containing a transactivation domain. We identified specificity determining residues in the LEUTX homeodomain that are important for recognition of the TAATCC-containing 36 bp DNA motif enriched in genes involved in embryonic genome activation. We demonstrated using molecular models why a heterozygotic missense mutation A54V at the DNA-specificity determining position of LEUTX has significantly reduced overall transcriptional activity, as well as why the double mutant – I47T and A54V – form of LEUTX restores binding to the DNA motif similarly to that seen in the I47T mutation alone.
At the onset of the COVID-19 pandemic we sought to understand the molecular factors that trigger the cytotoxic T cell-mediated immune response against the SARS-CoV-2 virus, taking advantage of binding data and 3D structures for related viruses and other pathogenic organisms. We first predicted the MHC class I (MHC-I)-specific immunogenic epitopes of length 8- to 11 amino acids from the SARS-CoV-2 proteins. Next, we predicted that the 9-mer epitopes would have the highest potential to elicit a strong immune response. For experimental validation, the predicted 9-mer epitopes were matched with the SARS-CoV-derived epitopes that are known to elicit an effective T cell response in vitro. Furthermore, our observations provide a structural explanation for the binding of SARS-CoV-2 epitopes to MHC-I molecules, identifying conserved immunogenic epitopes essential for understanding the pathogenesis of COVID-19.
The three investigated datasets were made in concert with collaborative experimental studies and/or considering publicly available experimental data. The experimental studies generally provided the starting point for the in silico studies, which in turn had the objective of providing a detailed explanation of the experimental results. Furthermore, the in silico results could be used to devise novel and focused experiments, suggesting that bioinformatics predictions and wet-laboratory experimental investigations optimally take place with multiple advantages. Overall, this thesis demonstrates the synergy that is possible by applying this interdisciplinary approach to understanding the consequences of molecular interactions.
I reumatoid artrit citrullinerar vanligen PAD (cytoplasmatiska peptidyl arginin deiminas)-enzymer arginin-aminosyror i proteiner i det extracellulära matrixet (ECM). För att undersöka egenskaper som avgör specificiteten hos citrullineringsaktiviteten analyserade vi sekvens- och strukturdata för ECM-proteiner som blir citrullinerade i kroniskt inflammerade leder hos människor. Vi upptäckte att en argininsidokedja måste vara i kontakt med det omgivande lösningsmedlet för att kunna citrullineras, att de kan finnas i beta-strängar, alfa-helixar och beta-svängar, samt att det inte finns några sekvensmotiv som är kopplade till enzymatisk aktivitet. Utöver detta studerade vi effekten av citrullinering på proteiner som är viktiga för normal extracellulär matrix, med fokus på integrinbinding till fibronektin och TGF-β (transforming growth factor-β). Citrullinering av dessa proteiner upptäcktes inhibera cellvidhäftning och spridning eftersom PAD-behandling av isoDGR-motivet i fibronektin och RGD-motivet i TGF-β ordentligt reducerar deras bindning till integrin αVβ3 och αVβ6, respektive.
Expressionsnivåerna av PRD-lika transkriptionsfaktorer (TF) är begränsade till perioden av zygotens genomaktivering upp till 8-cells stadiet. Vi identifierade att en av dessa PRD-lika transkriptionsfaktorer, LEUTX, binder till ett TAATCC sekvensmotiv. Sekvensjämförelser avslöjade att LEUTX proteinet består av två domäner, det DNA-bindande homeodomänet och en leutx-domän som innehåller en transaktiveringsdomän. Vi identifierade specificitetsbestämmande aminosyror i LEUTX homeodomänen som är viktiga för igenkänning av TAATCC-innehållande 36 baspars DNA-motivet som är berikad med gener involverade i zygotens genomaktivering. Vi använde molekylära modeller för att visa varför en heterozygotisk missense-mutation, A54V, i DNA-specificitetsbestämmande positionen i LEUTX har ordentligt minskad generell transkriptionsaktivitet, och varför dubbelmutanten I47T och A54V återställer bindning till DNA-motivet på samma sätt som observerats i enbart I47T mutationen.
När COVID-19 pandemin inleddes försökte vi förstå de molekylära faktorer som startar den cytotoxiska T-cell-förmedlade immunresponsen mot SARS-CoV-2 viruset, genom att utnyttja bindningsdata och 3D strukturer för relaterade virus och andra patogena organismer. Vi förutspådde först MHC klass I (MHC-I)-specifika immunogena epitoper av längden 8 till 11 aminosyror från SARS-CoV-2 proteiner. Därefter förutspådde vi att epitoper bestående av 9 aminosyror hade den högsta potentialen att orsaka en stark immunrespons. För experimentell validering matchades de 9 aminosyror långa epitoperna med epitoper från SARS-CoV som man vet att orsakar en effektiv T-cell respons in vitro. Våra observationer bidrar också med en strukturell förklaring för bindningen av SARS-CoV-2 epitoper till MHC-I molekyler, vilket identifierar konserverade immunogena epitoper som är nödvändiga för att förstår patogenesen hos COVID-19.
De tre undersökta dataseten gjordes i samarbete med experimentella studier och/eller genom att ta allmänt tillgängliga experimentella data i beaktande. De experimentella studierna gav en startpunkt för in silico-studierna, vilka i sin tur hade som mål att ge en detaljerad förklaring till de experimentella resultaten. In silico-resultaten kan också användas för att utveckla nya och fokuserade experiment, vilket indikerar att bioinformatiska förutspåelser och experimentella studier optimalt sker med många fördelar. Över lag visar denna avhandling synergin som är möjlig genom att använda detta interdisciplinära arbetssätt för att förstå konsekvenserna av molekylära interaktioner.