Informatie

Toegankelijkheid van oplosmiddelen, de 20% cut-off methode

Toegankelijkheid van oplosmiddelen, de 20% cut-off methode


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ik lees de artikelen die hieronder zijn gelinkt en alle drie noemen ze een grens van 20% voor begraven/blootgestelde resten, door een relatieve toegankelijkheid voor oplosmiddelen (RSA) te berekenen.

Ik begrijp hoe de RSA wordt berekend door de berekende toegankelijkheid voor oplosmiddelen te delen tegen de totale toegankelijkheidswaarden voor oplosmiddelen uit papier 4, tabel 2.

RSA = berekend/totaal

bijv. als berekend is dat arginine een oplosmiddeltoegankelijkheid van 55,43 heeft en de totale oplosmiddeltoegankelijkheid 241 is, dan is de RSA = 55,43/241 = 23%, dus dit arginine wordt als blootgesteld beschouwd (zie verklaring 1 hieronder).

Wat me in de war brengt, is de definitie of het ontbreken van de 20%-methode voor het definiëren van een blootgesteld of begraven residu.

Ik neem aan dat het een van de volgende betekent:

  1. Als een RSA van een aminozuur lager is dan 20%, wordt het begraven en boven 20% wordt het blootgesteld. Dus voor een aminozuur met een RSA van 21% dat als blootgesteld wordt beschouwd, lijkt deze waarde mij wat laag. Ik denk dat stelling 2 logisch zou zijn.

  2. Als een RSA van een aminozuur lager is dan 20%, wordt het begraven en boven 80% wordt het blootgesteld.

Welke stelling is eventueel juist?

Paper 1 - zie methode sectie eerste alinea

Papier 2 - zie figuur 5 en tabel 3

Paper 3 - zie samenvatting en dataset

Papier 4 - zie tabel 2 voor totaalwaarden


Zijn 1. Onder cutoff, begraven, boven cutoff toegankelijk.

Paper 1: "Er werd een grens van 20% gebruikt om de twee toestanden te definiëren, begraven of blootgesteld. Met deze definitie werd de dataset ruwweg gelijk verdeeld over de twee staten."

Er zijn slechts twee toestanden mogelijk: toegankelijk voor oplosmiddel en begraven.

Paper 2: "Een bepaald residu wordt gedefinieerd als blootgesteld (e) als de RSA groter is dan de grenswaarde, en anders wordt het gedefinieerd als begraven (B)."

Samenvatting voor papier 3: een cutoff van 20% voor tweestaten definitie van de toegankelijkheid van oplosmiddelen.

Als het def #2 was, zou het een definitie van drie staten zijn.

Paper 4: "Gemiddeld kan 15% van de residuen in kleine eiwitten en 32% in grotere eiwitten worden geclassificeerd als "begraven residuen", waarbij minder dan 5% van hun oppervlak toegankelijk is voor het oplosmiddel ... "

Dit artikel, door de decaan van structurele analyse Cyrus Chothia, gebruikt een afkapwaarde van 5%, niet 20%...

Het abstract gaat verder met te zeggen... "De toegankelijkheid van de meeste andere residuen is gelijkmatig verdeeld in het bereik van 5 tot 50%."

Deze passage laat doorschemeren dat SA niet eens tot 80% stijgt. Als je bedenkt dat je met deze berekening vaak niet meer dan zeg 60% krijgt. Ik gok maar; maar de gedachte is dat, tenzij je aan het uiteinde van het eiwit bent, dat vaak ongeordend is en niet in een kristalstructuur verschijnt, je voor elk residu twee aangrenzende aminozuren zult hebben - alleen het voor oplosmiddel toegankelijke gebied dat wordt ingenomen door de contact met buren zou gemakkelijk 20% van het totaal kunnen zijn.


Weet u zeker dat de RSA-formule klopt? Ik heb een andere beschrijving gevonden: relatieve toegankelijkheidsklassen voor oplosmiddelen worden gewoonlijk afgeleid van het DSSP-programma door het te normaliseren op de maximale waarde van het blootgestelde oppervlak dat voor elk residu kan worden verkregen. Er worden verschillende willekeurige drempelwaarden voor de toegankelijkheid van oplosmiddelen gekozen om binaire categorieën (begraven en blootgesteld) of ternaire categorieën (begraven, gedeeltelijk blootgesteld of blootgesteld).

Pollastri, G., Baldi, P., Fariselli, P., & Casadio, R. (2002). Voorspelling van coördinatiegetal en relatieve toegankelijkheid van oplosmiddelen in eiwitten. Eiwitten: structuur, functie en bio-informatica, 47 (2), 142-153.


Voorspelling van de toegankelijkheid van eiwitoplosmiddel met behulp van ondersteunende vectormachines

Een Support Vector Machine learning-systeem is getraind om de toegankelijkheid van eiwitoplosmiddel vanuit de primaire structuur te voorspellen. Verschillende kernelfuncties en schuifvenstergroottes zijn onderzocht om te ontdekken hoe ze de voorspellingsprestaties beïnvloeden. Met behulp van een afkapdrempel van 15% die de dataset gelijkmatig verdeelt (een gelijk aantal blootgestelde en begraven residuen), kon deze methode een voorspellingsnauwkeurigheid bereiken van 70,1% voor invoer van één sequentie en 73,9% voor invoer van sequenties met meerdere uitlijningen, respectievelijk. De voorspelling van drie en meer toestanden van toegankelijkheid van oplosmiddelen werd ook bestudeerd en vergeleken met andere methoden. De voorspellingsnauwkeurigheden zijn beter dan of vergelijkbaar met die verkregen met andere methoden zoals neurale netwerken, Bayesiaanse classificatie, meervoudige lineaire regressie en informatietheorie. Bovendien suggereren onze resultaten verder dat dit systeem kan worden gecombineerd met andere voorspellingsmethoden om betrouwbaardere resultaten te bereiken, en dat de Support Vector Machine-methode een zeer nuttig hulpmiddel is voor biologische sequentieanalyse.


Invoering

Een palindroom verwijst naar een reeks tekens in een reeks die in beide richtingen hetzelfde leest. Palindromen zijn aanwezig in nucleïnezuur- en eiwitsequenties. Bijna 30% residuen in een eiwit zijn leden van peptide palindromen, tripeptidic en langer [1]. Palindromen met een lengte van meer dan 10 residuen zijn niet zeldzaam [2]. Naarmate de lengte van de palindroomsequentie afneemt, is bekend dat er meer palindromen in eiwitten voorkomen [3]. 26% eiwitsequenties in de SwissProt-database omvatten ten minste één palindroomherhaling [4]. Palindroomsequenties hebben een hoge neiging om α-helices te vormen [5]. Over het algemeen is de rol van palindroom in eiwitten niet duidelijk.

In de huidige studie hebben we bepaalde sequentie- en structurele eigenschappen geanalyseerd die geassocieerd zijn met palindromen in eiwitten, zoals de waarschijnlijkheid van het voorkomen van aminozuurresiduen op individuele posities in de palindroomsequenties van specifieke lengte, secundaire structuurconformatie, hydrofobiciteit, toegankelijkheid van oplosmiddelen, residubuurt contacten, interactie met residuen van de katalytische plaats of actieve plaats, ligand of metaal in eiwitten en het identificeren van eiwitfamilies die de palindromen omvatten. We bespreken deze kenmerken voor pentapeptide en grote palindromen die zijn geïdentificeerd in representatieve eiwitten met een bekende driedimensionale structuur. Verder onderzoeken we voor bepaalde illustratieve voorbeelden de 'omgeving' van palindromen die worden gekenmerkt door dezelfde lengte, sequentie en secundaire structuur in verschillende eiwitten.


Resultaten

Dataset van gebonden en ongebonden structuren

De dataset bestaat uit 126 eiwit-RNA-complexen waarvoor ten minste één interactiepartner beschikbaar is in de ongebonden vorm. Van deze 126 complexen zijn er 28 in klasse A, 5 in klasse B, 40 in klasse C en 53 in klasse D (zie de sectie Materialen en methoden en aanvullende tabel S1). Op basis van hun beschikbaarheid in de ongebonden vorm, vinden we 21 zijn van PuRu type, waarbij zowel het eiwit als het RNA beschikbaar zijn in de ongebonden vorm, 95 zijn van PuRB type, waarbij alleen het eiwit in de ongebonden vorm beschikbaar is, en 10 zijn van PBRu type, waarbij alleen het RNA beschikbaar is in de ongebonden vorm (tabel 1). Lokale uitlijning van de polypeptideketens tussen de ongebonden en de gebonden (U/B) structuren onthult dat 93 van de 116 sequentie-identiteit >gt98% hebben, terwijl de rest waarden tussen 90% en 98% heeft. Aan de andere kant heeft de sequentie-identiteit van 20 van de 31 U/B-paren van polynucleotiden waarden > gt98% en de rest heeft waarden tussen 90% en 98%. We hebben 896 (

6,7%) nucleotiden in de gehele dataset vanwege de mismatch in de uitlijning tussen U/B-paren.

Verandering in toegankelijkheid op de eiwit-RNA-interfaces

De algehele verandering in toegankelijkheid bij binding is een cumulatief effect van veel lokale conformationele herschikkingen. Sommige resten komen bloot te liggen door de andere te begraven of omgekeerd. Verandering in toegankelijkheid van de interface-atomen na binding werd berekend door hun SASA-waarden in gebonden en ongebonden toestanden te vergelijken. Gemiddeld krijgen RBP's 120,5 Å2 toegankelijkheid van oplosmiddelen aan het grensvlak na binding met RNA (tabel 1). We vinden dat in 92 van de 116 gevallen het interfacegebied van RBP's toegankelijk wordt na binding met een gemiddelde (delta _

^>) (zie de sectie Materialen en Methoden) van −172.0 Å 2 . In de overige 24 gevallen positieve veranderingen in (delta _

^>) worden waargenomen met een gemiddelde van 77,2 Å 2 , wat wijst op een verlies in toegankelijkheid op de interface. Gemiddeld krijgt het interfacegebied van RNA's 92,5 Å2 toegankelijkheid voor oplosmiddelen na binding met RBP's. De meerderheid van hen, 80% (25 van de 31), vertoont negatief (delta _^>) met een gemiddelde van −144,1 Å 2 (tabel 1). De rest, slechts 20%, vertoont positieve veranderingen met een gemiddelde van 122,7 Å 2 , wat wijst op een verlies aan toegankelijkheid.

Verdeling van verandering in toegankelijkheid in RBP's en RNA's na binding. (EEN) Correlatie tussen |∆AP| en |∆AR| op de eiwit-RNA-interfaces voor 21 UU-gevallen. De verschillende klassen van complexen worden weergegeven in verschillende symbolen. Verdelingen van δA in 116 RBP's en in 31 RNA's op het eiwit-RNA (B) interface en (C) niet-interface regio's.

Verandering in toegankelijkheid in de niet-interfaceregio

We hebben de verandering in toegankelijkheid van aminozuurresiduen en nucleotiden in het niet-interfacegebied geschat. Hier is de gemiddelde verandering in toegankelijkheid van RBP's slechts 3,4 2 (tabel 1), wat aanzienlijk lager is dan die van het interfacegebied. In de gehele dataset vertoont 50% RBP's negatieve veranderingen met een gemiddelde van −24,6 2 en 50% toont positieve veranderingen met een gemiddelde van 30,4 Å 2 . In het niet-interfacegebied van het RNA is de gemiddelde verandering in toegankelijkheid 40,3 2 . In de gehele dataset verliest de meerderheid (71%) van de RNA's toegankelijkheid bij binding met een gemiddelde (delta _^ >< m>< m>< m>>) van 67,3 Å 2 . Slechts negen RNA's (29%) vertonen negatieve veranderingen met een gemiddelde van −25,6 Å2.

Verdeling van δA in hoofdketen en zijketen berekend op 116 RBP's (EEN), en in fosfaat, suiker en basen berekend op 31 RNA's (B). De gemiddelde waarden worden weergegeven voor begraven (Bu) en blootgestelde (Ex) oppervlakken in grensvlakken en in niet-grensvlakgebieden van verschillende klasse van complexen.

Effect van conformatieverandering op toegankelijkheid

Conformationele veranderingen tussen ongebonden en gebonden vormen worden geschat in termen van: l-rmsd, wat de kwadratische afwijking is van interface Cα en P-atomen van respectievelijk aminozuren en nucleotiden. Op basis van de mate van conformationele veranderingen, kan de eiwit-RNA-binding worden ingedeeld in rigide lichaam (l-rmsd < 1,5 ), semi-flexibel (l -rmsd binnen 1,5 tot 3,0 ) en volledig flexibel (l-rmsd > 3.0 Å) 11,13 . Hoewel we de gemiddelde verandering vinden in (delta _

^>) is 96 Å 2 en −100,4 Å 2 voor respectievelijk starre en semi-flexibele bindingen, de verandering is significant hoger (−248 Å 2 ) voor volledig flexibele binding. We vinden een matige correlatie (R = 0,6) tussen (delta _

^>) en l-rmsd. Bovendien vinden we ook dat de verandering in de toegankelijkheid van de interface aanzienlijk wordt bijgedragen door de zijketenconformaties (Fig. 2A), die wordt genegeerd in l-rmsd berekening. Dit kan worden geïllustreerd in Fig. 3A, B, waar het tRNA-splitsende endonuclease een rigide lichaamsassociatie ondergaat (l-rmsd is 1.0 Å), maar de interface vertoont een significante verandering in toegankelijkheid ( (delta _

^>) is −410,7 Å 2 ) bij binding met zijn partner-RNA. Hier is de zijketen ( (delta _

^>) is −356 Å 2 ) is verantwoordelijk voor de grote verandering in toegankelijkheid dan zijn hoofdketen ( (delta _

^>) is −54.6 Å 2 ). Er worden ook tegenvoorbeelden waargenomen, waarbij de kleine verandering in de toegankelijkheid van de interface niet correleert met de hoge l-rmsd-waarden. Dit wordt geïllustreerd in ribosomaal L1-eiwit, dat een significante conformationele verandering ondergaat (l-rmsd is 5,1 ) bij binding met zijn partner-RNA, hoewel de verandering in toegankelijkheid slechts −2,2 Å 2 is. De N- en C-terminale domeinen van L1 zijn verbonden door een korte en een lange lus (figuur 3C). In de ongebonden vorm is het begraven oppervlak tussen deze twee domeinen erg klein. Bij binding met RNA fungeert de lange lus als een scharnier en beweegt beide domeinen uit elkaar om de RNA-binding te vergemakkelijken. Deze domeinverplaatsing leidt tot hogere l-rmsd zonder de algehele verandering in toegankelijkheid te beïnvloeden. Evenzo kunnen veranderingen in toegankelijkheid ook worden toegeschreven aan de ruggengraat en aan de conformationele veranderingen van suiker en basen van RNA. Voor een voorbeeld, E. coli Ras-achtig eiwit (ERA), dat fungeert als een chaperonne voor het vouwen en rijpen van 16S-rRNA, induceert een grote conformationele verandering in het 12-nucleotiden lange 3'-uiteinde van 16S-rRNA. Het RNA neemt een Z-achtige structuur aan na binding met het KH-domein van ERA 14 en de geschatte (delta _^>) is −311.7 Å 2 . De tweede U van het 5'-uiteinde van de sequentie van 12 nucleotiden verandert de conformatie van de base (anti-to-syn) en de suikerplooi (C2′-endo-naar-C3′-endo), en draagt ​​bij − 96.5 Å 2 verandering in toegankelijkheid (Fig. 3D).

Verandering in toegankelijkheid op lokale en globale conformatieverandering. (EEN) Gesuperponeerde structuren van RNA-splitsing endonuclease in gebonden 42 (in oranje, PDB id: 2GJW) en in ongebonden 43 (in cyaan, PDB id: 1R0V) conformaties met het RNA (weergegeven in grijs). Arg-nucleotide-Arg-sandwich op de splitsingsplaats van het nuclease wordt getoond. Beide Arg zijn gelabeld en weergegeven in stick. Door verandering in conformatie van R302 kan A13 (in blauw) uitsteken in de endonucleasepocket en worden gestapeld door de twee Arg. (B) Bovenaanzicht van de bovengenoemde structuur in bolweergave. Beide Arg worden in het geel weergegeven. In ongebonden structuur is de endonuclease-pocket niet toegankelijk voor het nucleotide. Verandering in exterieur van R302 maakt de pocket toegankelijker. (C) Ongebonden 44 (PDB id: 1AD2) en gebonden 45 (PDB id: 2HW8) structuren van ribosomaal eiwit L1 (in cyaan). De lus in het scharniergebied dat twee domeinen verbindt, is rood gekleurd. RNA-molecuul in de gebonden structuur wordt weergegeven in grijze cartoon. (NS) Gesuperponeerde structuren van ongebonden (PDB-id: 1SDR, in geel) en gebonden (PDB-id: 3IEV, in grijs) vormen van 12-nucleotiden lang 3'-uiteinde van 16S-rRNA met ERA. Eiwit wordt weergegeven in oranje cartoon.

Veranderingen in secundaire structurele elementen in RBP's bij binding

Conformatieveranderingen kunnen de secundaire structuren veranderen tijdens ongebonden naar gebonden overgang, wat leidt tot de verandering in toegankelijkheid. Figuur 4A toont het gemiddelde |ΔAP| is verantwoordelijk voor verschillende soorten overgangen in de secundaire structurele elementen bij binding. We vinden de gemiddelde verandering in toegankelijkheid op de interface het hoogst (|ΔAP| = 47,5 Å 2 ) in overgangen van lus-naar-helix gevolgd door in overgangen van helix-naar-lus (|ΔAP| = 41 Å 2 ) en van loop-to-sheet (|ΔAP| = 38,4 Å 2 ). Figuur 4B toont een voorbeeld van een lus-naar-helix-overgang waarbij de ongestructureerde α1-helix van L25-eiwit in de ongebonden toestand (PDB-id: 1B75) de spiraalvormige conformatie aanneemt na binding met de hoofdgroef van 5 s-rRNA (PDB-id: 1DFU ) 15 . De α1-helix verliest 230 Å2 bij binding met zijn partner-RNA. We hebben geen overgang van helix naar blad of vice versa gevonden op de interface.

Wijzigingen in |ΔA| vanwege de overgangen van secundaire structurele elementen in RBP's bij binding met RNA. (EEN) Gemiddeld |ΔA| berekend per transitie wordt gepresenteerd voor zowel interface- als niet-interfaceregio's. (B) Een lus-naar-helix overgang. Hier is de α1-helix van L25 (Lys14 tot Ala23, rood gekleurd) ongestructureerd in de ongebonden toestand (PDB id: 1B75), die een spiraalvormige conformatie aanneemt bij binding met de hoofdgroef van 5 s rRNA (PDB id: 1DFU ). (C) Een overgang van blad naar helix. Hier zijn Arg57 en Ala58 (weergegeven in rode stok) van de translatie-verlengingsfactor EF-Tu in bladconformatie in de ongebonden toestand (VOB-ID: 1TUI), die spiraalvormige conformaties aannemen na binding met het tRNA (Cys) (VOB-ID: 1B23 ). (NS) Een ander voorbeeld van een overgang van blad naar helix. Hier bevinden Ala85 en Val86 (weergegeven in rode stok) van CCA-toevoegend enzym zich in β-sheet conformaties in de ongebonden staat (PDB id: 1UET) van het enzym, die α-helix conformaties aannemen na binding met het t-RNA ( VOB-ID: 2DRB). In al deze figuren wordt het eiwit in gebonden en ongebonden toestand respectievelijk in oranje en groenblauw weergegeven en wordt het RNA in grijs weergegeven.

In het niet-interfacegebied wordt de grootste verandering in toegankelijkheid waargenomen in overgangen van blad-naar-helix (|ΔAP| = 64,9 Å 2 ). Deze verandering wordt waargenomen in de volgende vier residuen van twee verschillende RBP's. Twee residuen, Arg57 en Ala58 in translatie-verlengingsfactor EF-Tu (PDB id: 1TUI), ondergaan sheet-to-helix-overgangen na binding met het tRNA (Cys) (PDB id: 1B23) (Fig. 4C). De andere twee residuen, Ala85 en Val86 in de ongebonden toestand van het CCA-toevoegende enzym (PDB id: 1UET), ondergaan sheet-to-helix-overgangen na binding met het tRNA (PDB id: 2DRB) (Fig. 4D). Loop-to-helix-overgangen dragen ook aanzienlijk bij aan de verandering in toegankelijkheid (gemiddelde |ΔAP| = 34,3 Å 2 ) in de niet-interfacegebieden, terwijl overgangen van helix-naar-lus of lus-naar-sheet matig bijdragen.

Het effect van intermoleculaire H-bindingen op toegankelijkheid

We evalueren het effect van intermoleculaire H-bindingen op de verandering in de toegankelijkheid van oplosmiddelen van aminozuurresiduen en nucleotiden op de eiwit-RNA-interfaces. We vinden dat de verandering in toegankelijkheid significant is voor de residuen die niet betrokken zijn bij enige H-binding met de partnernucleotiden over de grensvlakken in vergelijking met die welke betrokken zijn bij H-binding (Fig. 5A). Deze trend wordt zowel in de gehele dataset als tussen de verschillende klassen waargenomen. Het gemiddelde |δAP| is 61,3 Å 2 voor residuen die betrokken zijn bij H-bindingen over het grensvlak, terwijl die die niet deelnemen aan H-bindingen gemiddeld 93 Å 2 hebben.

Verdeling van δA in hoofdketen en zijketen berekend op 116 RBP's (EEN), en in fosfaat, suiker en basen berekend op 31 RNA's (B). De gemiddelde waarden worden weergegeven voor begraven (Bu) en blootgestelde (Ex) oppervlakken van verschillende klasse van complexen. Waarden voor zowel H-binding (HB) als niet-H-binding (Non HB) residuen worden gegeven. neigingen van (C) aminozuurresten en (NS) nucleotiden worden blootgesteld of begraven bij binding.

Aan de RNA-kant is de verandering in toegankelijkheid significant hoger voor nucleotiden die niet betrokken zijn bij een H-binding in vergelijking met die welke betrokken zijn bij H-binding over het grensvlak (Fig. 5B). Dit fenomeen wordt zowel in de gehele dataset als tussen de verschillende klassen waargenomen. Interessant is dat er een andere trend wordt waargenomen in |δAR| tussen fosfaat, suiker en basen. Onder degenen die betrokken zijn bij H-bindingen over het grensvlak, is de grootste verandering in gemiddelde |δAR| wordt waargenomen in basen (38,3 2 ), gevolgd door fosfaat (32,5 Å 2 ) en suiker (14,4 Å 2 ). Integendeel, die nemen niet deel aan H-obligaties over het grensvlak, de hoogste verandering in gemiddelde |δAR| wordt waargenomen in basen (183,7 2 ), gevolgd door suiker (163 Å 2 ) en fosfaat (83,5 2 ).

Toegankelijkheid van residuen en nucleotiden na binding

De neiging van aminozuurresiduen om begraven of blootgesteld te worden na binding wordt getoond in Fig. 5C. Bij binding betekent een positieve neiging dat het residu er de voorkeur aan geeft om te worden blootgesteld, terwijl een negatieve neiging hun voorkeur aangeeft om begraven te worden. Van de positief geladen residuen vertoont Arg weinig voorkeur om zowel aan het grensvlak als aan de niet-grensvlakregio's begraven te worden, terwijl Lys een tegengestelde trend vertoont in beide regio's. Van de negatief geladen residuen vertoont Asp een sterke voorkeur om begraven te worden op het grensvlak, terwijl Glu een vergelijkbare voorkeur vertoont in het niet-grensvlakgebied, maar in mindere mate. Tussen Asn en Gln toont de eerste de voorkeur om alleen te worden blootgesteld aan de niet-interface, terwijl de laatste de voorkeur geeft om zowel bij de interface als in de niet-interfacegebieden begraven te worden. Onder de neutrale polaire residuen worden His en Thr liever blootgesteld, terwijl Ser er de voorkeur aan geeft om zowel aan het grensvlak als aan de niet-grensvlakgebieden begraven te worden. Van de drie aromatische residuen geven Tyr en Phe er allebei de voorkeur aan om blootgesteld te worden aan het grensvlak met een andere grootte, terwijl Trp er de voorkeur aan geeft begraven te worden op het grensvlak en blootgesteld te worden aan het niet-grensvlak. Zowel de zwavelhoudende residuen, Cys en Met, worden het liefst begraven zowel aan het grensvlak als aan de niet-grensvlakgebieden, maar met een andere grootte hebben de eerste een sterkere voorkeur dan de latere. Van de hydrofobe residuen worden Leu, Val en Ala het liefst blootgesteld aan zowel het grensvlak als het niet-grensvlak, terwijl Gly er de voorkeur aan geeft alleen aan het grensvlak te worden blootgesteld. Integendeel, Pro geeft er de voorkeur aan om zowel in de interface als in de niet-interfaceregio's begraven te worden. Als hij zich anders gedraagt, wordt hij liever begraven op de interface en wordt hij blootgesteld aan de niet-interfaceregio's.

Van de vier nucleotiden worden adenine en cytosine het liefst begraven op het grensvlak en worden blootgesteld aan de niet-grensvlakgebieden. Guanine wordt het liefst begraven, terwijl uracil er de voorkeur aan geeft zowel aan de interface als aan de niet-interfaceregio's te worden blootgesteld (Fig. 5D).

Verandering in SASA kan worden gebruikt als een parameter om eiwit-RNA-lokvogels te scoren

Door binding geïnduceerde conformationele overgangen leiden tot verandering in SASA van individuele atomen in interagerende subeenheden. Weinig atomen krijgen een toegankelijk oppervlak en weinigen verliezen. We vinden dat de gemiddelde winst-tot-verliesverhouding van het toegankelijke oppervlak (GL-verhouding) bij binding 1,7 en 1,0 is (p-waarde = 1,6E-04, enkelzijdige t-test) aan de interface en aan de niet-interfacegebieden, respectievelijk . In de meeste gevallen ligt de verhouding dicht bij één in het niet-interfacegebied. Deze verhouding is nooit gebruikt in beschikbare eiwit-RNA-docking-algoritmen 16 en kan efficiënt worden gebruikt om de flexibele docking-modellen te scoren om de bijna natieve oplossing te identificeren. Figuur 6A en 6B tonen de verdeling van de GL-verhouding in respectievelijk 115 RBP's en 31 RNA's. De hoogste GL-ratio (18,7) wordt gevonden in de structuur van ijzerregulerend eiwit 1 (IRP1) in complex met ferritine H IRE RNA (PDB id: 3SNP). Deze hoge verhouding kan worden toegeschreven aan de grote conformationele verandering in IRP1 bij binding met het RNA, wat wordt vergemakkelijkt door een belangrijke herschikking van de twee domeinen van IRP1 17 (Fig. 6C), waardoor 1279 Å 2 toegankelijkheid op het grensvlak wordt verkregen. De laagste GL-verhouding (0,5) wordt waargenomen in het complex tussen poly(A)-polymerase en oligo(A)-RNA (PDB-id: 2Q66). In het polymerase bevindt de katalytische plaats zich onderaan de spleet tussen de N- en C-terminale domeinen van het polymerase 18 . In de ongebonden toestand blijven beide domeinen van het polymerase in open conformatie en nemen gesloten conformatie aan na binding met het RNA, waardoor 163,6 Å2 oppervlakte aan het grensvlak verloren gaat (Fig. 6D). De hoogste GL-ratio (2,8) aan het RNA-bindende oppervlak wordt waargenomen in het T-arm analoge RNA-segment (PDB id: 1EVV) in complex met 5-methyluridinemethyltransferase TrmA (PDB id: 3BT7). In de ongebonden toestand blijft U54 begraven in de T-lus van het tRNA en vormt het een omgekeerd Hoogsteen-basenpaar met A5819. In de gebonden toestand verandert de lus zijn conformatie en U54 klapt uit naar de actieve plaats van het enzym, waardoor de oppervlaktetoegankelijkheid van 310,4 Å 2 wordt verkregen (Fig. 6E).

Winst of verlies in toegankelijkheid. (EEN) De verdeling van de GL-ratio van RBP's op interface- en niet-interfaceregio's. (B) De verdeling van de GL-verhouding van RNA's op interface- en niet-interfaceregio's. (C) In de ongebonden toestand van IRP1 (PDB-id: 2B3Y) bevinden domein 3 en 4 zich in een gesloten conformatie, die bij binding met het RNA in een open conformatie is getransformeerd (PDB-id: 3SNP). Beide domeinen bewegen uit elkaar (bidirectionele pijl), waardoor een significante hoeveelheid oppervlak toeneemt om het RNA te huisvesten. Domein 3 en 4 zijn respectievelijk blauw en oranje gekleurd en de rest van het eiwit is blauwgroen gekleurd. (NS) Voorbeeld van "open-naar-sluiten" conformatieverandering in poly(A)-polymerase en oligo(A)-RNA-complex (VOB-ID: 2Q66). In de ongebonden toestand (kleurblauw PDB id: 2HHP) blijft de bindingsspleet tussen N- en C-terminale domeinen wijd open, die bij binding met het RNA in een gesloten conformatie transformeerde, waardoor de toegankelijkheid verloren ging. (E) Gesuperponeerd T-arm analoog RNA-segment in gebonden (in grijze PDB id: 3BT7) en in ongebonden (in gele PDB id: 1EVV) toestanden. De U54 (in magenta) in de ongebonden toestand blijft in de lus, die naar de actieve plaats klapt na binding met de 5-methyluridinemethyltransferase TrmA (in oranje weergegeven).


3. Resultaten

3.1 Functies

We hebben een reeks functies gebruikt om de SOLart-oplosbaarheidsvoorspeller in te stellen, die hieronder worden beschreven.

3.1.1 Statistische potentialen

We hebben de oplosbaarheidsafhankelijke statistische potentialen die onlangs in Hou . zijn geïntroduceerd, toegepast en uitgebreid et al. (2018), die hebben bewezen een objectieve en informatieve beschrijving te geven van de interacties die de oplosbaarheidseigenschappen van eiwitten moduleren. Het idee was om de dataset DE te verdelen. coli in twee subsets van gelijke grootte, genaamd D E . coli insol en DE. coli sol ⁠ , die respectievelijk aggregatiegevoelige en oplosbare eiwitten bevatten, en om afstandpotentialen af ​​te leiden van elk van de twee subsets (zie Hou et al., 2018 voor details). Op deze manier hebben we twee verschillende potentialen gedefinieerd die 'onoplosbaar' en 'oplosbaar' worden genoemd.

De analyse van deze mogelijkheden leidde tot het detecteren van de neiging van bepaalde aminozuurinteracties zoals Lys-bevattende zoutbruggen en alifatische interacties om de oplosbaarheid van eiwitten te bevorderen. Daarentegen residu-interacties met gedelokaliseerde π-elektronen zoals aromaten en kationen-π Van interacties is aangetoond dat ze de eiwitaggregatie bevorderen (Hou et al., 2018).

We construeerden 11 oplosbaarheidsafhankelijke statistische potentialen uit verschillende combinaties van s en C elementen, opgesomd in Tabel 2. We noemden de potentialen volgens het type en aantal volgorde- en structuurdescriptoren. 'sa' staat bijvoorbeeld voor het potentieel waarin één aminozuurtype en één oplosmiddeltoegankelijkheid worden gespecificeerd, terwijl 'sds' het potentieel beschrijft waarin twee aminozuurtypen en hun afstand tussen de residuen worden gegeven.

Lijst met alle functies die zijn getest voor SOLart

Functies . Beschrijving . SOArt .
Statistische potentialen
sd: Δ Δ G sd 1 aminozuur, 1 afstand ✓✓
sds: Δ Δ G sds 2 aminozuren, 1 afstand ✓✓
sa: Δ Δ G sa 1 aminozuur, 1 oplosmiddeltoegankelijkheid ✓✓
saa: Δ Δ G saa 1 aminozuur, 2 toegankelijkheid voor oplosmiddelen ✓✓
ssa: Δ Δ G ssa 2 aminozuren, 1 toegankelijkheid voor oplosmiddelen ✓✓
st: Δ Δ G st 1 aminozuur, 1 torsiehoekdomein ✓✓
stt: Δ Δ G stt 1 aminozuur, 2 torsiehoekdomeinen ✓✓
sst: Δ Δ G sst 2 aminozuren, 1 torsiehoekdomein ✓✓
verdrietig: Δ Δ G verdrietig 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
standaard: Δ Δ G standaard 1 aminozuur, 1 afstands- en 1 torsiehoekdomein ✓✓
sta: Δ Δ G sta 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
Eiwitgrootte en voor oplosmiddelen toegankelijk oppervlak
Λ eiwit lengte ✓✓
SAcc toegankelijkheid van eiwitoplosmiddel ✓✓
SAcc/Λ toegankelijkheid van eiwitoplosmiddel gedeeld door lengte ✓✓
Inhoud secundaire structuur
β _B fractie van begraven β residuen ✓✓
β_m fractie van matig begraven β residuen ✓✓
β_e fractie van blootgesteld β residuen
α_B fractie van begraven α residuen
α_m fractie van matig begraven α residuen ✓✓
α_e fractie van blootgesteld α residuen ✓✓
γ_B fractie van begraven spoelresten
γ_m fractie van matig begraven spoelresten
γ_e fractie van blootgestelde spoelresten
Aminozuur samenstelling
C ik ( ik = 1..20 ) fractie van elk van de 20 aminozuurtypes
K+R fractie van positief geladen residuen
K−R fractie van K minus fractie van R ✓✓
D+E fractie van negatief geladen residuen ✓✓
D−E fractie van D minus fractie van E
K+R+D+E fractie van geladen residuen ✓✓
K+R-D-E fractie van positief minus negatief geladen residuen ✓✓
F+W+Y fractie aromatische resten ✓✓
_b, m, e idem met onderscheid tussen begraven, matig begraven en blootgestelde resten
Functies . Beschrijving . SOArt .
Statistische potentialen
sd: Δ Δ G sd 1 aminozuur, 1 afstand ✓✓
sds: Δ Δ G sds 2 aminozuren, 1 afstand ✓✓
sa: Δ Δ G sa 1 aminozuur, 1 oplosmiddeltoegankelijkheid ✓✓
saa: Δ Δ G saa 1 aminozuur, 2 toegankelijkheid voor oplosmiddelen ✓✓
ssa: Δ Δ G ssa 2 aminozuren, 1 toegankelijkheid voor oplosmiddelen ✓✓
st: Δ Δ G st 1 aminozuur, 1 torsiehoekdomein ✓✓
stt: Δ Δ G stt 1 aminozuur, 2 torsiehoekdomeinen ✓✓
sst: Δ Δ G sst 2 aminozuren, 1 torsiehoekdomein ✓✓
verdrietig: Δ Δ G verdrietig 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
standaard: Δ Δ G standaard 1 aminozuur, 1 afstands- en 1 torsiehoekdomein ✓✓
sta: Δ Δ G sta 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
Eiwitgrootte en voor oplosmiddelen toegankelijk oppervlak
Λ eiwit lengte ✓✓
SAcc toegankelijkheid van eiwitoplosmiddel ✓✓
SAcc/Λ toegankelijkheid van eiwitoplosmiddel gedeeld door lengte ✓✓
Inhoud secundaire structuur
β _B fractie van begraven β residuen ✓✓
β_m fractie van matig begraven β residuen ✓✓
β_e fractie van blootgesteld β residuen
α_B fractie van begraven α residuen
α_m fractie van matig begraven α residuen ✓✓
α_e fractie van blootgesteld α residuen ✓✓
γ_B fractie van begraven spoelresten
γ_m fractie van matig begraven spoelresten
γ_e fractie van blootgestelde spoelresten
Aminozuur samenstelling
C ik ( ik = 1..20 ) fractie van elk van de 20 aminozuurtypes
K+R fractie van positief geladen residuen
K−R fractie van K minus fractie van R ✓✓
D+E fractie van negatief geladen residuen ✓✓
D−E fractie van D minus fractie van E
K+R+D+E fractie van geladen residuen ✓✓
K+R-D-E fractie van positief minus negatief geladen residuen ✓✓
F+W+Y fractie aromatische resten ✓✓
_b, m, e idem met onderscheid tussen begraven, matig begraven en blootgestelde resten

Opmerking: Degenen die in de definitieve versie worden gebruikt, zijn gemarkeerd met een ✓✓ die waarvoor een subset wordt gebruikt, zijn gemarkeerd met a .

Lijst met alle functies die zijn getest voor SOLart

Functies . Beschrijving . SOArt .
Statistische potentialen
sd: Δ Δ G sd 1 aminozuur, 1 afstand ✓✓
sds: Δ Δ G sds 2 aminozuren, 1 afstand ✓✓
sa: Δ Δ G sa 1 aminozuur, 1 oplosmiddeltoegankelijkheid ✓✓
saa: Δ Δ G saa 1 aminozuur, 2 toegankelijkheid voor oplosmiddelen ✓✓
ssa: Δ Δ G ssa 2 aminozuren, 1 toegankelijkheid voor oplosmiddelen ✓✓
st: Δ Δ G st 1 aminozuur, 1 torsiehoekdomein ✓✓
stt: Δ Δ G stt 1 aminozuur, 2 torsiehoekdomeinen ✓✓
sst: Δ Δ G sst 2 aminozuren, 1 torsiehoekdomein ✓✓
verdrietig: Δ Δ G verdrietig 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
standaard: Δ Δ G standaard 1 aminozuur, 1 afstands- en 1 torsiehoekdomein ✓✓
sta: Δ Δ G sta 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
Eiwitgrootte en voor oplosmiddelen toegankelijk oppervlak
Λ eiwit lengte ✓✓
SAcc toegankelijkheid van eiwitoplosmiddel ✓✓
SAcc/Λ toegankelijkheid van eiwitoplosmiddel gedeeld door lengte ✓✓
Inhoud secundaire structuur
β _B fractie van begraven β residuen ✓✓
β_m fractie van matig begraven β residuen ✓✓
β_e fractie van blootgesteld β residuen
α_B fractie van begraven α residuen
α_m fractie van matig begraven α residuen ✓✓
α_e fractie van blootgesteld α residuen ✓✓
γ_B fractie van begraven spoelresten
γ_m fractie van matig begraven spoelresten
γ_e fractie van blootgestelde spoelresten
Aminozuur samenstelling
C ik ( ik = 1..20 ) fractie van elk van de 20 aminozuurtypes
K+R fractie van positief geladen residuen
K−R fractie van K minus fractie van R ✓✓
D+E fractie van negatief geladen residuen ✓✓
D−E fractie van D minus fractie van E
K+R+D+E fractie van geladen residuen ✓✓
K+R-D-E fractie van positief minus negatief geladen residuen ✓✓
F+W+Y fractie aromatische resten ✓✓
_b, m, e idem met onderscheid tussen begraven, matig begraven en blootgestelde resten
Functies . Beschrijving . SOArt .
Statistische potentialen
sd: Δ Δ G sd 1 aminozuur, 1 afstand ✓✓
sds: Δ Δ G sds 2 aminozuren, 1 afstand ✓✓
sa: Δ Δ G sa 1 aminozuur, 1 oplosmiddeltoegankelijkheid ✓✓
saa: Δ Δ G saa 1 aminozuur, 2 toegankelijkheid voor oplosmiddelen ✓✓
ssa: Δ Δ G ssa 2 aminozuren, 1 toegankelijkheid voor oplosmiddelen ✓✓
st: Δ Δ G st 1 aminozuur, 1 torsiehoekdomein ✓✓
stt: Δ Δ G stt 1 aminozuur, 2 torsiehoekdomeinen ✓✓
sst: Δ Δ G sst 2 aminozuren, 1 torsiehoekdomein ✓✓
verdrietig: Δ Δ G verdrietig 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
standaard: Δ Δ G standaard 1 aminozuur, 1 afstands- en 1 torsiehoekdomein ✓✓
sta: Δ Δ G sta 1 aminozuur, 1 afstand en 1 oplosmiddeltoegankelijkheid ✓✓
Eiwitgrootte en voor oplosmiddelen toegankelijk oppervlak
Λ eiwit lengte ✓✓
SAcc toegankelijkheid van eiwitoplosmiddel ✓✓
SAcc/Λ toegankelijkheid van eiwitoplosmiddel gedeeld door lengte ✓✓
Inhoud secundaire structuur
β _B fractie van begraven β residuen ✓✓
β_m fractie van matig begraven β residuen ✓✓
β_e fractie van blootgesteld β residuen
α_B fractie van begraven α residuen
α_m fractie van matig begraven α residuen ✓✓
α_e fractie van blootgesteld α residuen ✓✓
γ_B fractie van begraven spoelresten
γ_m fractie van matig begraven spoelresten
γ_e fractie van blootgestelde spoelresten
Aminozuur samenstelling
C ik ( ik = 1..20 ) fractie van elk van de 20 aminozuurtypes
K+R fractie van positief geladen residuen
K−R fractie van K minus fractie van R ✓✓
D+E fractie van negatief geladen residuen ✓✓
D−E fractie van D minus fractie van E
K+R+D+E fractie van geladen residuen ✓✓
K+R-D-E fractie van positief minus negatief geladen residuen ✓✓
F+W+Y fractie aromatische resten ✓✓
_b, m, e idem met onderscheid tussen begraven, matig begraven en blootgestelde resten

Opmerking: Degenen die in de definitieve versie worden gebruikt, zijn gemarkeerd met een ✓✓ die waarvoor een subset wordt gebruikt, zijn gemarkeerd met a .

3.1.2 Eiwitgrootte en toegankelijk oppervlak

We hebben drie globale kenmerken van de eiwitten overwogen, namelijk de eiwitlengte (Λ), het oplosmiddeltoegankelijke oppervlak (SAcc) geschat met een intern programma ( Dalkas et al., 2014), en het voor oplosmiddel toegankelijke oppervlak gedeeld door de eiwitlengte (SAcc/Λ) in het laatste geval, gebruikten we de lengte van de sequentie waarvan de structuur is bepaald. Merk op dat de eerste functie op volgorde is gebaseerd en dat de laatste twee kennis van de 3D-structuur vereisen.

3.1.3 Inhoud secundaire structuur

Er is nog een reeks op structuur gebaseerde kenmerken toegevoegd, namelijk de fractie eiwitresten die in α-spiraalvormig, β-streng of spoel (hier genoemd) γ) conformatie. We maakten onderscheid tussen de α, β en γ residuen die zijn begraven in de eiwitkern (toegankelijkheid van oplosmiddel ≤ 20 % ⁠ ), matig begraven (tussen 20% en 50%) en blootgesteld aan oplosmiddel ( ⁠ ≥ 50 % ⁠ ). Ons eigen programma ( Dalkas et al., 2014) werd gebruikt om de secundaire structuur en toegankelijkheid van oplosmiddelen toe te wijzen.

3.1.4 Aminozuursamenstelling

We hebben 20 puur op sequentie gebaseerde kenmerken geïntegreerd, overeenkomend met de fractie van elk van de 20 aminozuren die in een eiwit aanwezig zijn. We hebben ook gekeken naar de fractie van aminozuurgroepen, dwz positief geladen resten (K+R), negatief geladen resten (D+E), geladen resten (K+R+D+E), aromatische resten (F+W+Y), evenals het verschil tussen de fracties van K en R (K−R), D en E (D−E), en K+R en D+E (K+R−D−E). We combineerden deze kenmerken met de toegankelijkheid van oplosmiddelen en definieerden drie categorieën per aminozuur of aminozuurgroep, afhankelijk van of het residu wordt blootgesteld, matig begraven of begraven. Dit leverde 81 extra structuurgebaseerde functies op.

3.2 Functieselectie

De volgende stap bestond uit het selecteren, uit de hierboven gedefinieerde 28 puur op sequentie gebaseerde kenmerken en 103 op structuur gebaseerde kenmerken, de subset van kenmerken die het meest informatief zijn voor de oplosbaarheid van eiwitten. We gebruikten daarvoor de D E . coli-trainingsset, die 406 niet-redundante röntgenstructuren met hoge resolutie van e.coli eiwitten met een lage paarsgewijze sequentie-identiteit en experimenteel gemeten oplosbaarheid (zie paragraaf 2.2). De functieselectie werd uitgevoerd met behulp van het Boruta-algoritme ( Kursa et al., 2010) geïmplementeerd in het Caret-pakket van R ( Kuhn et al., 2008), een wrapper gebouwd rond het random forest-classificatie-algoritme (Liaw et al., 2002), waarin het belang van de echte kenmerken wordt vergeleken met die van willekeurige (schaduw)kenmerken met behulp van statistische tests. De resultaten worden verkregen als een gemiddelde over meerdere runs (hier 1000) willekeurig bos.

We hebben de functies uitgefilterd waarvan het gemiddelde belang gemeten door het Boruta-algoritme lager is dan 1. Dit bracht ons ertoe in totaal 52 functies te behouden, die worden weergegeven in figuur 1 en aanvullende figuur S2. Hiervan hebben er 37 de kennis van de structuur nodig.

De top 30 belangrijkste kenmerken geïdentificeerd door functieselectie, van links naar rechts. De namen in kleine letters geven vouwvrije energieverschillen aan, b.v. sst betekent Δ Δ G sst

De top 30 belangrijkste kenmerken geïdentificeerd door functieselectie, van links naar rechts. De namen in kleine letters geven vouwvrije energieverschillen aan, b.v. sst betekent Δ Δ G sst

Opvallend is dat de vier meest gerangschikte kenmerken vouwbare vrije-energieverschillen Δ Δ G zijn, berekend op basis van onze oplosbaarheidsafhankelijke potentialen: de backbone-torsiehoekpotentiaal sst, het oplosmiddeltoegankelijkheidspotentieel ssa en de twee afstandpotentialen sd en sds (zie Tabel 2). Het volgende belangrijkste kenmerk is de eiwitlengte , gevolgd door de toegankelijkheid van het oplosmiddel en de fracties van sommige aminozuurtypen. De features op basis van de secundaire structuur komen niet voor bij de 30 top features, maar sommige komen wel voor in de lijst van 52 geselecteerde features.

3.3 Opzetten SOLart

De 52 geselecteerde kenmerken werden gecombineerd om de SOLart-voorspeller van de oplosbaarheid van doeleiwitten op te zetten op basis van hun 3D-structuren. We gebruikten daarvoor D E . coli als trainingsset en het random forest-regressie-algoritme ( Liaw et al., 2002) geïmplementeerd in het Caret-pakket om het model te construeren. Dit algoritme is een op bomen gebaseerd systeem dat bestaat uit meerdere regressiebomen. Het aantal bomen is hier ingesteld op 500. Het trainingsproces begint met een willekeurig geselecteerde subset van de originele dataset waaruit een regressieboom wordt geconstrueerd door de iteratieve partitionering van de gegevens ruimte in kleinere deelverzamelingen. Op elk knooppunt van de boom worden willekeurig gesamplede objecten gebruikt. Het aantal objecten hangt af van een globale parameter 'mtry' die hier wordt genomen tussen 1 en 52, het totale aantal objecten. De optimale mtry-waarde wordt verkregen via een rasterzoekprocedure. De impact ervan op de voorspellingsprestaties wordt geïllustreerd in aanvullende figuur S5. De regressie voor een doeleiwit wordt verkregen door de voorspellingen over alle bomen te middelen.

3.4 Prestaties van SOLart

Omdat het voorspellingsmodel is geconstrueerd op basis van de geselecteerde kenmerken, maar ook afhangt van de mtry-parameterwaarde, hebben we geneste 10-voudige kruisvalidatie uitgevoerd om de prestaties van SOLart op de DE te beoordelen. coli-set, met een buitenste kruisvalidatielus en een binnenste kruisvalidatielus genest in de buitenste lus, zoals uitgelegd in aanvullende sectie S4. Er werden in totaal 30 replica's uitgevoerd voor de cross-validatie van de buitenste lus, met verschillende willekeurige verdelingen in vouwen, en de prestaties werden berekend als gemiddelden over de replica's.

Ons rekenmodel bereikt een goede lineaire correlatiecoëfficiënt van R = 0,66 tussen de oplosbaarheidsvoorspellingen van SOLart en de experimentele waarden, en een kwadratische fout, RMSE = 25 % (Tabel 3).

SOLart-prestaties in kruisvalidatie op de leerset D E . coli ⁠ , en op drie onafhankelijke testsets: D S . cerevisiae met röntgenstructuren en ME. coli en MS. cerevisiae met gemodelleerde structuren

. D E. coli . MIJ . coli . DS. cerevisiae. MEVR . cerevisiae.
R0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. D E. coli . MIJ . coli . DS. cerevisiae. MEVR . cerevisiae.
R0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

Opmerking: De waarden tussen haakjes komen overeen met de prestatie waarbij 10% uitbijters zijn verwijderd.

SOLart-prestaties in kruisvalidatie op de leerset D E . coli ⁠ , en op drie onafhankelijke testsets: D S . cerevisiae met röntgenstructuren en ME. coli en MS. cerevisiae met gemodelleerde structuren

. D E. coli . MIJ . coli . DS. cerevisiae. MEVR . cerevisiae.
R0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. D E. coli . MIJ . coli . DS. cerevisiae. MEVR . cerevisiae.
R0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

Opmerking: De waarden tussen haakjes komen overeen met de prestatie waarbij 10% uitbijters zijn verwijderd.

We hebben SOLart ook getest op een onafhankelijke testset met: S.cerevisiae eiwitten met een goed opgeloste röntgenstructuur, gegroepeerd in de D S . cerevisiae set (zie paragraaf 2.2). De prestaties van SOLart op deze set worden geëvalueerd door een lineaire correlatiecoëfficiënt R = 0,67 en een RMSE = 23% ⁠ . Wanneer 10% uitbijters worden verwijderd, stijgt de score tot R = 0,78 en RMSE = 19 % (Tabel 3). De scores op deze onafhankelijke set zijn dus zelfs iets beter dan die verkregen in kruisvalidatie op de trainingsset D E . coli .

Om dit resultaat verder te analyseren, hebben we het belang van elk kenmerk in de SOLart-voorspelling geschat met behulp van de op varImp permutatieschema gebaseerde functie ( Kuhn et al., 2008). Het gaat verder door willekeurig elk kenmerk om de beurt te permuteren om de associatie met het antwoord te verbreken, en het vervolgens samen met de resterende niet-gepermuteerde kenmerken te gebruiken voor voorspelling. De afname van de voorspellingsnauwkeurigheid is een maat voor het belang van het gepermuteerde kenmerk. Deze maat schat het gewicht van elk afzonderlijk kenmerk in de voorspeller, terwijl het kenmerkselectie-algoritme dat in paragraaf 3.2 is toegepast, de kenmerkrelevantie meet onafhankelijk van het voorspellingsmodel. Ze leveren dus iets andere rankings op.

De 20 belangrijkste kenmerken van ons voorspellingsmodel worden getoond in figuur 2 (zie ook aanvullende figuur S3). Interessant is dat bijna alle kenmerken die overeenkomen met het vouwen van vrije energieverschillen ( ⁠ Δ Δ G ⁠ ) in deze lijst staan ​​(9 van de 11), en de zes belangrijkste kenmerken zijn de Δ Δ G's berekend uit de potentialen ssa, sst, sd, sds, saa en sa (Tabel 2). De twee beste, bijna ex quo, zijn Δ Δ G ssa en Δ Δ G sst ⁠ , die ook op de eerste plaats stonden in de functieselectie (Fig. 1). Ze worden berekend op basis van de neigingen van aminozuurparen om te worden geassocieerd met een bepaald bereik voor de toegankelijkheid van oplosmiddelen een of een bepaald torsiehoekdomein van de ruggengraat t van een residu. Deze neigingen verschillen tussen oplosbare en aggregatiegevoelige eiwitten, en het is dit verschil dat wordt gemeten via de Δ Δ G-kenmerken. De volgende best gerangschikte kenmerken zijn Δ Δ G sd en Δ Δ G sds ⁠ , berekend op basis van de neigingen van residuparen om te worden gescheiden door een bepaalde ruimtelijke afstand, gevolgd door twee andere toegankelijkheidsmogelijkheden Δ Δ G saa en Δ Δ G sa ⁠ .

De top 20 belangrijkste kenmerken van SOLart, van rechts naar links. De namen in kleine letters geven vouwvrije energieverschillen aan, b.v. sst betekent Δ Δ G ssa

De top 20 belangrijkste kenmerken van SOLart, van rechts naar links. De namen in kleine letters geven vouwvrije energieverschillen aan, b.v. sst betekent Δ Δ G ssa

Deze vouwende vrije-energiekenmerken vereisen de eiwitstructuur als invoer. In feite is meer dan de helft van de top 20 kenmerken op structuur gebaseerd, wat de relevantie van structurele informatie voor het bepalen van de oplosbaarheid van eiwitten bevestigt. De eerste op sequentie gebaseerde functie staat op de zevende plaats. Het is de sequentielengte Λ: in het algemeen geldt: hoe kleiner de sequentie, des te oplosbaarst het eiwit ( Kramer et al., 2012). De twee gerelateerde kenmerken, d.w.z. het voor oplosmiddel toegankelijke oppervlak SAcc al dan niet gedeeld door de lengte, behoren ook tot de top 20 kenmerken.

De overige kenmerken in de top 20 zijn sequentiegebaseerd: het verschil tussen Lys- en Arg-samenstelling (K-R) dat positief gecorreleerd is met oplosbaarheid ( Hou et al., 2018 Warwicker et al., 2014), het percentage aromatische residuen (F+Y+W) die aggregatie bevorderen ( Hou et al., 2018 Niwa et al., 2009), en de totale fractie negatief geladen residuen (D+E) waarvan ook is aangetoond dat ze de oplosbaarheid bevorderen (Hou et al., 2018 Niwa et al., 2009). De volgende kenmerken zijn de samenstelling in R en Q, die de oplosbaarheid afkeurt, de samenstelling in E en K, die in plaats daarvan de oplosbaarheid bevordert, en het verschil tussen de fractie van positief en negatief geladen residuen (K+R−D−E), die vergroot de onoplosbaarheid.

Merk op dat al deze op sequentie gebaseerde kenmerken ook zijn gebruikt door de oplosbaarheidsvoorspellers die in de literatuur beschikbaar zijn. Naast deze veelgebruikte functies hebben we echter een reeks op structuur gebaseerde functies gebruikt, waarvan de belangrijkste worden verkregen uit de nieuw ontwikkelde oplosbaarheidsafhankelijke statistische potentialen. Deze leggen de oplosbaarheidseigenschappen nauwkeuriger vast en vertegenwoordigen het belangrijkste instrument van onze aanpak.

Om het belang van het overwegen van de 3D-structuur verder te controleren, hebben we een voorspellingsmodel getraind op de 28 sequentiefuncties die hier worden beschouwd. Zoals weergegeven in aanvullende tabel S2 heeft dit model een score van R = 0,59 in geneste kruisvalidatie op de DE . coli-set, wat ongeveer 12% lager is dan de SOLart-score van R = 0.66.

3.5 Prestaties op gemodelleerde eiwitstructuren

Het is aangetoond dat SOLart nauwkeurig is wanneer de 3D-structuur van het doeleiwit bekend is. Om de toepasbaarheid te vergroten, hebben we het getest op structuren met een lage resolutie die zijn verkregen via homologiemodellering. We hebben het eerst toegepast op de M E. coli dataset met 550 eiwitten van e.coli (zie paragraaf 2.2). We kregen een correlatie van R = 0,51 en een RMSE van 28%, wat relatief goed is, maar lager dan de prestatie op D E . coli (Tabel 3). Deze daling is te verwachten aangezien we rekening moeten houden met de mogelijke onnauwkeurigheden in de gemodelleerde structuren die moeten worden toegevoegd aan de fout van onze rekenmethode. Na het verwijderen van 10% uitbijters neemt de prestatie toe tot R = 0,67 en RMSE = 23% ⁠ , en bereikt dus dezelfde prestaties als op structuren met een goede resolutie.

Als laatste testset gebruikten we M S . cerevisiae die bevat S.cerevisiae eiwitten met gemodelleerde structuren. De prestatie van SOLart op deze set wordt gegeven door R = 0,63 en RMSE = 24% ⁠ , en neemt toe tot R = 0,70 en RMSE = 20 % zonder 10% uitbijters. De scores zijn dus veel hoger op deze testset dan op de e.coli testset, wat suggereert dat sommige structurele eiwitmodellen of experimentele oplosbaarheidswaarden mogelijk minder nauwkeurig zijn op de e.coli ingesteld dan op de S.cerevisiae set.

Merk op dat deze tests vrij streng zijn, aangezien er een lage sequentieovereenkomst (≤25%) is tussen deze testsets en de trainingsset. We concluderen dus dat SOLart betrouwbaar kan worden gebruikt om de oplosbaarheid te voorspellen, niet alleen voor experimentele structuren met hoge resolutie, maar ook voor gemodelleerde of andere structuren met lage resolutie.

3.6 Vergelijking met andere voorspellingsmethoden voor oplosbaarheid

De prestatie van SOLart werd vergeleken met die van andere methoden voor het voorspellen van de oplosbaarheid op de combinatie van DS. cerevisiae en MS. cerevisiae sets, die röntgenstralen en gemodelleerde structuren groeperen S.cerevisiae eiwitten, omdat dit onafhankelijke testsets zijn die niet zijn opgenomen in de trainingssets van een van de voorspellers. Om precies te zijn, hebben we de methoden Protein-SOL (Hebditch et al., 2017), ccSOL (Agostini et al., 2014), CamSol (Sormannic et al., 2015), PROSO (Smialowski et al., 2007), PROSO II (Smialowski et al., 2012), Aggrescan3D 2.0 (Kuriata et al., 2019), DeepSol (Khurana et al., 2018), PaRSnIP (Rawi et al., 2018) en SOLpro (Magnan et al., 2009), door alle eiwitten van onze testdatasets naar hun respectievelijke webservers te sturen of door hun programma's lokaal te installeren. Merk op dat deze methoden allemaal op volgorde zijn gebaseerd, met uitzondering van Aggrescan3D 2.0.

De lineaire correlatiecoëfficiënt R tussen de oplosbaarheidsvoorspellingen en de experimentele waarden voor al deze voorspellers worden gegeven in Tabel 4. Onze methode presteert duidelijk beter dan de concurrenten (R = 0,65 tegen R = 0,55 voor de op één na beste methode). Dit toont het belang aan van het gebruik van structurele informatie.

Vergelijking van de prestaties van verschillende voorspellers op de combinatie van de DS . cerevisiae en MS. cerevisiae-testsets, op basis van de Pearson-correlatiecoëfficiënt tussen voorspelde en experimentele oplosbaarheidswaarden

Voorspeller . R .
SOLart 0.65
ccSOL 0.55
Eiwit-Sol 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Pastinaak 0.09
Voorspeller . R .
SOLart 0.65
ccSOL 0.55
Eiwit-Sol 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Pastinaak 0.09

Vergelijking van de prestaties van verschillende voorspellers op de combinatie van de DS . cerevisiae en MS. cerevisiae-testsets, op basis van de Pearson-correlatiecoëfficiënt tussen voorspelde en experimentele oplosbaarheidswaarden

Voorspeller . R .
SOLart 0.65
ccSOL 0.55
Eiwit-Sol 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Pastinaak 0.09
Voorspeller . R .
SOLart 0.65
ccSOL 0.55
Eiwit-Sol 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Pastinaak 0.09

3.7 Webserver

We hebben een gratis beschikbare webserver-interface voor onze voorspellingsmethode geleverd, die gericht is op niet-deskundige gebruikers (http://babylone.ulb.ac.be/SOLART/index.php) (Fig. 3). De input bestaat uit de 3D-structuur van het doeleiwit in PDB-formaat. Het kan rechtstreeks door de gebruiker worden geüpload of uit het PDB worden geïmporteerd ( Berman et al., 2000) door de vierletterige code te typen. De webserver geeft vervolgens een korte samenvatting van enkele kenmerken van het eiwit en stelt de gebruiker in staat om een ​​van de eiwitketens te kiezen. De berekening begint na het indienen van de query. Alle op structuur gebaseerde kenmerken van vrije energie, secundaire structuur en toegankelijkheid van oplosmiddelen worden eerst berekend en vervolgens geïntegreerd met de andere, op sequentie gebaseerde kenmerken.

De webserver-interface van SOLart

De webserver-interface van SOLart

Op de uitvoerpagina, bereikbaar via de verstrekte link, wordt de waarde van de voorspelde geschaalde oplosbaarheid S gegeven. Als de score dicht bij nul ligt, wordt het doeleiwit voorspeld als aggregatiegevoelig en, wanneer het dicht bij 130 ligt, als oplosbaar. Om een ​​indicatie te krijgen van de bijdrage van elk afzonderlijk kenmerk aan de voorspelling van de oplosbaarheid van het doeleiwit, tonen we bovendien een cijfer met de voorspelde oplosbaarheid van elk kenmerk afzonderlijk en met SOLart. De voorspelling met elk afzonderlijk kenmerk wordt berekend op basis van een willekeurig bosmodel dat is getraind op de experimentele oplosbaarheidswaarden van de DE. coli-set. Dit cijfer kan als inspiratiebron worden gebruikt om de kenmerken voor te stellen die moeten worden gewijzigd met het oog op de modulerende oplosbaarheid. Een voorbeeld wordt getoond in figuur 4 voor een acyltransferase van e.coli.

Voorspelde oplosbaarheid van een voorbeeldeiwit (PDB-code 2qia, Uniprot-code P0A722) met alle functies die worden gebruikt in SOLart (horizontale lijn) of met alleen elk afzonderlijk kenmerk (histogrambalken)

Voorspelde oplosbaarheid van een voorbeeldeiwit (PDB-code 2qia, Uniprot-code P0A722) met alle functies die worden gebruikt in SOLart (horizontale lijn) of met alleen elk afzonderlijk kenmerk (histogrambalken)

Vanwege de eenvoud van gebruik verwachten we dat deze webserver interessant zal zijn voor onderzoekers in de academische wereld en de industrie die geïnteresseerd zijn in het moduleren van de oplosbaarheid van eiwitten zonder enige voorafgaande bio-informatische kennis.


UCLA MBI & mdash SERp-server: inleiding

Het doel van deze tool is om mutatiekandidaten voor te stellen die waarschijnlijk de kristalliseerbaarheid van een eiwit zullen verbeteren via het genereren van kristalcontacten door de Surface Entropy Reduction (SER) -benadering beschreven door Derewenda (2004).

Derewenda stelt dat kristalliseerbaarheid wordt geassocieerd met oppervlakte-eigenschappen van de eiwitten en dat bolvormige eiwitten die recalcitrant zijn tegen kristallisatie, op hun oppervlak een "entropisch schild" bevatten, bestaande uit lange, flexibele polaire zijketens die het vermogen van het eiwit om intermoleculaire contacten te vormen belemmeren en zo samenvoegen tot een kristalrooster. Kristallisatie wordt aangedreven door de vrije energieverandering van de oververzadigde oplossing van eiwit tot eiwitkristallen in het oplosmiddel.Aangezien de enthalpiewaarden van intermoleculaire interacties in het kristalrooster typisch klein zijn, is kristallisatie erg gevoelig voor entropieveranderingen waarbij zowel het oplosmiddel als het eiwit betrokken zijn. Opname van eiwitmoleculen in het rooster heeft een negatieve entropieterm, en dit is een onontkoombare thermodynamische kost. Bovendien genereert immobilisatie van zijketens en oplosmiddel op het punt van kristalcontacten extra verlies van entropie.

De benadering van oppervlakte-entropiereductie omvat de vervanging van aan het oppervlak blootgestelde aminozuren met hoge entropie door residuen met kleine zijketens met lage entropie, zoals alanines. Lysines en glutamaten zijn van bijzonder belang, aangezien statistische analyses aantonen dat beide soorten residuen voornamelijk aan het oppervlak zijn gelokaliseerd (Baud en Karlin, 1999) en niet de voorkeur hebben op eiwit-eiwitinterfaces (Conte et al., 1999).

Vacature indienen

  • Te analyseren aminozuur- of DNA-sequentie
  • Een korte reeksnaam-ID (voornamelijk voor het gemak van de gebruiker)
  • Een e-mailadres voor de levering van resultaten

De eerste verwerking duurt meestal enkele minuten. De gebruiker wordt per e-mail op de hoogte gebracht na voltooiing van de huidige taak en de wachtrijstatus wordt op de webpagina weergegeven. Daaropvolgende revisies van jobparameters nemen slechts enkele seconden in beslag en worden op aanvraag verwerkt.

Procesoverzicht

De ingediende sequentie ondergaat de volgende drie primaire analyses. Elke analyse kent een positieve of nette score toe aan elk residu in de sequentie. Gecombineerd deze analyses identificeren residuen die het meest gunstig zijn voor mutatie. Een positieve bijdrage van elk model is niet vereist, hoewel hogere positieve scores betere kandidaten aangeven.

    Secundaire structuurvoorspelling
    De secundaire structuur wordt voorspeld met PSIPRED, dat twee feed-forward neurale netwerken bevat die een analyse uitvoeren op de output verkregen van PSI-BLAST. Voorspelde spoelgebieden zijn gemarkeerd als gunstige plaatsen voor mutatie omdat ze de neiging hebben om aan het oppervlak te worden blootgesteld en tot nu toe zeer effectief gebleken, bleek het entropiereductieconcept minder effectief te zijn als de beoogde patch op het aan oplosmiddel blootgestelde oppervlak van een helix ligt.
    De scorebijdrage van de secundaire structuuranalyse is recht evenredig met het vertrouwen dat een residu zich in een spoelgebied bevindt. Op het tabblad Grafieken vindt u een grafiek met de betrouwbaarheid van de secundaire structuur.

  • Geef de voorkeur aan residuen die gunstig scoorden in de primaire analyses.
  • Maximaliseer de lengte van de patch met lage entropie na mutatie.
  • Minimaliseer hiaten in de lage entropie-patch.
  • Minimaliseer het aantal vereiste mutaties.
  • Maximaliseer zijketen-entropiereductie.

Alle voorgestelde mutaties binnen een cluster moeten gelijktijdig worden geïntroduceerd om ervoor te zorgen dat het 'entropieschild' voldoende wordt verwijderd. Standaard bevat een cluster niet meer dan drie mutaties om de vermindering van de oplosbaarheid van het doeleiwit te beperken. Gewoonlijk worden mutaties van slechts één cluster tegelijk in het eiwitdoelwit geïntroduceerd, hoewel grotere eiwitten (>80 kD) gelijktijdige mutatie van meerdere clusters kunnen vereisen. Het eiwitdoelwit blijkt vaak te kristalliseren in nieuwe ruimtegroepen, met gemuteerde patches die direct betrokken zijn bij nieuwe kristalcontacten.

Ten slotte wordt een meta-zoekopdracht uitgevoerd op de ingediende reeks. Deze zoektocht probeert andere mogelijke faalwijzen van kristallisatie te detecteren, zoals de vereiste van metaalionen of andere kleine moleculen, of interagerende eiwitpartners.

Resultaten

De resultaten worden interactief gepresenteerd op de website met interne links naar analysedetails en links naar externe bronnen. Een verkorte versie van de resultaten kan ook per e-mail worden aangeleverd.

Tabblad Samenvatting. Het tabblad Samenvatting bevat een zeer korte samenvatting van de voorgestelde mutaties. De mutaties worden voorgesteld in groepen of clusters en alle voorgestelde mutaties binnen een cluster dienen samen te worden ingevoerd. Standaard worden clusters gesorteerd op het voorspellingsvertrouwen en dus wordt verwacht dat het eerste geretourneerde cluster het meest succesvol is in het verbeteren van de kristallisatie- en/of diffractiekwaliteit voor de verstrekte sequentie. De betrouwbaarheidsscore voor succes wordt ook weergegeven, twee clusters kunnen vergelijkbare betrouwbaarheidsscores hebben en dus moet elk van beide voorstellen onafhankelijk worden nagestreefd.
Analysedetails zijn te vinden op het tabblad Scoredetails. Een grafische weergave van de voorgestelde mutatieplaatsen, secundaire structuurvoorspelling en entropieprofielen vindt u op het tabblad Grafieken. Uitgelijnde sequenties staan ​​op het tabblad Blast.

Tabblad Scoredetails. Scorebijdragen die de totale score op elke residupositie vormen, zijn te vinden op dit tabblad. Een cluster is meestal minder dan 10 aminozuren groot en bevat enkele niet-veranderlijke of niet-hoge entropie-aminozuren. Een stukje residuen binnen een cluster waarvan wordt voorspeld dat het het meest succesvol is, gemarkeerde voorgestelde mutaties zijn groen gearceerd en doelresiduen zijn geel gearceerd.

    SS-spoelvertrouwen: Vertrouwen in het bereik van 0 - 1,0 voor een residu om zich in een spoelgebied te bevinden, zoals voorspeld door PSIPRED.

Grafieken Tab. De volgende grafieken zijn bedoeld om de voorgestelde mutatieplaatsen te visualiseren en om de bijdrage van elke analyse te helpen begrijpen. Alle analyses samen bepalen welke sites het meest geschikt zijn voor mutatie.

Totale score: deze gestapelde grafiek vertegenwoordigt de scorebijdrage van elke analyse aan de totale score op elke residupositie. Raadpleeg de legenda en op het tabblad Grafieken. Pieken geven regio's aan waarvan wordt voorspeld dat ze de beste mutatiekandidaten bevatten om de kristallisatie- en/of diffractiekwaliteit te verbeteren.
Voorgestelde clusters worden gemarkeerd en de clusterrang en -score worden weergegeven. Residuen voorgesteld voor mutatie zijn groen gearceerd.

Een grafische weergave van doelresiduen met hoge entropie, veranderlijke en lage entropie wordt getoond aan de onderkant van deze grafiek, respectievelijk voor en na mutatie.

    Ontploffingsresultaten: Aantal sequenties gevonden door de PSI-BLAST-zoekopdracht die respectievelijk hetzelfde residu bevatten als de ingediende sequentie (geconserveerd residu) en een doelresidu (gemuteerd).

Blast Tab. Uitlijningsresultaten geretourneerd door PSI-BLAST. Top 50 (of minder) uitlijningen worden weergegeven, in standaard BLAST-volgorde door afnemende identiteit. De verwachtingswaarde, bitscore en sequentie-identiteitspercentage voor de verschafte sequentie worden voor elke uitlijning getoond. Een korte sequentie-annotatie en een externe link zijn voorzien.

Voor elk voorgesteld cluster worden de residuen in de uitgelijnde sequenties getoond. Een punt geeft aan dat er geen verandering is ten opzichte van de opgegeven volgorde. Een opening in de uitgelijnde sequentie wordt weergegeven als '-'. Een insertie in de uitgelijnde sequentie wordt niet getoond. Voor het gemak worden aminozuren met een hoge entropie in rood weergegeven en doelaminozuren in groen.

De volledige uitlijning en aanvullende referenties (indien aanwezig) worden weergegeven door op de link voor uitbreiding [+] te klikken.

Tabblad Meta zoeken. Details resultaten van de uitgevoerde Meta Searches worden op dit tabblad getoond.
Elke BLAST-uitgelijnde sequentie wordt gescreend op mogelijke functionele koppelingen. Voor elke uitgelijnde sequenties worden mogelijke overeenkomsten getoond. Klik op de [+]-uitbreidingslink om alle koppelingen en de detectiemethode en betrouwbaarheid voor elk te zien. Elke koppeling kan verder worden onderzocht op de ProLinks-server met behulp van de meegeleverde koppeling.


Toegankelijkheid van oplosmiddelen, de 20% cut-off methode - Biologie

Eigenschappen van organische oplosmiddelen

De waarden in de onderstaande tabel zijn, behalve zoals vermeld, geëxtraheerd uit online en ingebonden compilaties. Waarden voor relatieve polariteit, elutiemiddelsterkte, drempelwaarden en dampspanning zijn ontleend aan: Christian Reichardt, Oplosmiddelen en effecten van oplosmiddelen in de organische chemie, Wiley-VCH Publishers, 3e druk, 2003 . Ga voor Spectra of Solvents naar de onderkant van dit p http://murov.info/webercises.htm-tijdperk. Voor een Gids voor organische chemie, zien: http://murov.info/orgchem.htm .
Voor een Chemie Directory, zien: http://murov.info/webercises.htm
Ga voor veel meer volledige informatie over fysische en veiligheidseigenschappen van oplosmiddelen naar:
http://www.knovel.com/web/portal/browse/display?_EXT_KNOVEL_DISPLAY_bookid=761
http://chem.sis.nlm.nih.gov/chemidplus/chemidlite.jsp
De onderstaande tabellen zijn geplaatst (23/10/98) en herzien (28-07-09) en bijgewerkt (04/10/10) door Steve Murov, emeritus hoogleraar scheikunde.

oplosmiddel formule kookpunt (o C) smeltpunt (o C) dichtheid
(g/ml)
oplosbaarheid in H2O1 (g/100g) familielid
polariteit 2
elutiemiddelsterkte 3 drempelwaarden 4 (ppm) dampdruk 20 o C (hPa)
azijnzuur C2H4O2 118 16.6 1.049 m 0.648 >1 10 15.3
aceton C3H6O 56.2 -94.3 0.786 m 0.355 0.56 500 240
acetonitril C2H3N 81.6 -46 0.786 m 0.460 0.65 20 97
acetylaceton C5H8O2 140.4 -23 0.975 16 0.571
2 - amino-ethanol C2H7NEE 170.9 10.5 1.018 m 0.651 3 0.53
aniline C6H7N 184.4 -6.0 1.022 3.4 0.420 2 0.4
anisool C 7 H8O 153.7 -37.5 0.996 0.10 0.1 98
benzeen C6H6 80.1 5.5 0.879 0.18 0.111 0.32 0.5 101
benzonitril C7H5N 205 -13 0.996 0.2 0.333 10 12
benzyl alcohol C 7 H 8 O 205.4 -15.3 1.042 3.5 0.608
1-butanol C4H10O 117.6 -89.5 0.81 7.7 0. 586 20 6.3
2-butanol C4H10O 99.5 - 114.7 0.808 18.1 0 .506 100
l-butanol C4H10O 107.9 -108.2 0.803 8.5 0 .552
2-butanon C4H8O 79.6 -86.3 0.805 25.6 0.327 0.51 200 105
t-butylalcohol C4H10O 82.2 25.5 0.786 m 0.389 100 41
koolstofdisulfide CS2 46.3 -111.6 1 .263 0.2 0.065 0.15 10 400
tetrachloorkoolstof CCl4 76.7 -22.4 1.594 0.08 0.052 0.18 5 120
chloorbenzeen C6H5kl 132 -45.6 1.106 0.05 0.188 0.30 10 12
chloroform CHCl3 61.2 -63.5 1.498 0.8 0.259 10 2 10
cyclohexaan C6H12 80.7 6.6 0.779 0.005 0.006 0.04 100 104
cyclohexanol C 6 H 12 O 161.1 25.2 0.962 4.2 0.509 50 1.2
cyclohexanon C6H10O 155.6 -16.4 0.948 2.3 0.281 25 5
di-n-butylftalaat C16H22O4 340 -35 1.049 0.0011 0.272
1,1-dichloorethaan C2H4kl2 57.3 -97.0 1.176 0.5 0.269 100 240
diethyleenglycol C4H10O3 245 -10 1.118 m 0.713 0.027
diglyme C6H14O3 162 -64 0.945 m 0.244
dimethoxyethaan (glyme) C4H10O2 85 -58 0.868 m 0.231
N,N-dimethylaniline C8H11N 194.2 2.4 0.956 0.14 0.179
dimethylformamide (DMF) C3H7NEE 153 -61 0.944 m 0. 386 10 3.5
dimethylftalaat C10H10O4 283.8 1 1.190 0.43 0.309
dimethylsulfoxide (DMSO) C2H6OS 189 18.4 1.092 m 0.444 0.75
dioxaan C4H8O2 101.1 11.8 1.033 m 0.164 0.56 20 41
ethanol C2H6O 78.5 -114.1 0.789 m 0.654 0.88 100 59
ether C4H10O 34.6 -116.3 0.713 7.5 0.117 0.38 400 587
Ethylacetaat C4H8O2 77 -83.6 0.894 8.7 0.228 0.58 400 97
ethylacetoacetaat C6H10O3 180.4 -80 1.028 2.9 0.577
ethylbenzoaat C9H10O2 213 -34.6 1.047 0.07 0.228
ethyleenglycol C2H6O2 197 -13 1.115 m 0.790 1.11
glycerine C3H8O3 290 17.8 1.261 m 0.812
heptaan C7H16 98 -90.6 0.684 0.0003 0.012 400 48
1-heptanol C 7 H 16 O 176.4 -35 0.819 0.17 0.549
hexaan C6H14 69 -95 0.655 0.0014 0.009 0.01 50 160
1-hexanol C 6 H 14 O 158 -46.7 0.814 0.59 0.559
methanol CH4O 64.6 -98 0.791 m 0.762 0.95 200 128
methylacetaat C 3 H 6 O2 56.9 -98.1 0.933 24.4 0.253 200 220
methyl- t-butylether (MTBE) C5H12O 55.2 -109 0.741 4.8 0.1 24 0.20
dichloormethaan CH2kl2 39.8 -96.7 1.326 1.32 0.309 0.42 50 475
1-octanol C 8 H 18 O 194.4 -15 0.827 0.096 0.537
pentaan C5H12 36.1 -129.7 0.626 0.004 0.009 0.00 600 573
1-pentanol C 5 H 12 O 138.0 -78.2 0.814 2.2 0.568
2-pentanol C 5 H 12 O 119.0 -50 0.810 4.5 0.4 8 8
3-pentanol C 5 H 12 O 115.3 -8 0.821 5.1 0.463
2-pentanon C 5 H 10 O 102.3 -76.9 0.809 4.3 0.321
3-pentanon C5H12O 101.7 -39.8 0.814 3.4 0.265 200
1-propanol C3H8O 97 -126 0.803 m 0.617 0.82
2-propanol C3H8O 82.4 -88.5 0.785 m 0.546 0.82 400 44
pyridine C5H5N 115.5 -42 0.982 m 0.302 0.71 5 20
tetrahydrofuran (THF) C4H8O 66 -108.4 0.886 30 0.207 0.57 200 200
tolueen C7H8 110.6 -93 0.867 0.05 0.099 0.29 50 29
water H2O 100.00 0.00 0.998 m 1.000 >>1
water, zwaar NS2O 101.3 4 1.107 m 0.991
P-xyleen C8H10 138.3 13.3 0.861 0.02 0.074 0.26 100 15

1 M = mengbaar.
2 De waarden voor relatieve polariteit zijn genormaliseerd uit metingen van oplosmiddelverschuivingen van absorptiespectra en waren
gewonnen uit Christian Reichardt, Oplosmiddelen en effecten van oplosmiddelen in de organische chemie, Wiley-VCH Publishers, 3e druk, 2003.
3 Snyder's empirische sterkteparameter voor elutiemiddel voor aluminiumoxide. Gehaald uit Reichardt, pagina 495.
4 Drempellimieten voor blootstelling. Gehaald uit Reichardt, pagina's 501-502.

TAFEL 2


Resultaten

Aantal valse positieven geëxplodeerd in schemerzone

In tegenstelling tot 1990, toen Sander en Schneider (1991) hun gegevens verzamelden, werden nu eiwitparen met een ongelijke structuur gedetecteerd boven de grens van 30% (Figuur 2A). En dit waren geen uitzonderingen: op een niveau van 32% (HSSP-curve + 7%, d.w.z. N = 7 in vergelijking 1), het aantal valse positieven was al gelijk aan dat van homologen. Voor de originele HSSP-curve was het aantal valse positieven 20 keer hoger dan het aantal echte paren. De overgang van 20 naar 30% sequentie-identiteit was zeer niet-lineair voor echte en valse positieven (logaritmische schalen in figuur 2): het aantal echte paren steeg met een factor 5, dat van valse paren met een factor 200 ( Figuur 2B). Dus onder het gebied van significante paarsgewijze sequentie-identiteit (>34%) explodeerde de populatie van valse positieven. De overgrote meerderheid van homologen had echter ook minder dan 30% sequentie-identiteit.

Functionele vorm van originele HSSP-curve adequaat

De functionele vorm van de oorspronkelijke HSSP-curve bleek in principe correct te zijn (Figuur 3, grijze lijn met driehoekjes). De grotere dataset die hier werd geanalyseerd, onthulde echter verschillende problemen in detail (Figuur 3B). (i) Een drempel van 25% was niet redelijk voor een uitlijningslengte van minder dan 150-200 residuen. (ii) Boven een uitlijningslengte van ongeveer 100 residuen, zou de afgeleide van de curve die echte en valse positieven scheidt lager moeten zijn dan bij lengtes onder 80. Ik heb geprobeerd deze problemen op te lossen door een nieuwe curve te definiëren voor het scheiden van echte en valse positieven (vgl. 2 Figuur 3 , grijze lijn met gestippelde cirkels). De bijzondere functionele vorm garandeerde een geschatte verzadiging voor lange uitlijningen. Voor uitlijningen korter dan 11 residuen leverde vergelijking 2 waarden boven 100% op. Dit was echter acceptabel, aangezien 100% identiteit voor fragmenten van 10-11 residuen dat wel doet niet impliceren structurele gelijkenis ( Cerpa et al., 1996 Minor en Kim, 1996 Muñoz en Serrano, 1996). De nieuwe curve verzadigde ongeveer 20% voor uitlijningen over meer dan 250 residuen.

Een curve definiëren voor paarsgewijze sequentieovereenkomst

Het compileren van sequentie-identiteit negeert de fysisch-chemische aard van aminozuren. Elke uitlijning van meerdere sequenties illustreert dat bijvoorbeeld het kenmerk hydrofobiciteit meer geconserveerd is dan het residutype. Voor de miljoen hier onderzochte eiwitparen kwam dit tot uiting in een verschuiving van de scatterplot naar lagere percentages (Figuur 4). In het bijzonder vallen valse positieven voor langere uitlijningen onder 15% paarsgewijze sequentieovereenkomst. Dit leidde tot de introductie van een drempel specifiek voor sequentieovereenkomst (vgl. 3 in Methoden Figuur 4, grijze lijn met gestippelde cirkels). De curve overtrof 100% voor uitlijningen korter dan 12 residuen en verzadigd bij ongeveer 10% voor uitlijningen over meer dan 500 residuen.

Betere detectie van homologen in schemerzone door nieuwe curven

De nieuwe curven voor lengte-afhankelijke cut-offs in sequentie-identiteit (eqn 2) en gelijkenis (eqn 3) resulteerden in duidelijk lagere fout-positieve percentages (hogere nauwkeurigheid) dan de oorspronkelijke HSSP-curve (Figuur 5B en C). Dit werd betaald door een lager aantal gedetecteerde echte positieven (lagere dekking Figuur 5A). Bij de n = 0 (vgl. 1-3), de oude curve leverde ongeveer twee keer meer echte positieven op, maar meer dan 20 keer meer valse positieven in vergelijking met de nieuwe curven voor identiteit en gelijkenis. Bovendien was op elk niveau van gedetecteerde echte positieven het aantal valse positieven kleiner voor de nieuwe curven (vgl. 2-3) dan voor de oorspronkelijke HSSP-curve (vgl. 1 Figuur 7 ). Bij het toepassen van een cut-off op basis van louter sequentie-identiteit (waarbij de lengte van de uitlijning wordt genegeerd), daalde de nauwkeurigheid tot onder 10% bij niveaus van 30% sequentie-identiteit (Figuur 5C). De detectienauwkeurigheid steeg dus bijna 10-voudig door de nieuwe curven.

Verbetering van de detectienauwkeurigheid door expertregel

Experts passen vaak vuistregels toe om echte en valse positieven visueel te onderscheiden. Veel van dergelijke eenvoudige regels bleken echter niet geldig voor automatische implementatie. Met name de verdelingen van het aantal en de lengte van inserties verschilden gemiddeld niet tussen valse en echte positieven (gegevens niet getoond). De detectienauwkeurigheid is marginaal verbeterd door de volgende regels toe te passen: (i) stel de afstand samen voor de overeenkomstscore N S (vgl. 3), en de identiteitsscore N I (vgl 2), gemiddelde over beide ([N S + N I ]/2) en accepteer paren wanneer dit gemiddelde boven een bepaalde drempel ligt N (ii) paren nemen wanneer een identiteit of gelijkenis de respectieve drempel overschrijdt (ofwel N S N ik > N) (iii) neem paren als beide waarden boven een gegeven grenswaarde (N S N ik > N). Daarentegen nam de detectienauwkeurigheid aanzienlijk toe door toepassing van de regel 'meer-gelijkaardig-dan-identiek': accepteer alleen gevonden treffers in een databasezoekopdracht als de procentuele overeenkomst groter is dan de procentuele identiteit. Deze beperking resulteerde in >98% detectienauwkeurigheid bij n = 0 afkapniveaus (vgl. 2-3), terwijl op dit niveau 2 tot 4 keer minder echte positieven werden gevonden (Figuur 5A en C). Vandaar dat deze regel, toegepast als een conservatieve grens bij automatische zoekopdrachten in databases, behoorlijk krachtig bleek.

Verbetering van de detectienauwkeurigheid door sequentie-space-hopping

Hoppen in sequentieruimte bleek succesvol in het weggooien van valse positieven. Reeds de minimale beperking om een ​​paar te accepteren als ten minste één eiwit gemeenschappelijk was tussen de twee sequentiefamilies, leverde niveaus van ongeveer 80% nauwkeurigheid op, zelfs tot afkapniveaus die overeenkomen met 20% sequentie-identiteit (Figuur 6A, vergeleken met <20% nauwkeurigheid voor de normale drempels Figuur 5C). De nauwkeurigheid nam verder toe naarmate meer eiwitten gemeenschappelijk moesten zijn voor beide families (Figuur 6A). Sequentie-ruimtehopping was echter slechts mogelijk voor relatief weinig eiwitparen (Figuur 6B). Bovendien was de verbetering in nauwkeurigheid minder duidelijk bij het gebruik van sequence-space-hopping dan bij het toepassen van de regel 'meer-gelijkend-dan-identiek' (Figuur 5 ).

Nauwkeurigheid versus dekking voor BLAST en volledige dynamische programmering

De balans tussen nauwkeurigheid (percentage echte paren) en dekking (percentage van alle echte paren) maakt het mogelijk om automatische drempels te kiezen op basis van een bepaald doel van een databasezoekopdracht. Het maakt het ook mogelijk om verschillende methoden te vergelijken (hoe hoger de waarden, hoe beter). (i) Zoals verwacht bleek het algemeen gebruikte eenvoudige niveau van sequentie-identiteit (ongeacht de lengte van de uitlijning) opnieuw een buitengewoon slechte keuze. (ii) Verrassend genoeg presteerde de snelle database-zoekmethode BLAST relatief goed in vergelijking met de volledige dynamische programmering (Figuur 7A). (iii) Zowel BLASTP versie 2 als PSI-BLAST waren bijna net zo goed als de volledige dynamische programmering met de eerder gedefinieerde HSSP-drempel (Sander en Schneider, 1991). (iv) De beste prestatie werd behaald door de nieuwe drempel voor gelijkenis (vgl. 3). (v) De ruwe uitlijningsscore presteerde echter bijna net zo goed. (vi) BLASTP (Altschul et al., 1990) presteerde vrij gelijkaardig aan de meer uitgebreide en recentere PSI-BLAST (Altschul et al., 1997) (en voor 'hoge' nauwkeurigheid zelfs iets beter, figuur 7A inzet opmerking: gezien het feit dat standaardparameters werden gekozen, was dit niet verrassend). De overeenkomstige drempels werden gegeven in figuur 5B voor de dynamische programmering en in figuur 7B voor de PSI-BLAST-waarschijnlijkheden.

Veel fout-negatieven bij redelijke afkapwaarden

Het aantal fout-negatieven is vaak van belang, d.w.z. het aantal eiwitten dat tot een structuurfamilie behoort maar niet boven een bepaalde grenswaarde werd gedetecteerd. Voor de hier gebruikte datasets was het cumulatieve percentage valse negatieven extreem hoog voor alle redelijke afkapniveaus (Figuur 5D).De overgrote meerderheid van alle paren van eiwitten met vergelijkbare structuur bevolken de middernachtzone onder 10% sequentie-identiteit (Rost, 1997). De extreem hoge fout-negatieve percentages bewezen dus dat methoden die twee eiwitten op één lijn brengen, louter gebaseerd op de paarsgewijze niveaus van sequentiehomologie, duidelijk niet de goudmijn van databasezoekopdrachten kunnen vinden (en dat oudere analyses die dit effect niet konden beschrijven, waren gebaseerd op vooringenomen datasets ).

Drempels voor praktisch gebruik

Voor de eenvoud werden de functies (vgl. 1-3) expliciet in tabellen gegeven (Rost, 1998). op niveaus van n = 0 (vgl. 1-3) het cumulatieve aantal echte positieven was (Figuur 5): HSSP-curve (vgl. 1), 12% nieuwe identiteitscurve (vgl 2), 56% nieuwe overeenkomstcurve (vgl 3), 73%. Om niveaus van 99% correcte treffers te bereiken m procentpunten moeten worden opgeteld bij de curven, waarbij: m was HSSP-curve, m = 8 nieuwe identiteitscurve, m = 5 nieuwe overeenkomstcurve, m = 12. Ter vergelijking, het toepassen van de regel 'meer-gelijkaardig-dan-identiek' leverde niveaus boven 99% op tot m = –1.


Voetnoten

Dit artikel is bewerkt door de Royal Society of Chemistry, inclusief de inbedrijfstelling, het peer review-proces en de redactionele aspecten tot het punt van acceptatie.

Gepubliceerd door de Royal Society onder de voorwaarden van de Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, die onbeperkt gebruik toestaat, op voorwaarde dat de oorspronkelijke auteur en bron worden vermeld.

Referenties

. 1963 Vaste fase peptidesynthese. I. De synthese van een tetrapeptide. J. Ben. Chem. soc. 85, 2149-2154. (doi:10.1021/ja00897a025) Crossref, Google Scholar

. 1999 Orthogonale ligatiestrategieën voor peptide en eiwit. Biopolymeren 51, 311-332. (doi:10.1002/(SICI)1097-0282(1999)51:5<311::AID-BIP2>3.0.CO2-A) Crossref, PubMed, Google Scholar

. 2000 Synthese van natieve eiwitten door chemische ligatie. Ann. ds. Biochem. 69, 923-960. (doi: 10.1146/annurev.biochem.69.1.923) Crossref, PubMed, Google Scholar

. 2009 Totale chemische synthese van eiwitten. Chem. soc. ds. 38, 338-351. (doi:10.1039/B700141J) Crossref, PubMed, Google Scholar

. 2010 Vooruitgang in chemische ligatiestrategieën voor de synthese van glycopeptiden en glycoproteïnen. Chem. gemeenschappelijk 46, 21-43. (doi:10.1039/B913845E) Crossref, PubMed, Google Scholar

. 2014 Vooruitgang in ligatietechnieken voor peptide- en eiwitsynthese. Aminozuren Pept. Eiwitten 39, 1–20. (doi:10.1039/9781849739962-00001) Crossref, Google Scholar

. 2017 Vooruitgang in chemische synthese van peptiden en eiwitten. Trans. Tianjin Univ. 23, 401-419. (doi:10.1007/s12209-017-0068-8) Crossref, Google Scholar

Qi YK, Tang S, Huang YC, Pan M, Zheng JS, Liu L

. 2016 Hmb uit/aan als een schakelbare thiol-beschermende groep voor natieve chemische ligatie. org. Biomol. Chem. 14, 4194-4198. (doi:10.1039/C6OB00450D) Crossref, PubMed, Google Scholar

. 1998 Expressed protein ligation, een nieuwe methode voor het bestuderen van eiwit-eiwit interacties in transcriptie. J. Biol. Chem. 273, 16 205-16 209. (doi:10.1074/jbc.273.26.16205) Crossref, Google Scholar

. 1998 Expressed protein ligation: een algemene methode voor eiwitmanipulatie. Proc. Natl Acad. Sci.VS 95, 6705-6710. (doi:10.1073/pnas.95.12.6705) Crossref, PubMed, Google Scholar

Becker C, Hunter CF, Seidel R, Kent SBH, Goody RS, Engelhard M

. 2003 Totale chemische synthese van een functioneel interactief eiwitpaar: het protooncogen H-Ras en het Ras-bindende domein van zijn effector c-Raf1. Proc. Natl Acad. Wetenschap. VS 100, 5075-5080. (doi:10.1073/pnas.0831227100) Crossref, PubMed, Google Scholar

. 2004 Een totale synthese in één pot van Crambin. Ange. Chem. 43, 2534-2538. (doi:10.1002/anie.200353540) Crossref, PubMed, Google Scholar

Li JB, Li YY, He QQ, Li YM, Li HT, Liu L

. 2014 Een-pot inheemse chemische ligatie van peptidehydraziden maakt totale synthese van gemodificeerde histonen mogelijk. org. Biomol. Chem. 12, 5435-5441. (doi:10.1039/C4OB00715H) Crossref, PubMed, Google Scholar

Ollivier N, Vicogne J, Vallin A, Drobecq H, Desmet R, Mahdi Q, Leclercq B, Goormachtigh G, Fafeur V, Melnyk O

. 2012 Een één-pot drie-segment ligatiestrategie voor eiwitchemische synthese. Ange. Chem. Int. Ed. 51, 209-213. (doi:10.1002/anie.201105837) Crossref, PubMed, Google Scholar

Aihara K, Yamaoka K, Naruse N, Inokuma T, Shigenaga A, Otaka A

. 2016 Een-pot/sequentiële inheemse chemische ligatie met behulp van photocaged crypto-thioester. org. Let. 18, 596-599. (doi:10.1021/acs.orglett.5b03661) Crossref, PubMed, Google Scholar

Otaka A, Sato K, Ding H, Shigenaga A

. 2012 Een-pot/sequentiële natieve chemische ligatie met behulp van N-sulfanylethylanilide-peptide. Chem. Aanbeveling 12, 479-490. (doi:10.1002/tcr.201200007) Crossref, PubMed, Google Scholar

Asahina Y, Kawakamia T, Hojo H

. 2017 Inheemse chemische ligatie in één pot door combinatie van twee orthogonale thioester-precursoren. Chem. gemeenschappelijk 53, 2114-2117. (doi:10.1039/C6CC10243C) Crossref, PubMed, Google Scholar

Bang D, Pentelute BL, Kent SB

. 2006 Kinetisch gecontroleerde ligatie voor de convergente chemische synthese van eiwitten. Ange. Chem. Int. Ed. Engels 45, 3985-3988. (doi:10.1002/anie.200600702) Crossref, PubMed, Google Scholar

. 2007 Sequentiële peptideligatie met behulp van een gecontroleerde cysteïnylprolylester (CPE) autoactiverende eenheid. Tetraëder Lett. 48, 1903-1905. (doi:10.1016/j.tetlet.2007.01.086) Crossref, Google Scholar

Zheng JS, Cui HK, Fang GM, Xi WX, Liu L

. 2010 Chemische eiwitsynthese door kinetisch gecontroleerde ligatie van peptide O-esters. ChemBioChem 11, 511-515. (doi:10.1002/cbic.200900789) Crossref, PubMed, Google Scholar

Erlich LA, Kumar KS, Haj-Yahya M, Dawson PE, Brik A

. 2010 N-methylcysteïne-gemedieerde totale chemische synthese van ubiquitine-thioester. org. Biomol. Chem. 8, 2392-2396. (doi:10.1039/c000332h) Crossref, PubMed, Google Scholar

Fang GM, Li YM, Shen F, Huang YC, Li JB, Lin Y, Cui HK, Liu L

. 2011 Chemische eiwitsynthese door ligatie van peptidehydraziden. Ange. Chem. Int. Ed. Engels 50, 7645-7649. (doi:10.1002/anie.201100996) Crossref, PubMed, Google Scholar

Yang R, Hou W, Zhang X, Liu CF

. 2012 N-naar-C sequentiële ligatie met peptidyl N,N-bis(2-mercaptoethyl)amide-bouwstenen. org. Let. 14, 374-377. (doi:10.1021/ol2031284) Crossref, PubMed, Google Scholar

Bello C, Wang S, Meng L, Moremen KW, Becker C

. 2015 Een gepegyleerd, door licht te splitsen hulpmiddel medieert de opeenvolgende enzymatische glycosylering en natieve chemische ligatie van peptiden. Ange. Chem. Int. Ed. 54, 7711-7715. (doi:10.1002/anie.201501517) Crossref, PubMed, Google Scholar

Schwagerus S, Reimann O, Despres C, Smet-Nocca C, Hackenberger C

. 2016 Semi-synthese van een tag-vrij O-GlcNAcylated tau-eiwit door sequentiële chemoselectieve ligatie. J. Pep. Wetenschap. 22, 327-333. (doi:10.1002/psc.2870) Crossref, PubMed, Google Scholar

Takenouchi T, Katayama H, Nakahara Y, Nakahara Y, Hojo H

. 2014 Een nieuw apparaat voor thioesterificatie na ligatie maakt peptide-ligatie in de N naar C-richting mogelijk: synthetische studie van humaan glycodeline. J. Pep. Wetenschap. 20, 55-61. (doi:10.1002/psc.2592) Crossref, PubMed, Google Scholar

Lee CL, Liu H, Wong CTT, Chow HY, Li XC

. 2016 N-naar-C Ser/Thr-ligatie inschakelen voor convergente eiwitsynthese door chemische ligatiebenaderingen te combineren. J. Ben. Chem. soc. 138, 10 477-10 484. (doi:10.1021/jacs.6b04238) Crossref, Google Scholar

Hou W, Zhang X, Li FP, Liu CF, Peptidyl N

. 2011 N-bis (2-mercaptoethyl) -amiden als thioester-precursoren voor natieve chemische ligatie. org. Let. 13, 386-389. (doi:10.1021/ol102735k) Crossref, PubMed, Google Scholar

Ollivier N, Dheur J, Mhidia R, Blanpain A, Melnyk O

. 2010 Bis (2-sulfanylethyl) amino-natieve peptide-ligatie. org. Let. 12, 5238-5241. (doi:10.1021/ol102273u) Crossref, PubMed, Google Scholar

. 1996 Acyldisulfide-gemedieerde intramoleculaire acylering voor orthogonale koppeling tussen onbeschermde peptidesegmenten. Mechanisme en toepassing. Tetraëder Lett. 37, 933-936. (doi:10.1016/0040-4039(95)02394-1) Crossref, Google Scholar

Dawson PE, Muir TW, Clark-Lewis I, Kent SB

. 1994 Synthese van eiwitten door natuurlijke chemische ligatie. Wetenschap 266, 776–779. (doi: 10.1126/science.7973629) Crossref, PubMed, Google Scholar

. 1972 Zuivering van monellin, het zoete principe van Dioscoreophyllum cumminsii . Biochim. Biofysica. Acta 261, 114-122. (doi:10.1016/0304-4165(72)90320-0) Crossref, PubMed, Google Scholar

. 1973 Chemostimulerend eiwit: een nieuw type smaakstimulus. Wetenschap 181, 32-35. (doi: 10.1126/science.181.4094.32) Crossref, PubMed, Google Scholar

Tancredi T, Iijima H, Saviano G, Amodeo P, Temussi PA

. 1992 Structurele bepaling van de actieve plaats van een zoet eiwit: een 1H NMR-onderzoek van pMNEI. FEBS Lett. 310, 27-30. (doi:10.1016/0014-5793(92)81138-C) Crossref, PubMed, Google Scholar

. 2008 Vaste-fasesynthese van peptidethiozuren door hydrothiolyse van harsgebonden peptidethioesters. Tetraëder Lett. 49, 6122-6125. (doi:10.1016/j.tetlet.2008.08.018) Crossref, Google Scholar

Kaiser E, Colescott RL, Bossinger CD, Cook PI

. 1970 Kleurtest voor detectie van vrije terminale aminogroepen in de vaste-fasesynthese van peptiden. Anaal. Biochem. 34, 595-598. (doi:10.1016/0003-2697(70)90146-6) Crossref, PubMed, Google Scholar

Kim SH, Kang CH, Kim R, Cho JM, Lee YB, Lee TK

. 1989 Herontwerp van een zoet eiwit: verhoogde stabiliteit en renaturabiliteit. Eiwit Eng. 2, 571-575. (doi:10.1093/proteïne/2.8.571) Crossref, PubMed, Google Scholar


Materialen en methodes

Niet-redundante reeks eiwitstructuren

De redundantie in de PDB-database (juni 2005) werd gefilterd tot een representatieve lijst, zodat de MAMMOTH-uitlijning [27] van elke twee ketens in de lijst niet voldoet aan ten minste een van de volgende vier cut-offs: een minimum van 90% sequentie-identiteit minimaal 90% Cα-atomen uitgelijnd binnen 4 Å maximaal 1 Å Cα wortelgemiddelde afwijking en maximaal 50 residuverschil in lengte. Elke niet-redundante keten vertegenwoordigt alle andere PDB-ketens in de initiële lijst die de hierboven genoemde cut-offs passeren voor alle paarsgewijze vergelijkingen binnen de groep waar mogelijk, de vertegenwoordiger werd gekozen door de resolutie te maximaliseren. Bovendien werden verouderde PDB-vermeldingen en vermeldingen met ontbrekende atomen uit de initiële set verwijderd, wat resulteerde in een definitieve lijst van 22.732 eiwitketens. Om de impact van de PDB-redundantie op de nauwkeurigheid van de EvP's bij modelbeoordeling te beoordelen, werd de uiteindelijke representatieve reeks ketens verder geclusterd door de sequentie-identiteit en structuurovereenkomst-cut-offs te variëren (tabel S1 in aanvullend gegevensbestand 1).

Uitlijning van meerdere sequenties

Een MSA voor elk van de 22.732 niet-redundante PDB-ketens werd gebouwd met behulp van PSI-BLAST (versie 2.2.10) [28] om te zoeken tegen de NCBI nr databank (juni 2005). De zoekopdracht werd uitgevoerd zonder samenstellingsvooringenomen segmenten uit te filteren, met een looptijd van maximaal 5 iteraties en tot 100.000 sequentiehits met een e-waarde kleiner dan 5 × 10 -4 . Alle andere PSI-BLAST-parameters werden ingesteld op hun standaardwaarden. Door het verwijderen van die eiwitketens die waren uitgelijnd met minder dan 20%, 40% of 60% sequentie-identiteit met het query-eiwit, werden de MSA's verder gefilterd. Ten slotte werden alle gefilterde MSA's met 50 of meer sequenties gebruikt voor het afleiden van EvP's (tabel S1 in aanvullend gegevensbestand 1).

Sequentieweging

Een op positie gebaseerde sequentieweging die lage gewichten toekent aan oververtegenwoordigde sequenties en hoge gewichten aan unieke sequenties werd gebruikt om te compenseren voor niet-uniforme verdeling van de homologe eiwitsequenties in een MSA [29]. De volgordegewichten W Jwerden berekend als:

waar R lis het aantal verschillende residutypes op positie l, en Nl,Jis de frequentie van voorkomen van het type residu in positie l en volgorde J met betrekking tot alle residuen in positie l.

Afleiding van op kennis gebaseerde mogelijkheden

In dit werk zijn twee verschillende soorten op kennis gebaseerde potentialen afgeleid: een representatief afstandsafhankelijk potentieel (REP), gebruikt als een basislijn om de impact van onze nieuwe aanpak te benchmarken, en een reeks structuurspecifieke afstandsafhankelijke potentialen die hier EvP's worden genoemd. . Het unieke verschil tussen de REP- en de EvP-potentialen was de geselecteerde structurele invoerruimte voor hun afleiding en het gebruik van sequentie-informatie. Aan de ene kant werd het REP-potentieel berekend uit een set van 22.732 niet-redundante eiwitstructuren (Figuur 4a) volgens de benadering die gewoonlijk wordt gebruikt om afstandsafhankelijke potentialen af ​​te leiden [7, 19, 30-35]. Aan de andere kant werd voor 20.008 van de 22.732 niet-redundante eiwitstructuren (dat wil zeggen structuren met meer dan 50 homologe sequenties in hun MSA), een EvP berekend met behulp van de sequentievariabiliteit in een set homologe sequenties voor de geselecteerde structuur ( Figuur 4b). Elke EvP werd afgeleid door vrijwel alle homologe sequenties in de MSA in de geselecteerde structuur te rijgen, die werd gebruikt als richtlijn voor de vervanging van het aminozuurtype op elke positie. Men kan dus zeggen dat de 20.008 EvP's coderen voor de sequentievariatie die is waargenomen in de MSA voor elk van de niet-redundante structuren. In het kort, de threading-aanpak die werd geïmplementeerd voor het afleiden van EvP's volgde drie stappen: ten eerste, verzamel alle paarsgewijze uitlijningen tussen de geselecteerde structuur en zijn homologe sequenties in de MSA ten tweede, gebruik elke paarsgewijze uitlijning als richtlijn, vervang het aminozuurtype in de geselecteerde structuur door de ene in de homologe sequentie en de derde, voor een gapped positie, houd het oorspronkelijke residu in de geselecteerde structuur. Er werden ook twee variaties van dit protocol getest, waaronder de verwijdering van residuen in de structuur uitgelijnd met een opening en de hernummering van de templateresiduen (dat wil zeggen, het beïnvloeden van de sequentiescheidingswaarde van het statistische potentieel). De geteste protocollen vertoonden geen statistische verschillen tussen de resulterende EvP's (tabel S6 in aanvullend gegevensbestand 1). Het tellen van residu-residu-interacties voor het afleiden van een EvP was evenredig met het sequentiegewicht dat verantwoordelijk is voor redundantie binnen de MSA.

EvP- en REP-afleidingsprotocollen. (een) Het REP-potentieel is gebouwd in een proces van drie stappen om: stap 1, een niet-redundante set eiwitstructuren te genereren uit de PDB-database, stap 2, alle afstandsfrequenties voor residuen en residuen te berekenen binnen elk van de representatieve ketens van stap 1 en stap 3, een op kennis gebaseerd potentieel afleiden met behulp van de inverse Boltzmann-wet om de ruwe frequenties om te zetten in pseudo-energietermen. (B) De EvP's zijn gebouwd in een proces van zes stappen om: stap 1, een niet-redundante set eiwitstructuren te genereren uit de PDB-database stap 2, elk van de representatieve ketens te selecteren als querystructuren stap 3, een MSA te berekenen met behulp van de PSI- BLAST programma stap 4, rijg alle homologe sequenties in de zoekstructuur met behulp van de op sequentie gebaseerde uitlijning van de vorige stap stap 5, bereken alle afstandsfrequenties van residu-residu's en stap 6, ontleen een op kennis gebaseerd potentieel met behulp van de inverse Boltzmann-wet om te transformeren de ruwe frequenties in termen van pseudo-energie.

In tegenstelling tot de REP, waar de niet-redundante set van eiwitstructuren de trainingsset vormde, was er geen enkele en unieke trainingsset voor het afleiden van een EvP. De trainingssets die in EvP's werden gebruikt, waren de daadwerkelijke uitlijning van meerdere sequenties die specifiek zijn voor elke geselecteerde structuur.

Naast de REP en de EvP's werd een enkel consensuspotentieel (CON) afgeleid met behulp van de som van de waargenomen interactiefrequenties van elk van de 20.008 individuele EvP's. De CON-potentiaal codeert dus voor de structurele ruimte die wordt omvat door de niet-redundante reeks structuren, evenals voor de sequentieruimte die wordt ingenomen door hun homologe sequenties.

Alle potentiëlen die in dit werk zijn afgeleid, werden berekend met behulp van onze eerder geoptimaliseerde parameters voor modelbeoordeling [7]. In het kort, de potentialen die Cα- en Cβ-atomen als interactiecentra gebruikten, onderscheiden tussen alle 20 standaard residutypes, hadden een maximaal afstandsbereik van 15 A verdeeld in 30 bins van 0, 5 A elk, en waren verantwoordelijk voor de sequentiescheiding van de interagerende atoomparen. Lokale interacties werden onafhankelijk beschouwd met behulp van sequentiescheidingen van 2, 3, 4, 5, 6, 7 en 8 residuen en niet-lokale interacties werden beschouwd door de interacties met sequentiescheidingen groter dan of gelijk aan 9 residuen in een enkele term te groeperen.

Z-scores

Energie Z-scores werden berekend op basis van de eiwitmodel-energie, het gemiddelde en de standaarddeviatie van de op kennis gebaseerde potentiële energie van 1.000 willekeurige sequenties met dezelfde aminozuursamenstelling en structuur van het eiwitmodel, zoals eerder beschreven [7].

Model beoordelingsprotocol

Een EvP werd berekend voor elk van de niet-redundante ketens in het VOB en vertegenwoordigde een bepaalde reeks vergelijkbare structuren. De selectie van een EvP voor het beoordelen van de nauwkeurigheid van een bepaald model kan dus een impact hebben op de uiteindelijke nauwkeurigheid van onze methode. Verschillende protocollen werden geïmplementeerd en getest om een ​​dergelijke impact te beoordelen.

Selectie op basis van sjablonen

De sjabloonstructuur die werd gebruikt om het model te bouwen, werd verkregen uit de overeenkomstige uitlijning van de sequentiestructuur die tijdens de modellering werd gebruikt. Vervolgens werd de EvP die de structurele cluster van de sjabloon vertegenwoordigt, gebruikt om de nauwkeurigheid van het model te evalueren.

Sjabloonvrije selectie

Om de impact van de EvP-selectie voor sjabloonvrije modellen te beoordelen, werden de PSI-BLAST- en BLAST-algoritmen gebruikt met standaardwaarden om de beste overeenkomst tussen de sequentie van het model en onze database met EvP's te detecteren.

Willekeurige selectie

Het zogenaamde willekeurige potentieel (RND) werd berekend door willekeurig een van de 20.008 EvP's te selecteren om de nauwkeurigheid van een bepaald model te beoordelen.

Om vertekende resultaten te voorkomen, werd de EvP die is afgeleid voor de doelstructuur verwijderd voorafgaand aan EVP-selectie in alle drie de protocollen. Het is echter belangrijk op te merken dat het niet zeker is, zelfs niet conceptueel, dat het rigoureus testen van een methode niet mag steunen op structuren die vergelijkbaar zijn met of identiek zijn aan die waarvan de potentialen zijn afgeleid. In de praktijk zullen statistische mogelijkheden worden gebruikt bij de modelbeoordeling van vergelijkende modellen die qua constructie vergelijkbaar zijn met bekende eiwitstructuren.Daarom zijn alle bekende eiwitstructuren legitieme bronnen voor het afleiden van alle statistische mogelijkheden die worden gebruikt in praktische modelbeoordeling, inclusief die bekende structuren die toevallig gerelateerd zijn aan het beoordeelde model.

Testset van vergelijkende modellen

De evaluatie van de EvP's voor modelbeoordeling was gebaseerd op een initiële set van 9.645 structurele modellen verdeeld in 3.375 correcte en 6.270 incorrecte modellen [7, 22]. Een correct model werd gedefinieerd als een model waarvoor ten minste 30% van de Cα-atomen binnen 3,5 A gesuperponeerd zijn met die van de echte structuur, en is dus gebaseerd op een juiste vouwtoewijzing en een relatief nauwkeurige sequentie / structuuruitlijning. Onjuiste modellen (dat wil zeggen, minder dan 15% van de Cα-atomen binnen 3,5 superponeren) werden gebouwd met een verkeerde vouw of gebaseerd op de juiste vouw, maar bevatten een groot deel van de verkeerde uitlijning. Zo vertegenwoordigde de testset van eiwitstructuurmodellen, die het resultaat was van een grootschalige vergelijkende modellering van het volledige VOB [22], de bekende structurele ruimte van het eiwit. Deze reeks vergelijkende modellen is eerder en uitgebreid gebruikt om methoden voor modelbeoordeling te benchmarken [7, 17, 22, 36, 37].

Om alle potentialen eerlijk te kunnen vergelijken, werd de initiële testset teruggebracht tot 1.877 correcte en 2.567 incorrecte modellen, wat overeenkwam met die waarvoor een EvP kon worden afgeleid voor alle clustering-cut-offs (Tabel S1 in Aanvullend gegevensbestand 1). Aangezien een EvP niet op betrouwbare wijze kan worden afgeleid voor representatieve structuren met minder dan 50 homologe sequenties [7], had een groot deel van de modellen geen afgeleide EvP voor hun overeenkomstige sjabloonstructuren in het CLS-90-90_MSA-60-cluster. Een EvP bij CLS-90-90 en MSA-20, die overeenkomt met het meest nauwkeurige kennisgebaseerde potentieel (resultaten), kon echter worden berekend voor 96,4% (3.253) en 94,8% (5.942) van juiste en onjuiste modellen in respectievelijk de testset.

Alle mogelijke scores, de modellen voor de twee datasets die in dit werk worden gebruikt, evenals de EvP's zijn beschikbaar om te downloaden op [38].

Benchmarkcriteria

De nauwkeurigheid van de op kennis gebaseerde potentialen werd geëvalueerd door middel van de maximale nauwkeurigheid (ACC) en de AUC, die werden berekend op basis van een ROC-curve (Receiver Operating Characteristics) [39] met correcte modellen als positieve instanties en onjuiste modellen als negatieve instanties . Een ROC-curve wordt verkregen door de FPR (d.w.z. fractie van onjuiste modellen beoordeeld als correct) uit te zetten tegen de overeenkomstige TPR (dat wil zeggen, fractie van juiste modellen beoordeeld als correct) voor alle mogelijke cut-offs op de energie Z-score. De AUC, een drempelonafhankelijke maatstaf, wordt beschouwd als een robuuste indicator van de kwaliteit van een classificatie, gezien de onafhankelijkheid van de geselecteerde drempel en de correlatie met de waarschijnlijkheid van de classificatiefout [39]. De optimale classificatiedrempel die leidt tot de maximale ACC wordt ook gerapporteerd voor elk getest potentieel.

Andere gebenchmarkte methoden

Twee veelgebruikte, op kennis gebaseerde mogelijkheden voor foutdetectie in eiwitstructuurmodellen werden ook geëvalueerd om een ​​aanvullend en objectief referentiekader te bieden voor het evalueren van de nauwkeurigheid van de EvP's. Ten eerste berekent het Prosa II-programma [4, 20, 21], afgeleid van een reeks niet-redundante structuren, een energiescore en een Z-score voor een invoermodel. Ten tweede berekent het DFIRE-programma [19], afgeleid door gebruik te maken van een op afstand geschaald eindig ideaal-gas als referentietoestand, een energiescore voor een model. De uiteindelijke DFIRE Z-scores werden berekend met behulp van de hierboven beschreven procedure. Beide programma's, Prosa II en DFIRE, werden lokaal uitgevoerd met hun respectievelijke standaardparameters.

Statistische significantie van de verschillen tussen de geëvalueerde potentialen

De statistische significantie van de waargenomen verschillen tussen twee potentialen die als binaire classificaties worden gebruikt, werd geëvalueerd door een niet-parametrische test die de correlatie van de ROC-curven verklaart [40]. Deze test maakt gebruik van de gelijkheid tussen de Mann-Whitney U-statistiek en de AUC wanneer berekend door de trapeziumregel voor het vergelijken van twee distributies. Een chikwadraatstatistiek berekent de significantie (P-waarde) van het verschil tussen de AUC gemeten voor de twee classifiers. De resultaten die overeenkomen met de statistische vergelijkingen worden gerapporteerd in het aanvullende gegevensbestand 1 (tabellen S1 en S3-S5).


Bekijk de video: Toegankelijkheid in de zorg (December 2022).