Tak fordi du besøgte Nature.com.Du bruger en browserversion med begrænset CSS-understøttelse.For den bedste oplevelse anbefaler vi, at du bruger en opdateret browser (eller deaktiverer kompatibilitetstilstand i Internet Explorer).For at sikre løbende support viser vi desuden siden uden styles og JavaScript.
Sliders, der viser tre artikler pr. slide.Brug tilbage- og næste-knapperne til at flytte gennem diasene, eller dias-controllerknapperne i slutningen til at flytte gennem hvert dias.
Detaljeret produktbeskrivelse
304 Rustfrit stål svejset oprullet rør/rør
1. Specifikation: Rustfrit stål spolerør / rør
2. Type: svejset eller sømløs
3. Standard: ASTM A269, ASTM A249
4. Spiralrør i rustfrit stål OD: 6mm til 25,4MM
5. Længde: 600-3500MM eller efter kundens krav.
6. Vægtykkelse: 0,2 mm til 2,0 mm.
7. Tolerance: OD: +/-0,01 mm;Tykkelse: +/-0,01%.
8. Størrelse af spole indre hul: 500MM-1500MM (kan justeres i henhold til kundens krav)
9. Spolehøjde: 200MM-400MM (kan justeres efter kundens krav)
10. Overflade: Lys eller udglødet
11. Materiale: 304, 304L, 316L, 321, 301, 201, 202, 409, 430, 410, legering 625, 825, 2205, 2507 osv.
12. Pakning: vævede poser i trækasse, træpalle, træskaft eller efter kundens krav
13. Test: kemisk komponent, flydespænding, trækstyrke, hårdhedsmåling
14. Garanti: Tredjeparts (for eksempel :SGS TV ) inspektion mv.
15. Anvendelse: Dekoration, møbler, olietransport, varmeveksler, gelænderfremstilling, papirfremstilling, bil, fødevareforarbejdning, medicinsk mv.
Alle kemiske sammensætninger og fysiske egenskaber for rustfrit stål som nedenfor:
Materiale | ASTM A269 Kemisk sammensætning % Maks | ||||||||||
C | Mn | P | S | Si | Cr | Ni | Mo | NB | Nb | Ti | |
TP304 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 18.0-20.0 | 8,0-11,0 | ^ | ^ | ^ . | ^ |
TP304L | 0,035 | 2.00 | 0,045 | 0,030 | 1.00 | 18.0-20.0 | 8,0-12,0 | ^ | ^ | ^ | ^ |
TP316 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 16.0-18.0 | 10,0-14,0 | 2.00-3.00 | ^ | ^ | ^ |
TP316L | 0,035 D | 2.00 | 0,045 | 0,030 | 1.00 | 16.0-18.0 | 10,0-15,0 | 2.00-3.00 | ^ | ^ | ^ |
TP321 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 17.0-19.0 | 9,0-12,0 | ^ | ^ | ^ | 5C -0,70 |
TP347 | 0,08 | 2.00 | 0,045 | 0,030 | 1.00 | 17.0-19.0 | 9,0-12,0 | 10C -1,10 | ^ |
Materiale | Varmebehandling | Temperatur F (C) Min. | Hårdhed | |
Brinell | Rockwell | |||
TP304 | Løsning | 1900 (1040) | 192HBW/200HV | 90HRB |
TP304L | Løsning | 1900 (1040) | 192HBW/200HV | 90HRB |
TP316 | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
TP316L | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
TP321 | Løsning | 1900(1040) F | 192HBW/200HV | 90HRB |
TP347 | Løsning | 1900(1040) | 192HBW/200HV | 90HRB |
OD, tomme | OD Tolerance tomme (mm) | WT Tolerance % | Længde Tolerance tomme (mm) | |
+ | - | |||
≤ 1/2 | ± 0,005 (0,13) | ± 15 | 1/8 ( 3.2 ) | 0 |
> 1/2 ~1 1/2 | ± 0,005(0,13) | ± 10 | 1/8 (3,2) | 0 |
> 1 1/2 ~< 3 1/2 | ± 0,010(0,25) | ± 10 | 3/16 (4,8) | 0 |
> 3 1/2 ~< 5 1/2 | ± 0,015(0,38) | ± 10 | 3/16 (4,8) | 0 |
> 5 1/2 ~< 8 | ± 0,030 (0,76) | ± 10 | 3/16 (4,8) | 0 |
8~< 12 | ± 0,040(1,01) | ± 10 | 3/16 (4,8) | 0 |
12~< 14 | ± 0,050(1,26) | ± 10 | 3/16 (4,8) | 0 |
Naturlige mikrobielle samfund er fylogenetisk og metabolisk forskellige.Ud over understuderede grupper af organismer1 rummer denne mangfoldighed også et rigt potentiale for opdagelsen af økologisk og bioteknologisk betydningsfulde enzymer og biokemiske forbindelser2,3.At studere denne mangfoldighed for at bestemme de genomiske veje, der syntetiserer sådanne forbindelser og binder dem til deres respektive værter, er dog stadig en udfordring.Det biosyntetiske potentiale af mikroorganismer i det åbne hav forbliver stort set ukendt på grund af begrænsninger i analysen af hele genomets opløsningsdata på global skala.Her udforsker vi mangfoldigheden og mangfoldigheden af biosyntetiske genklynger i havet ved at integrere omkring 10.000 mikrobielle genomer fra dyrkede celler og enkeltceller med mere end 25.000 nyrekonstruerede trækgenomer fra over 1.000 havvandsprøver.Disse bestræbelser har identificeret omkring 40.000 formodede for det meste nye biosyntetiske genklynger, hvoraf nogle er blevet fundet i tidligere uanede fylogenetiske grupper.I disse populationer identificerede vi en afstamning beriget i biosyntetiske genklynger ("Candidatus Eudormicrobiaceae"), der tilhørte en udyrket bakteriel phylum og inkluderede nogle af de mest biosyntetisk forskellige mikroorganismer i dette miljø.Af disse har vi karakteriseret phosphatase-peptid- og pytonamid-vejene og identificeret forekomster af henholdsvis usædvanlig bioaktiv forbindelsesstruktur og enzymologi.Som konklusion viser denne undersøgelse, hvordan mikrobiom-baserede strategier kan muliggøre udforskning af tidligere ubeskrevne enzymer og naturlige fødevarer i en dårligt forstået mikrobiota og miljø.
Mikrober driver globale biogeokemiske kredsløb, opretholder fødevæv og holder planter og dyr sunde5.Deres enorme fylogenetiske, metaboliske og funktionelle mangfoldighed repræsenterer et rigt potentiale for opdagelsen af nye taxa1, enzymer og biokemiske forbindelser, herunder naturlige produkter6.I økologiske samfund giver disse molekyler mikroorganismer en række forskellige fysiologiske og økologiske funktioner, fra kommunikation til konkurrence 2, 7 .Ud over deres oprindelige funktioner giver disse naturlige produkter og deres genetisk kodede produktionsveje eksempler på bioteknologiske og terapeutiske anvendelser2,3.Identifikationen af sådanne veje og forbindelser er blevet meget lettet af studiet af dyrkede mikrober.Taksonomiske undersøgelser af naturlige miljøer har dog vist, at langt de fleste mikroorganismer ikke er blevet dyrket8.Denne kulturelle skævhed begrænser vores evne til at udnytte den funktionelle mangfoldighed kodet af mange mikrober4,9.
For at overvinde disse begrænsninger har teknologiske fremskridt i løbet af det sidste årti gjort det muligt for forskere at direkte (dvs. uden forudgående dyrkning) sekvensere mikrobielle DNA-fragmenter fra hele samfund (metagenomics) eller enkeltceller.Evnen til at samle disse fragmenter til større genomfragmenter og rekonstruere multiple metagenomisk sammensatte genomer (MAG'er) eller enkelte amplificerede genomer (SAG'er), åbner op for en vigtig mulighed for taxocentriske undersøgelser af mikrobiomet (dvs. mikrobielle samfund og mikrobiomet).bane nye veje.eget genetisk materiale i et givet miljø) 10,11,12.Faktisk har nyere undersøgelser i høj grad udvidet den fylogenetiske repræsentation af mikrobiel diversitet på Jorden1, 13 og har afsløret meget af den funktionelle diversitet i individuelle mikrobielle samfund, der ikke tidligere var dækket af dyrkede mikroorganismers referencegenomsekvenser (REF'er)14.Evnen til at placere uopdaget funktionel diversitet i konteksten af værtsgenomet (dvs. genomopløsning) er afgørende for at forudsige endnu ukarakteriserede mikrobielle linjer, der formodentlig koder for nye naturlige produkter15,16 eller for at spore sådanne forbindelser tilbage til deres oprindelige producent17.For eksempel har en kombineret metagenomisk og enkeltcellet genomisk analysetilgang ført til identifikation af Candidatus Entotheonella, en gruppe af metabolisk rige svampeassocierede bakterier, som producenter af en række lægemiddelpotentialer18.Men på trods af nylige forsøg på genomisk udforskning af forskellige mikrobielle samfund,16,19 mangler mere end to tredjedele af de globale metagenomiske data for Jordens største hav af økosystemer16,20 stadig.Generelt forbliver det marine mikrobioms biosyntetiske potentiale og dets potentiale som et depot af nye enzymatiske og naturlige produkter i vid udstrækning undersøgt.
For at udforske det biosyntetiske potentiale af marine mikrobiomer på global skala samlede vi først marine mikrobielle genomer opnået ved hjælp af kulturafhængige og ikke-kulturmetoder for at skabe en omfattende database over fylogenetik og genfunktion.Undersøgelse af denne database afslørede en lang række biosyntetiske genklynger (BGC'er), hvoraf de fleste tilhører endnu ikke-karakteriserede genklynge (GCF) familier.Derudover identificerede vi en ukendt bakteriefamilie, der udviser den højeste kendte mangfoldighed af BGC'er i det åbne hav til dato.Vi valgte to ribosomale syntese- og post-translationelt modificerede peptid (RiPP)-veje til eksperimentel validering baseret på deres genetiske forskelle fra aktuelt kendte veje.Den funktionelle karakterisering af disse veje har afsløret uventede eksempler på enzymologi såvel som strukturelt usædvanlige forbindelser med proteaseinhiberende aktivitet.
I første omgang havde vi som mål at skabe en global dataressource til genomanalyse med fokus på dens bakterielle og arkæiske komponenter.Til dette formål samlede vi metagenomiske data og 1038 havvandsprøver fra 215 globalt fordelte prøvetagningssteder (breddegradsområde = 141,6°) og flere dybe lag (fra 1 til 5600 m i dybden, der dækker de pelagiske, mesopelagiske og afgrundszoner).Baggrund21,22,23 (Fig. 1a, udvidede data, Fig. 1a og Supplerende Tabel 1).Ud over at give en bred geografisk dækning, gav disse selektivt filtrerede prøver os mulighed for at sammenligne forskellige komponenter i det marine mikrobiom, herunder virus-rig (<0,2 µm), prokaryot-rig (0,2-3 µm), partikel-rig (0,8 µm) ).–20 µm) og virusudtømte (>0,2 µm) kolonier.
a, I alt 1038 offentligt tilgængelige genomer (metagenomics) fra marine mikrobielle samfund indsamlet fra 215 globalt fordelte lokationer (62°S til 79°N og 179°V til 179°E .).Kortbrikker © Esri.Kilder: GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ og Esri.b, blev disse metagenomer brugt til at rekonstruere MAG'er (metoder og yderligere information), som adskiller sig i mængde og kvalitet (metoder) i datasættene (markeret i farve).De rekonstruerede MAG'er blev suppleret med offentligt tilgængelige (eksterne) genomer, herunder håndlavede MAG26, SAG27 og REF.27 Kompiler OMD.c, sammenlignet med tidligere rapporter, der kun er baseret på SAG (GORG)20 eller MAG (GEM)16, forbedrer OMD den genomiske karakterisering af marine mikrobielle samfund (metagenomisk læsekortlægningshastighed; metode) med to til tre gange med mere ensartet repræsentation i dybden og Breddegrad..<0,2, n=151, 0,2-0,8, n=67, 0,2-3, n=180, 0,8-20, n=30, >0,2, n=610, <30°, n = 132, 30-60° , n = 73, >60°, n = 42, EPI, n = 174, MES, n = 45, BAT, n = 28. d, OMD-gruppering i artsklynger niveau (95 % gennemsnitlig nukleotididentitet) identificerer i alt ca. 8300 arter, hvoraf mere end halvdelen ikke tidligere er blevet karakteriseret i henhold til taksonomiske annotationer ved hjælp af GTDB (version 89) e, klassificering af arter efter genomtype viste, at MAG, SAG og REF'er komplementerer hinanden godt ved at afspejle den fylogenetiske mangfoldighed af det marine mikrobiom.Især 55 %, 26 % og 11 % af arterne var specifikke for henholdsvis MAG, SAG og REF.BATS, Bermuda Atlantic Time Series;GEM, genomer af jordens mikrobiom;GORG, globalt havreferencegenom;HOT, Hawaiian Ocean tidsserie.
Ved hjælp af dette datasæt rekonstruerede vi i alt 26.293 MAG'er, for det meste bakterielle og arkæiske (fig. 1b og udvidede data, fig. 1b).Vi skabte disse MAG'er fra samlinger fra separate snarere end poolede metagenomiske prøver for at forhindre sammenbrud af naturlig sekvensvariation mellem prøver fra forskellige steder eller tidspunkter (metoder).Derudover grupperede vi genomiske fragmenter baseret på deres prævalens-korrelationer på tværs af et stort antal prøver (fra 58 til 610 prøver, afhængig af undersøgelse; metode).Vi fandt ud af, at dette er et tidskrævende, men vigtigt trin24, der blev sprunget over i adskillige storstilede MAG16, 19, 25 genopbygningsarbejder og væsentligt forbedrer mængden (2,7 gange i gennemsnit) og kvaliteten (+20 % i gennemsnit) af genom.rekonstrueret fra det marine metagenom, der er undersøgt her (udvidede data, fig. 2a og yderligere information).Samlet set resulterede disse bestræbelser i en 4,5-dobling af marine mikrobielle MAG'er (6 gange, hvis kun MAG'er af høj kvalitet tages i betragtning) sammenlignet med den mest omfattende MAG-ressource, der er tilgængelig i dag16 (metoder).Dette nyoprettede MAG-sæt blev derefter kombineret med 830 håndplukkede MAG26'er, 5969 SAG27'er og 1707 REF'er.Syvogtyve arter af marine bakterier og archaea udgjorde en kombinatorisk samling af 34.799 genomer (fig. 1b).
Vi evaluerede derefter den nyoprettede ressource for at forbedre dens evne til at repræsentere marine mikrobielle samfund og vurdere virkningen af at integrere forskellige genomtyper.I gennemsnit fandt vi ud af, at den dækker cirka 40-60 % af marine metagenomiske data (figur 1c), to til tre gange dækningen af tidligere MAG-only rapporter i både dybde og breddegrad More serial 16 eller SAG20.For systematisk at måle taksonomisk diversitet i etablerede samlinger annoterede vi alle genomer ved hjælp af Genome Taxonomy Database (GTDB) værktøjssættet (metoder) og brugte en gennemsnitlig genomomfattende nukleotididentitet på 95%.28 for at identificere 8.304 artsklynger (arter).To tredjedele af disse arter (inklusive nye klader) var ikke tidligere dukket op i GTDB, hvoraf 2790 blev opdaget ved hjælp af MAG rekonstrueret i denne undersøgelse (fig. 1d).Derudover fandt vi ud af, at forskellige typer genomer er meget komplementære: 55%, 26% og 11% af arterne er udelukkende sammensat af henholdsvis MAG, SAG og REF (fig. 1e).Derudover dækkede MAG alle 49 typer fundet i vandsøjlen, mens SAG og REF kun repræsenterede henholdsvis 18 og 11 af dem.SAG repræsenterer dog bedre mangfoldigheden af de mest almindelige klader (udvidede data, fig. 3a), såsom Pelagic Bacteriales (SAR11), hvor SAG dækker næsten 1300 arter og MAG kun 390 arter.Det er bemærkelsesværdigt, at REF'er sjældent overlappede med MAG'er eller SAG'er på artsniveau og repræsenterede >95% af de cirka 1000 genomer, der ikke findes i de metagenomiske sæt af åbent hav, der er undersøgt her, hovedsageligt på grund af interaktioner med andre typer af isolerede repræsentative marine prøver (f.eks. sedimenter) .eller værtsassocieret).For at gøre det bredt tilgængeligt for det videnskabelige samfund kan denne marine genom-ressource, som også inkluderer uklassificerede fragmenter (f.eks. fra forudsagte fager, genomiske øer og genomfragmenter, for hvilke der ikke er tilstrækkelige data til MAG-rekonstruktion), sammenlignes med taksonomiske data .Få adgang til annoteringer sammen med genfunktion og kontekstuelle parametre i Ocean Microbiology Database (OMD; https://microbiomics.io/ocean/).
Vi satte os derefter for at udforske rigdommen og nyheden ved biosyntetisk potentiale i mikrobiomer i åbne hav.Til dette formål brugte vi først antiSMASH til alle MAG'er, SAG'er og REF'er fundet i 1038 marine metagenomer (metoder) til at forudsige i alt 39.055 BGC'er.Vi grupperede derefter disse i 6907 ikke-redundante GCF'er og 151 genklyngepopulationer (GCC'er; Supplerende tabel 2 og metoder) for at tage højde for iboende redundans (dvs. den samme BGC kan kodes i flere genomer) og metagenomiske data Fragmentering af koncentrerede BGC'er.Ufuldstændige BGC'er øgede ikke signifikant, hvis nogen (supplerende oplysninger), antallet af henholdsvis GCF'er og GCC'er, der indeholdt mindst ét intakt BGC-medlem i 44 % og 86 % af tilfældene.
På GCC-niveau fandt vi en lang række forudsagte RiPP'er og andre naturlige produkter (fig. 2a).Blandt dem hører for eksempel arylpolyener, carotenoider, ektoiner og sideroforer til GCC'er med en bred fylogenetisk fordeling og en høj overflod af oceaniske metagenomer, hvilket kan indikere en bred tilpasning af mikroorganismer til havmiljøet, herunder resistens over for reaktive oxygenarter, oxidativ og osmotisk stress..eller jernabsorption (mere information).Denne funktionelle mangfoldighed står i kontrast til en nylig analyse af ca. 1,2 millioner BGC'er blandt ca. 190.000 genomer lagret i NCBI RefSeq-databasen (BiG-FAM/RefSeq, i det følgende benævnt RefSeq)29, som viste, at ikke-ribosomale Synthetase-peptider (NRPS) og polyketide (PKS) BGC'er (Supplerende oplysninger).Vi fandt også 44 (29%) GCC'er, der kun var fjernt relateret til enhver RefSeq BGC (\(\bar{d}\)RefSeq > 0,4; Fig. 2a og metoder) og 53 (35%) GCC'er kun i MAG, hvilket fremhæver potentialet at opdage tidligere ubeskrevne kemikalier i OMD.I betragtning af, at hver af disse GCC'er sandsynligvis repræsenterer meget forskellige biosyntetiske funktioner, analyserede vi yderligere data på GCF-niveau i et forsøg på at give en mere detaljeret gruppering af BGC'er, der forventes at kode for lignende naturlige produkter29.I alt 3861 (56%) identificerede GCF'er overlappede ikke med RefSeq, og >97% af GCF'er var ikke til stede i MIBiG, en af de største databaser med eksperimentelt validerede BGC'er (figur 2b).Selvom det ikke er overraskende at opdage mange potentielle nye veje i omgivelser, der ikke er godt repræsenteret af referencegenomet, adskiller vores metode til at dereplikere BGC'er i GCF'er før benchmarking fra tidligere rapporter 16 og giver os mulighed for at give en upartisk vurdering af nyhed.Det meste af den nye diversitet (3012 GCF eller 78%) svarer til forudsagte terpener, RiPP eller andre naturlige produkter, og det meste (1815 GCF eller 47%) er kodet i ukendte typer på grund af deres biosyntetiske potentiale.I modsætning til PKS- og NRPS-klynger er disse kompakte BGC'er mindre tilbøjelige til at blive fragmenteret under metagenomisk samling 31 og tillader mere tids- og ressourcekrævende funktionel karakterisering af deres produkter.
I alt 39.055 BGC'er blev grupperet i 6.907 GCF'er og 151 GCC'er.a, datarepræsentation (intern ekstern).Hierarkisk clustering af BGC-afstande baseret på GCC, hvoraf 53 kun er fastsat af MAG.GCC'en indeholder BGC'er fra forskellige taxa (ln-transformeret gatefrekvens) og forskellige BGC-klasser (cirkelstørrelsen svarer til dens frekvens).For hver GCC repræsenterer det ydre lag antallet af BGC'er, prævalensen (procentdel af prøver) og afstanden (minimum BGC cosinusafstand (min(dMIBiG))) fra BiG-FAM til BGC.GCC'er med BGC'er tæt relateret til eksperimentelt verificerede BGC'er (MIBiG) er fremhævet med pile.b Ved at sammenligne GCF med forudsagte (BiG-FAM) og eksperimentelt validerede (MIBiG) BGC'er blev der fundet 3861 nye (d–>0,2) GCF'er.De fleste (78%) af disse koder for RiPP, terpener og andre formodede naturlige produkter.c, alle genomer i OMD fundet i 1038 marine metagenomer blev placeret i GTDB basistræet for at vise den fylogenetiske dækning af OMD.Clader uden genomer i OMD er vist i gråt.Antallet af BGC'er svarer til det største antal forudsagte BGC'er pr. genom i en given clade.For klarhedens skyld er de sidste 15 % af knudepunkterne kollapset.Pile angiver klader rige på BGC (>15 BGC), med undtagelse af Mycobacterium, Gordonia (kun næst efter Rhodococcus) og Crocosphaera (kun næst efter Synechococcus).d, ukendt c.Eremiobacterota viste den højeste biosyntetiske diversitet (Shannon-indeks baseret på naturlig produkttype).Hvert bånd repræsenterer genomet med flest BGC'er i arten.T1PKS, PKS type I, T2/3PKS, PKS type II og type III.
Ud over rigdom og nyhed udforsker vi den biogeografiske struktur af det marine mikrobioms biosyntetiske potentiale.Gruppering af prøver efter gennemsnitlig metagenomisk GCF-kopiantalfordeling (metoder) viste, at lav-breddegrad, overflade, prokaryot-rige og virus-fattige samfund, for det meste fra overflade eller dybere solbeskinnede farvande, var rige på RiPP og BGC terpener.I modsætning hertil var polar-, dybhavs-, virus- og partikelrige samfund forbundet med højere forekomster af NRPS og PKS BGC (udvidede data, fig. 4 og yderligere information).Endelig fandt vi ud af, at velundersøgte tropiske og pelagiske samfund er de mest lovende kilder til nye terpener (Augmented Data Figure).Højeste potentiale for PKS, RiPP og andre naturlige produkter (Figur 5a med udvidede data).
For at supplere vores undersøgelse af det biosyntetiske potentiale af marine mikrobiomer, sigtede vi på at kortlægge deres fylogenetiske fordeling og identificere nye BGC-berigede klader.Til dette formål placerede vi genomerne af marine mikrober i et normaliseret GTDB13 bakterielt og arkæalt fylogenetisk træ og overlejrede de formodede biosyntetiske veje, de koder for (fig. 2c).Vi har let opdaget adskillige BGC-berigede klader (repræsenteret af over 15 BGC'er) i havvandsprøver (metoder), der er kendt for deres biosyntetiske potentiale, såsom cyanobakterier (Synechococcus) og Proteus-bakterier, såsom Tistrella32,33, eller har for nylig tiltrukket sig opmærksomhed for deres naturlige produkter.såsom Myxococcota (Sandaracinaceae), Rhodococcus og Planctomycetota34,35,36.Interessant nok fandt vi adskillige tidligere uudforskede slægter i disse klader.For eksempel tilhørte de arter med det rigeste biosyntetiske potentiale i phyla Planctomycetota og Myxococcota til henholdsvis ukarakteriserede kandidatordener og slægter (Supplerende Tabel 3).Tilsammen tyder dette på, at OMD giver adgang til hidtil ukendt fylogenetisk information, herunder mikroorganismer, som kan repræsentere nye mål for enzym- og naturlige produktopdagelse.
Dernæst karakteriserede vi den BGC-berigede kladde ved ikke kun at tælle det maksimale antal BGC'er kodet af dens medlemmer, men også ved at vurdere mangfoldigheden af disse BGC'er, hvilket forklarer hyppigheden af forskellige typer naturlige kandidatprodukter (fig. 2c og metoder) )..Vi fandt ud af, at de mest biosyntetisk forskellige arter var repræsenteret af specielt konstruerede bakterielle MAG'er i denne undersøgelse.Disse bakterier tilhører den udyrkede phylum Candidatus Eremiobacterota, som forbliver stort set uudforsket bortset fra nogle få genomiske undersøgelser37,38.Det er bemærkelsesværdigt, at "ca.Slægten Eremiobacterota er kun blevet analyseret i et terrestrisk miljø39 og er ikke kendt for at omfatte medlemmer beriget med BGC.Her har vi rekonstrueret otte MAG'er af samme art (nukleotididentitet > 99%) 23. Vi foreslår derfor artsnavnet "Candidatus Eudoremicrobium malaspinii", opkaldt efter nereiden (havetymfe), en smuk gave i græsk mytologi og ekspeditioner.'Ka.Ifølge fylogenetisk annotation 13 har E. malaspinii ingen tidligere kendte slægtninge under sekvensniveauet og tilhører således en ny bakteriefamilie, som vi foreslår ”Ca.E. malaspinii" som typeart og "Ca.Eudormicrobiaceae” som det officielle navn (Supplerende oplysninger).Kort metagenomisk rekonstruktion af 'Ca.E. malaspinii-genomprojektet blev valideret ved meget lav input, lang læst metagenomisk sekventering og målrettet samling af en enkelt prøve (metoder) som et enkelt 9,63 Mb lineært kromosom med en 75 kb duplikation.som den eneste tilbageværende tvetydighed.
For at etablere den fylogenetiske kontekst af denne art søgte vi efter 40 nært beslægtede arter i yderligere eukaryote berigede metagenomiske prøver fra Tara Ocean-ekspeditionen gennem målrettet genomrekonstruktion.Kort fortalt har vi koblet metagenomiske læsninger til genomiske fragmenter forbundet med "Ca.E. malaspinii” og antog, at en øget rekrutteringsrate i denne prøve indikerer tilstedeværelsen af andre slægtninge (metoder).Som et resultat fandt vi 10 MAG'er, en kombination af 19 MAG'er, der repræsenterer fem arter i tre slægter inden for en nyligt defineret familie (dvs. "Ca. Eudormicrobiaceae").Efter manuel inspektion og kvalitetskontrol (udvidede data, fig. 6 og yderligere information) fandt vi ud af, at "Ca.Eudormicrobiaceae-arter præsenterer større genomer (8 Mb) og rigere biosyntetisk potentiale (14 til 22 BGC pr. art) end andre "Ca"-medlemmer.Clade Eremiobacterota (op til 7 BGC) (fig. 3a–c).
a, fylogenetiske positioner af de fem 'Ca.Arter af Eudormicrobiaceae viste BGC-rigdom specifik for de marine linjer identificeret i denne undersøgelse.Det fylogenetiske træ omfatter alle 'Ca.MAG Eremiobacterota og medlemmer af andre phyla (genomnumre i parentes) angivet i GTDB (version 89) blev brugt til evolutionær baggrund (metoder).De yderste lag repræsenterer klassifikationer på familieniveau ("Ca. Eudormicrobiaceae" og "Ca. Xenobiaceae") og på klasseniveau ("Ca. Eremiobacteria").De fem arter, der er beskrevet i denne undersøgelse, er repræsenteret af alfanumeriske koder og foreslåede binomiale navne (Supplerende information).b, okay.Eudormicrobiaceae-arter deler syv fælles BGC-kerner.Fraværet af BGC i A2-kladden skyldtes ufuldstændigheden af den repræsentative MAG (Supplerende Tabel 3).BGC'er er specifikke for "Ca.Amphithomicrobium" og "Ca.Amphithomicrobium" (kladerne A og B) er ikke vist.c, Alle BGC'er kodet som "Ca.Eudoremicrobium taraoceanii blev fundet at blive udtrykt i 623 metatranskriptomer taget fra Taras oceaner.Udtrukne cirkler indikerer aktiv transskription.Orange cirkler angiver log2-transformerede foldændringer under og over husholdningsgenekspressionshastigheden (metoder).d, relative overflodskurver (metoder), der viser 'Ca.Arter af Eudormicrobiaceae er udbredt i de fleste havbassiner og i hele vandsøjlen (fra overfladen til en dybde på mindst 4000 m).Baseret på disse skøn fandt vi, at 'Ca.E. malaspinii' tegner sig for op til 6% af prokaryote celler i dybhavs pelagiske korn-associerede samfund.Vi anså en art for at være til stede på et sted, hvis den blev fundet i en brøkdel af størrelsen af et givet dybdelag.IO – Indiske Ocean, NAO – Nordatlanten, NPO – Nordlige Stillehav, RS – Røde Hav, SAO – Sydatlanten, SO – Sydlige Ocean, SPO – Sydlige Stillehav.
Undersøgelse af overflod og fordeling af Ca.Eudormicrobiaceae, der, som vi fandt, er fremherskende i de fleste havbassiner, samt i hele vandsøjlen (fig. 3d).Lokalt udgør de 6% af det marine mikrobielle samfund, hvilket gør dem til en vigtig del af det globale marine mikrobiom.Derudover fandt vi det relative indhold af Ca.Eudormicrobiaceae-arter og deres BGC-ekspressionsniveauer var højest i den eukaryote berigede fraktion (fig. 3c og udvidede data, fig. 7), hvilket indikerer en mulig interaktion med partikler, herunder plankton.Denne observation har en vis lighed med 'Ca.Eudoremicrobium BGC'er, der producerer cytotoksiske naturlige produkter gennem kendte veje, kan udvise predatorisk adfærd (Supplerende information og udvidede data, figur 8), svarende til andre rovdyr, der specifikt producerer metabolitter såsom Myxococcus41.Opdagelsen af Ca.Eudormicrobiaceae i mindre tilgængelige (dybhav) eller eukaryote snarere end prokaryote prøver kan forklare, hvorfor disse bakterier og deres uventede BGC-diversitet forbliver uklare i forbindelse med naturlig fødevareforskning.
I sidste ende forsøgte vi eksperimentelt at validere løftet om vores mikrobiom-baserede arbejde med at opdage nye veje, enzymer og naturlige produkter.Blandt de forskellige klasser af BGC'er er RiPP-vejen kendt for at kode for en rig kemisk og funktionel mangfoldighed på grund af forskellige post-translationelle modifikationer af kernepeptidet af modne enzymer42.Så vi valgte to 'Ca.Eudoremicrobium' RiPP BGC'er (figur 3b og 4a-e) er baseret på det samme som enhver kendt BGC (\(\bar{d}\)MIBiG og \(\bar{d}\)RefSeq over 0.2) .
a–c, In vitro heterolog ekspression og in vitro enzymatiske assays af en ny (\(\bar{d}\)RefSeq = 0,29) klynge af RiPP-biosyntese, der er specifik for dybhavs Ca-arter.E. malaspinii' førte til produktion af diphosphorylerede produkter.c, modifikationer identificeret ved anvendelse af højopløsnings (HR) MS/MS (fragmentering angivet ved b- og y-ioner i den kemiske struktur) og NMR (udvidede data, fig. 9).d, dette phosphorylerede peptid udviser lav mikromolær inhibering af pattedyrs neutrofil elastase, som ikke findes i kontrolpeptidet og det dehydrerende peptid (kemisk fjernelse induceret dehydrering).Forsøget blev gentaget tre gange med lignende resultater.For eksempel belyser heterolog ekspression af en anden ny \(\bar{d}\)RefSeq = 0,33) klynge af proteinbiosyntese funktionen af fire modne enzymer, der modificerer 46 aminosyrekernepeptidet.Rester farves i henhold til modifikationsstedet forudsagt af HR-MS/MS, isotopmærkning og NMR-analyse (supplerende information).Stiplet farve indikerer, at modifikationen sker ved en af de to rester.Figuren er en samling af talrige heterologe konstruktioner for at vise aktiviteten af alle modne enzymer på den samme kerne.h, Illustration af NMR-data for backbone-amid-N-methylering.Fuldstændige resultater er vist i fig.10 med udvidede data.i, Fylogenetisk position af det modne FkbM-proteinklyngeenzym blandt alle FkbM-domæner fundet i MIBiG 2.0-databasen afslører et enzym fra denne familie med N-methyltransferaseaktivitet (Supplerende information).Skematiske diagrammer af BGC'er (a, e), precursor-peptidstrukturer (b, f) og formodede kemiske strukturer af naturlige produkter (c, g) er vist.
Den første RiPP-vej (\(\bar{d}\)MIBiG = 0,41, \(\bar{d}\)RefSeq = 0,29) blev kun fundet i dybhavsarter "Ca.E. malaspinii" og koder for Peptid-precursor (fig. 4a, b).I dette modne enzym har vi identificeret et enkelt funktionelt domæne, der er homologt med dehydreringsdomænet af lantipeptidsyntase, der normalt katalyserer phosphorylering og efterfølgende fjernelse af 43 (Supplerende information).Derfor forudsiger vi, at modifikationen af precursor-peptidet involverer en sådan to-trins dehydrering.Ved anvendelse af tandem massespektrometri (MS/MS) og kernemagnetisk resonansspektroskopi (NMR) identificerede vi imidlertid et polyphosphoryleret lineært peptid (fig. 4c).Selvom det var uventet, fandt vi adskillige beviser, der understøtter, at det er slutproduktet: to forskellige heterologe værter og ingen dehydrering i in vitro-assays, identifikation af nøglerester muteret i det katalytiske dehydreringssted af det modne enzym.alle rekonstrueret af "Ca".E. malaspinii-genomet (udvidede data, fig. 9 og yderligere information) og endelig den biologiske aktivitet af det phosphorylerede produkt, men ikke den kemisk syntetiserede dehydrerede form (fig. 4d).Faktisk fandt vi, at det udviser en lav mikromolær proteaseinhiberende aktivitet mod neutrofil elastase, sammenlignelig med andre beslægtede naturlige produkter i koncentrationsområdet (IC50 = 14,3 μM) 44, på trods af at den økologiske rolle mangler at blive belyst.Baseret på disse resultater foreslår vi at navngive pathwayen "phospheptin".
Det andet tilfælde er en kompleks RiPP-vej specifik for 'Ca.Slægten Eudoremicrobium (\(\bar{d}\)MIBiG = 0,46, \(\bar{d}\)RefSeq = 0,33) blev forudsagt at kode for naturlige proteinprodukter (fig. 4e).Disse veje er af særlig bioteknologisk interesse på grund af den forventede tæthed og mangfoldighed af usædvanlige kemiske modifikationer etableret af enzymerne kodet af de relativt korte BGC'er45.Vi fandt ud af, at dette protein adskiller sig fra tidligere karakteriserede proteiner ved, at det mangler både hoved-NX5N-motivet af polyceramider og lanthioninsløjfen af landornamider 46 .For at overvinde begrænsningerne ved almindelige heterologe ekspressionsmønstre brugte vi dem sammen med et tilpasset Microvirgula aerodenitrificans-system til at karakterisere fire modne pathway-enzymer (metoder).Ved at bruge en kombination af MS/MS, isotopmærkning og NMR detekterede vi disse modne enzymer i 46-aminosyrekernen af peptidet (fig. 4f, g, udvidede data, fig. 10-12 og yderligere information).Blandt modne enzymer karakteriserede vi den første forekomst af et FkbM O-methyltransferase-familiemedlem 47 i RiPP-vejen og fandt uventet ud, at dette modne enzym introducerer N-methylering i rygraden (fig. 4h, i og yderligere information).Selvom denne modifikation er kendt i naturlige NRP48-produkter, er enzymatisk N-methylering af amidbindinger en kompleks, men bioteknologisk betydningsfuld reaktion49, som hidtil har været interessant for RiPP-familien af borosiner.Specificitet 50,51.Identifikationen af denne aktivitet i andre familier af enzymer og RiPP kan åbne op for nye anvendelser og udvide den funktionelle mangfoldighed af proteiner 52 og deres kemiske mangfoldighed.Baseret på de identificerede modifikationer og den usædvanlige længde af den foreslåede produktstruktur, foreslår vi et vejnavn "pythonamid".
Opdagelsen af en uventet enzymologi i en funktionelt karakteriseret familie af enzymer illustrerer løftet om miljøgenomik for nye opdagelser og illustrerer også den begrænsede kapacitet til funktionel inferens baseret på sekvenshomologi alene.Sammen med rapporter om ikke-kanoniske bioaktive polyphosphorylerede RiPP'er viser vores resultater ressourcekrævende, men kritisk værdi for syntetisk biologis indsats for fuldt ud at afdække den funktionelle rigdom, mangfoldighed og usædvanlige strukturer af biokemiske forbindelser.
Her demonstrerer vi rækken af biosyntetisk potentiale kodet af mikrober og deres genomiske kontekst i det globale marine mikrobiom, hvilket letter fremtidig forskning ved at gøre den resulterende ressource tilgængelig for det videnskabelige samfund (https://microbiomics.io/ocean/).Vi fandt ud af, at meget af dets fylogenetiske og funktionelle nyhed kun kan opnås ved at rekonstruere MAG'er og SAG'er, især i underudnyttede mikrobielle samfund, der kan guide fremtidige bioprospekteringsbestræbelser.Selvom vi her vil fokusere på 'Ca.Eudormicrobiaceae" som en afstamning, især biosyntetisk "talentfuld", koder mange af de BGC'er, der er forudsagt i den uopdagede mikrobiota, sandsynligvis tidligere ubeskrevne enzymologier, der giver forbindelser med miljømæssigt og/eller bioteknologisk betydningsfulde virkninger.
Metagenomiske datasæt fra større oceanografiske og tidsseriestudier med tilstrækkelig sekventeringsdybde blev inkluderet for at maksimere dækningen af globale marine mikrobielle samfund i havbassiner, dybe lag og over tid.Disse datasæt (supplerende tabel 1 og figur 1) inkluderer metagenomik fra prøver indsamlet i havene i Tara (viralt beriget, n=190; prokaryot beriget, n=180)12,22 og BioGEOTRACES-ekspeditionen (n=480).Hawaiian Oceanic Time Series (HOT, n = 68), Bermuda-Atlantic Time Series (BATS, n = 62)21 og Malaspina-ekspeditionen (n = 58)23.Sekventeringslæsninger fra alle metagenomiske fragmenter blev filtreret for kvalitet ved hjælp af BBMap (v.38.71) ved at fjerne sekventeringsadaptere fra læsninger, fjerne læsninger kortlagt til kvalitetskontrolsekvenser (PhiX-genomer), og ved at bruge trimq=14, maq=20 kasserer dårlig læsekvalitet, maxns = 0 og minlængde = 45. Efterfølgende analyser blev kørt eller slået sammen med QC-aflæsninger, hvis det er angivet (bbmerge.sh minoverlap=16).QC-aflæsninger blev normaliseret (bbnorm.sh-mål = 40, minddepth = 0) før opbygning ved hjælp af metaSPAder (v.3.11.1 eller v.3.12 hvis nødvendigt)53.De resulterende stilladser (herefter omtalt som stilladser) blev til sidst filtreret efter længde (≥1 kb).
De 1038 metagenomiske prøver blev opdelt i grupper, og for hver gruppe af prøver blev de metagenomiske kvalitetskontrollæsninger af alle prøver matchet med parenteserne af hver prøve separat, hvilket resulterede i følgende antal parvise gruppeaflæsninger: Tara Marine Viruses – Enriched (190×190 ), Prokaryoter beriget (180×180), BioGEOTRACER, HOT og FLAGERMUS (610×610) og Malaspina (58×58).Kortlægning blev udført ved hjælp af Burrows-Wheeler-Aligner (BWA) (v.0.7.17-r1188)54, som gør det muligt at matche aflæsninger til sekundære steder (ved at bruge -a-flaget).Justeringer blev filtreret til at være mindst 45 baser lange, have ≥97 % identitet og spænd ≥80 % aflæsninger.De resulterende BAM-filer blev behandlet ved hjælp af jgi_summarize_bam_contig_depths-scriptet til MetaBAT2 (v.2.12.1)55 for at give intra- og inter-sample-dækning for hver gruppe.Endelig blev parenteser grupperet for at øge følsomheden ved individuelt at køre MetaBAT2 på alle prøver med –minContig 2000 og –maxEdges 500. Vi bruger MetaBAT2 i stedet for en ensemble boxer, fordi det i uafhængige test har vist sig at være den mest effektive single boxer.og 10 til 50 gange hurtigere end andre almindeligt anvendte boxere57.For at teste for effekten af overflodskorrelationer brugte en tilfældigt udvalgt underprøve af metagenomics (10 for hver af de to Tara Ocean-datasæt, 10 for BioGEOTRACES, 5 for hver tidsserie og 5 for Malaspina) desuden kun prøver.Interne prøver grupperes for at få dækningsoplysninger.(Yderligere Information).
Yderligere (eksterne) genomer blev inkluderet i den efterfølgende analyse, nemlig 830 manuelt udvalgte MAG'er fra et undersæt af Tara Oceans26-datasættet, 5287 SAG'er fra GORG20-datasættet og data fra MAR-databasen (MarDB v. 4) fra 1707 isolerede REF'er og 682 SAG'er) 27. For MarDB-datasættet udvælges genomer baseret på tilgængelige metadata, hvis prøvetypen matcher følgende regulære udtryk: '[S|s]ingle.?[C|c]ell|[C|c]kultur| [I|i] isoleret'.
Kvaliteten af hver metagenomisk beholder og eksterne genomer blev vurderet ved hjælp af CheckM (v.1.0.13) og Anvi'o's Lineage Workflow (v.5.5.0)58,59.Hvis CheckM eller Anvi'o rapporterer ≥50 % fuldstændighed/fuldstændighed og ≤10 % kontaminering/redundans, så gem metagenomiske celler og eksterne genomer til senere analyse.Disse scores blev derefter kombineret til gennemsnitlig fuldstændighed (mcpl) og gennemsnitlig kontaminering (mctn) for at klassificere genomkvalitet i henhold til fællesskabskriterier60 som følger: høj kvalitet: mcpl ≥ 90 % og mctn ≤ 5 %;god kvalitet: mcpl ≥ 70 %, mctn ≤ 10 %, medium kvalitet: mcpl ≥ 50 % og mctn ≤ 10 %, rimelig kvalitet: mcpl ≤ 90 % eller mctn ≥ 10 %.De filtrerede genomer blev derefter korreleret med kvalitetsscore (Q og Q') som følger: Q = mcpl – 5 x mctn Q' = mcpl – 5 x mctn + mctn x (stammevariabilitet)/100 + 0,5 x log[N50].(implementeret i dRep61).
For at muliggøre komparativ analyse mellem forskellige datakilder og genomtyper (MAG, SAG og REF), blev 34.799 genomer derefereret baseret på genom-dækkende gennemsnitlig nukleotididentitet (ANI) ved brug af dRep (v.2.5.4).Gentager)61 med 95% ANI-tærskler28,62 (-comp 0 -con 1000 -sa 0,95 -nc 0,2) og enkeltkopi-markørgener ved hjælp af SpecI63, der giver genomklyngning på artsniveau.Et repræsentativt genom blev udvalgt for hver dRep-klynge i henhold til den maksimale kvalitetsscore (Q') defineret ovenfor, som blev anset for at være repræsentativ for arten.
For at evaluere kortlægningshastigheden blev BWA (v.0.7.17-r1188, -a) brugt til at kortlægge alle 1038 sæt metagenomiske aflæsninger med 34.799 genomer indeholdt i OMD.Kvalitetskontrollerede aflæsninger blev kortlagt i single-ended mode, og de resulterende justeringer blev filtreret for kun at bevare justeringer ≥45 bp i længden.og identitet ≥95 %.Visningsforholdet for hver prøve er procentdelen af resterende aflæsninger efter filtrering divideret med det samlede antal kvalitetskontrolaflæsninger.Ved at bruge den samme tilgang blev hvert af de 1038 metagenomer reduceret til 5 millioner inserts (udvidede data, fig. 1c) og matchet til GORG SAG i OMD og i alle GEM16.Mængden af MAG'er, der blev genvundet fra havvand i GEM16-kataloget, blev bestemt ved nøgleordsforespørgsler fra metagenomiske kilder, udvælgelse af havvandsprøver (f.eks. i modsætning til marine sedimenter).Specifikt vælger vi "akvatisk" som "økosystemkategori", "marin" som "økosystemtype" og filtrerer "habitat" som "dybhav", "marin", "maritim oceanisk", "pelagisk marine", "havvand" , "Ocean", "Havvand", "Overfladehavvand", "Overfladehavvand".Dette resulterede i 5903 MAG'er (734 høj kvalitet) fordelt på 1823 OTU'er (visninger her).
Prokaryote genomer blev taksonomisk annoteret ved hjælp af GTDB-Tk (v.1.0.2)64 med standardparametre rettet mod GTDB r89 version 13. Anvi'o blev brugt til at identificere eukaryote genomer baseret på domæneforudsigelse og genkaldelse ≥50 % og redundans ≤ 10 %.Den taksonomiske annotering af en art er defineret som et af dens repræsentative genomer.Med undtagelse af eukaryoter (148 MAG) blev hvert genom først funktionelt annoteret ved hjælp af prokka (v.1.14.5)65, navngivning af komplette gener, definering af "archaea" eller "bakterier" parametre efter behov, hvilket også er rapporteret for ikke- kodende gener.og CRISPR-regioner, blandt andre genomiske træk.Annotér forudsagte gener ved at identificere universelle enkeltkopi-markørgener (uscMG) ved hjælp af fetchMG (v.1.2)66, tildel orthologgrupper og forespørg ved hjælp af emapper (v.2.0.1)67 baseret på eggNOG (v.5.0)68.KEGG-database (publiceret 10. februar 2020) 69. Det sidste trin blev udført ved at matche proteiner til KEGG-databasen ved hjælp af DIAMOND (v.0.9.30)70 med en forespørgsel og emnedækning på ≥70 %.Resultater blev yderligere filtreret i henhold til NCBI Prokaryotic Genome Annotation Pipeline71 baseret på bitrate ≥ 50% af maksimal forventet bitrate (linket selv).Gensekvenser blev også brugt som input til at identificere BGC'er i genomet ved hjælp af antiSMASH (v.5.1.0)72 med standardparametre og forskellige klyngeeksplosioner.Alle genomer og annoteringer er blevet kompileret i OMD sammen med kontekstuelle metadata tilgængelige på nettet (https://microbiomics.io/ocean/).
I lighed med tidligere beskrevne metoder12,22 brugte vi CD-HIT (v.4.8.1) til at gruppere >56,6 millioner proteinkodende gener fra bakterielle og arkæale genomer fra OMD til 95 % identitet og kortere gener (90 % dækning)73 op til >17,7 millioner genklynger.Den længste sekvens blev valgt som det repræsentative gen for hver genklynge.De 1038 metagenomer blev derefter matchet til >17,7 millioner BWA (-a)-klyngemedlemmer, og de resulterende BAM-filer blev filtreret for kun at bevare justeringer med ≥95 % procent identitet og ≥45 basejusteringer.Længde-normaliseret genoverflod blev beregnet ved først at tælle inserts fra den bedste unikke justering og derefter, for fuzzy-mappede inserts, at tilføje fraktioneret tællinger til de tilsvarende målgener proportionalt med deres antal unikke inserts.
Genomerne fra den udvidede OMD (med yderligere MAG'er fra "Ca. Eudormicrobiaceae", se nedenfor) blev tilføjet til mOTUs74 metagenomiske analyseværktøjsdatabase (v.2.5.1) for at skabe en udvidet mOTU-referencedatabase.Kun seks enkeltkopi genomer (23.528 genomer) overlevede ud af ti uscMG'er.Udvidelsen af databasen resulterede i 4.494 yderligere klynger på artsniveau.1038 metagenomer blev analyseret ved hjælp af standard mOTU-parametre (v.2).I alt 989 genomer indeholdt i 644 mOTU-klynger (95% REF, 5% SAG og 99,9% tilhørende MarDB) blev ikke påvist af mOTU-profilen.Dette afspejler forskellige yderligere kilder til marin isolering af MarDB-genomerne (de fleste af de uopdagede genomer er forbundet med organismer isoleret fra sedimenter, marine værter osv.).For at fortsætte med at fokusere på det åbne havmiljø i denne undersøgelse, udelukkede vi dem fra nedstrømsanalysen, medmindre de blev opdaget eller inkluderet i den udvidede mOTU-database, der blev oprettet i denne undersøgelse.
Alle BGC'er fra MAG, SAG og REF i OMD (se ovenfor) blev kombineret med BGC'er identificeret i alle metagenomiske stilladser (antiSMASH v.5.0, standardparametre) og karakteriseret ved hjælp af BiG-SLICE (v.1.1) (PFAM-domæne )75.Baseret på disse funktioner beregnede vi alle cosinusafstande mellem BGC'er og grupperede dem (gennemsnitlige links) i GCF og GCC ved hjælp af afstandstærskler på henholdsvis 0,2 og 0,8.Disse tærskler er en tilpasning af tærskler, der tidligere er brugt ved brug af euklidisk afstand75 sammen med cosinusafstand, hvilket afhjælper noget af fejlen i den originale BiG-SLICE-klyngestrategi (Supplerende information).
BGC'er blev derefter filtreret for kun at beholde ≥5 kb kodet på stilladser for at reducere risikoen for fragmentering som tidligere beskrevet16 og for at udelukke MarDB REF'er og SAG'er, der ikke findes i 1038 metagenomer (se ovenfor).Dette resulterede i, at i alt 39.055 BGC'er blev kodet af OMD-genomet, med yderligere 14.106 identificeret på metagenomiske fragmenter (dvs. ikke kombineret til MAG'er).Disse "metagenomiske" BGC'er blev brugt til at estimere andelen af marine mikrobiom biosyntesepotentiale, der ikke er fanget i databasen (Supplerende information).Hver BGC blev funktionelt karakteriseret i henhold til prædiktive produkttyper defineret af anti-SMASH eller grovere produktkategorier defineret i BiG-SCAPE76.For at forhindre prøveudtagningsbias i kvantificeringen (taksonomisk og funktionel sammensætning af GCC/GCF, afstand mellem GCF og GCC til referencedatabaser og metagenomisk overflod af GCF), ved kun at holde den længste BGC pr. GCF for hver art, blev 39.055 BGC'er yderligere dedupliceret, hvilket resulterede i i alt 17.689 BGC.
Nyheden af GCC og GCF blev vurderet baseret på afstanden mellem den beregnede database (RefSeq-database i BiG-FAM)29 og den eksperimentelt verificerede (MIBIG 2.0)30 BGC.For hver af de 17.689 repræsentative BGC'er valgte vi den mindste cosinusafstand til den respektive database.Disse minimumsafstande beregnes derefter i gennemsnit (gennemsnit) i henhold til GCF eller GCC, alt efter hvad der er relevant.En GCF betragtes som ny, hvis afstanden til databasen er større end 0,2, hvilket svarer til en ideel adskillelse mellem den (gennemsnitlige) GCF og referencen.For GCC vælger vi 0,4, hvilket er det dobbelte af tærsklen defineret af GCF, for at fastlåse et langsigtet forhold med links.
Den metagenomiske overflod af BGC blev estimeret som den gennemsnitlige overflod af dets biosyntetiske gener (som bestemt af anti-SMASH) tilgængelig fra genniveauprofiler.Den metagenomiske overflod af hver GCF eller GCC blev derefter beregnet som summen af repræsentative BGC'er (ud af 17.689).Disse overflodskort blev efterfølgende normaliseret for cellulær sammensætning under anvendelse af mOTU-tal pr. prøve, som også tegnede sig for sekventeringsbestræbelser (udvidede data, fig. 1d).Prævalensen af GCF eller GCC blev beregnet som procentdelen af prøver med en overflod > 0.
Den euklidiske afstand mellem prøver blev beregnet ud fra den normaliserede GCF-profil.Disse afstande blev reduceret i størrelse ved hjælp af UMAP77, og de resulterende indlejringer blev brugt til uovervåget tæthedsbaseret clustering ved hjælp af HDBSCAN78.Det optimale minimum antal point for en klynge (og dermed antallet af klynger), der bruges af HDBSCAN, bestemmes ved at maksimere den kumulative sandsynlighed for klyngemedlemskab.De identificerede klynger (og en tilfældig afbalanceret underprøve af disse klynger for at tage højde for bias i permutationel multivariat variansanalyse (PERMANOVA)) blev testet for signifikans mod ikke-reducerede euklidiske afstande ved hjælp af PERMANOVA.Den gennemsnitlige genomstørrelse af prøverne blev beregnet baseret på den relative overflod af mOTU og den estimerede genomstørrelse af medlemmerne af genomerne.Især blev den gennemsnitlige genomstørrelse for hver mOTU estimeret som gennemsnittet af genomstørrelserne af dens medlemmer korrigeret for fuldstændighed (efter filtrering) (for eksempel har et 75 % komplet genom med en længde på 3 Mb en justeret størrelse på 4 Mb).for medium genomer med integritet ≥70 %.Den gennemsnitlige genomstørrelse for hver prøve blev derefter beregnet som summen af mOTU-genomstørrelser vægtet efter relativ overflod.
Et filtreret sæt af genom-kodede BGC'er i OMD er vist i bakterielle og arkæiske GTDB-træer (i ≥5 kb rammer, undtagen REF og SAG MarDB ikke fundet i 1038 metagenomer, se ovenfor) og deres forudsagte produktkategorier baseret på den fylogenetiske position af genomet (se ovenfor).Vi reducerede først dataene efter art ved at bruge genomet med flest BGC'er i den art som repræsentativt.Til visualisering blev repræsentanterne yderligere opdelt i trægrupper, og igen, for hver cellede klade, blev genomet, der indeholdt det største antal BGC'er, udvalgt som en repræsentant.BGC-berigede arter (mindst et genom med >15 BGC'er) blev yderligere analyseret ved at beregne Shannon Diversity Index for produkttyperne kodet i disse BGC'er.Hvis alle forudsagte produkttyper er de samme, anses kemiske hybrider og andre komplekse BGC'er (som forudsagt af anti-SMAH) for at tilhøre den samme produkttype, uanset deres rækkefølge i klyngen (f.eks. protein-bakteriocin og bakteriocin-proteoprotein-fusion legeme).hybrid).
Resterende DNA (estimeret til at være 6 ng) fra Malaspina-prøve MP1648, svarende til biologisk prøve SAMN05421555 og matchet til Illumina SRR3962772 metagenomisk læsesæt til kort læsning, behandlet i henhold til PacBio-sekventeringsprotokol med ultralavt input til brug af PacBio-prøven gDNA-prøvesæt kit (100-980-000) og SMRTbell Express 2.0 skabelon forberedelseskit (100-938-900).Kort fortalt blev det resterende DNA skåret, repareret og oprenset (ProNex-perler) under anvendelse af Covaris (g-TUBE, 52104).Oprenset DNA udsættes derefter for biblioteksforberedelse, amplifikation, oprensning (ProNex-perler) og størrelsesudvælgelse (>6 kb, Blue Pippin) før et sidste oprensningstrin (ProNex-perler) og sekventering på Sequel II-platformen.
Rekonstruktion af de to første ca.For MAG Eremiobacterota identificerede vi seks yderligere ANI'er > 99% (disse er inkluderet i figur 3), som oprindeligt blev filtreret baseret på kontamineringsscore (senere identificeret som genduplikationer, se nedenfor).Vi fandt også en bakke mærket "Ca".Eremiobacterota" fra forskellige undersøgelser23 og brugte dem sammen med otte MAG'er fra vores undersøgelse som reference for metagenomiske læsninger fra 633 eukaryote berigede (>0,8 µm) prøver ved brug af BWA (v.0.7.17) Ref -r1188, - et flag) til nedsampling kortlægning (5 millioner aflæsninger).Baseret på berigelsesspecifikke kort (filtreret efter 95 % tilpasningsidentitet og 80 % læst dækning), blev 10 metagenomer (forventet dækning ≥5×) udvalgt til samling og yderligere 49 metagenomer (forventet dækning ≥1×) til indholdskorrelation.Ved at bruge de samme parametre som ovenfor, blev disse prøver gemt, og 10 yderligere 'Ca'er blev tilføjet.MAG Eremiobacterota er blevet gendannet.Disse 16 MAG'er (der ikke medregnes de to, der allerede er i databasen) bringer det samlede antal genomer i den udvidede OMD til 34.815.MAG'er tildeles taksonomiske rækker baseret på deres genomiske lighed og position i GTDB.18 MAG'er blev dereplikeret ved hjælp af dRep i 5 arter (intraspecifik ANI >99%) og 3 slægter (intragenisk ANI 85% til 94%) inden for samme familie79.Artsrepræsentanter blev manuelt udvalgt baseret på integritet, forurening og N50.Foreslået nomenklatur findes i de supplerende oplysninger.
Vurder integriteten og kontamineringen af 'Ca.MAG Eremiobacterota, vurderede vi tilstedeværelsen af uscMG såvel som afstamnings- og domænespecifikke enkeltkopi-markørgensæt brugt af CheckM og Anvi'o.Identifikationen af 2 dubletter ud af 40 uscMG'er blev bekræftet ved fylogenetisk rekonstruktion (se nedenfor) for at udelukke enhver potentiel kontaminering (dette svarer til 5% baseret på disse 40 markørgener).En yderligere undersøgelse af fem repræsentative MAG'er 'Ca.Det lave niveau af kontaminanter i disse rekonstruerede genomer blev bekræftet for Eremiobacterota-arter ved hjælp af den interaktive Anvi'o-grænseflade baseret på overflod og sekvenssammensætningskorrelationer (Supplerende information)59.
Til fylogenomisk analyse udvalgte vi fem repræsentative MAG'er "Ca".Eudormicrobiaceae", alle arter "Ca.Genomet af Eremiobacterota og medlemmer af andre phyla (herunder UBP13, Armatimonadota, Patescibacteria, Dormibacterota, Chloroflexota, Cyanobacteria, Actinobacteria og Planctomycetota) er tilgængelig fra GTDB (r89)13.Alle disse genomer blev annoteret som tidligere beskrevet for enkeltkopimarkørgenekstraktion og BGC-annotering.GTDB-genomerne blev konserveret i henhold til ovennævnte integritets- og kontamineringskriterier.Fylogenetisk analyse blev udført ved hjælp af Anvi'o Phylogenetics59-arbejdsgangen.Træet blev konstrueret under anvendelse af IQTREE (v.2.0.3) (standardindstillinger og -bb 1000)80 på en justering af 39 tandem ribosomale proteiner identificeret af Anvi'o (MUSCLE, v.3.8.1551)81.Hans stillinger blev reduceret.at dække mindst 50% af genomet82 og Planctomycecota blev brugt som en udgruppe baseret på GTDB-trætopologien.Et træ på 40 uscMG'er blev bygget ved hjælp af de samme værktøjer og parametre.
Vi brugte Traitar (v.1.1.2) med standardparametre (fænotype, fra nukleotider)83 til at forudsige almindelige mikrobielle træk.Vi udforskede en potentiel rovdyr livsstil baseret på et tidligere udviklet rovdyrsindeks84, der afhænger af indholdet af et proteinkodende gen i genomet.Specifikt bruger vi DIAMOND til at sammenligne proteiner i genomet mod OrthoMCL-databasen (v.4)85 ved hjælp af mulighederne –more-sensive –id 25 –query-cover 70 –subject-cover 70 –top 20 OG tælle generne svarende til markørgenerne for rovdyr og ikke-rovdyr.Indekset er forskellen mellem antallet af rov- og ikke-rov-markeringer.Som en ekstra kontrol analyserede vi også "Ca"-genomet.Entotheonella TSY118-faktoren er baseret på dens tilknytning til Ca.Eudoremicrobium (stor genomstørrelse og biosyntetisk potentiale).Dernæst testede vi potentielle forbindelser mellem predator- og ikke-predator-markørgener og det biosyntetiske potentiale af Ca.Eudormicrobiaceae” og fandt, at ikke mere end ét gen (fra nogen type markørgen, dvs. predator/non-predator-gen) overlapper med BGC, hvilket tyder på, at BGC ikke forveksler prædationssignaler.Yderligere genomisk annotering af krypterede replikoner blev udført ved hjælp af TXSSCAN (v.1.0.2) for specifikt at undersøge sekretionssystemet, pili og flagella86.
Fem repræsentative 'Ca'er blev kortlagt ved at kortlægge 623 metatranskriptomer fra de prokaryote og eukaryote berigelsesfraktioner i Tara oceanerne22,40,87 (ved at bruge BWA, v.0.7.17-r1188, -a flag).Eudormicrobiaceae-genom.BAM-filer blev behandlet med FeatureCounts (v.2.0.1)88 efter 80 % læsedækning og 95 % identitetsfiltrering (med muligheder featureCounts –primary -O –fraktion -t CDS,tRNA -F GTF -g ID -p ) Tæller antal inserts pr. gen.De genererede kort blev normaliseret for genlængde og markørgenoverflod mOTU (længdenormaliseret gennemsnitlig insertionsantal for gener med insertionsantal >0) og log-transformeret til 22,74 for at opnå den relative ekspression pr. celle af hvert genniveau, hvilket også forklarer variabilitet fra prøve til prøve under sekventering.Sådanne forhold giver mulighed for sammenlignende analyse, hvilket mindsker sammensætningsproblemer, når der bruges relativ overflodsdata.Kun prøver med >5 af de 10 mOTU-markørgener blev overvejet til yderligere analyse for at tillade, at en stor nok del af genomet kunne påvises.
Den normaliserede transkriptomprofil af 'Ca.E. taraoceanii blev udsat for dimensionalitetsreduktion ved hjælp af UMAP, og den resulterende repræsentation blev brugt til uovervåget klyngedannelse ved anvendelse af HDBSCAN (se ovenfor) for at bestemme ekspressionsstatus.PERMANOVA tester betydningen af forskelle mellem identificerede klynger i det oprindelige (ikke reducerede) afstandsrum.Differentiel ekspression mellem disse tilstande blev testet på tværs af genomet (se ovenfor), og 201 KEGG-veje blev identificeret i 6 funktionelle grupper, nemlig: BGC, sekretionssystem og flagellære gener fra TXSSCAN, nedbrydningsenzymer (protease og peptidaser), og predatoriske og ikke- rovgener.rov indeksmarkører.For hver prøve beregnede vi den mediane normaliserede ekspression for hver klasse (bemærk, at selve BGC-ekspressionen beregnes som medianekspressionen af biosyntetiske gener for det BGC) og testede for signifikans på tværs af tilstande (Kruskal-Wallis-test justeret for FDR).
Syntetiske gener blev købt fra GenScript, og PCR-primere blev købt fra Microsynth.Phusion-polymerase fra Thermo Fisher Scientific blev brugt til DNA-amplifikation.NucleoSpin-plasmider, NucleoSpin-gel og PCR-oprensningskit fra Macherey-Nagel blev brugt til DNA-oprensning.Restriktionsenzymer og T4 DNA-ligase blev købt fra New England Biolabs.Andre kemikalier end isopropyl-β-d-1-thiogalactopyranosid (IPTG) (Biosynth) og 1,4-dithiothreitol (DTT, AppliChem) blev købt fra Sigma-Aldrich og anvendt uden yderligere oprensning.Antibiotika chloramphenicol (Cm), spectinomycin dihydrochlorid (Sm), ampicillin (Amp), gentamicin (Gt) og carbenicillin (Cbn) blev købt fra AppliChem.Bacto Trypton og Bacto Yeast Extract mediekomponenter blev købt fra BD Biosciences.Trypsin til sekventering blev købt fra Promega.
Gensekvenser blev ekstraheret fra anti-SMASH forudsagt BGC 75.1.E. malaspinii (Supplerende information).
Generne embA (locus, MALA_SAMN05422137_METAG-framework_127-gene_5), embM (locus, MALA_SAMN05422137_METAG-framework_127-gene_4) og embAM (inklusive intergene-regioner) blev konstrueret som codon5-regioner uden pUC5-optimerede og optimerede udviklet til udtryk i E hvornår.embA-genet blev subklonet ind i det første multiple kloningssted (MCS1) af pACYCDuet-1(CmR) og pCDFDuet-1(SmR) med BamHI- og HindIII-spaltningssteder.embM- og embMopt-generne (codon-optimeret) blev subklonet ind i MCS1 pCDFDuet-1(SmR) med BamHI og HindIII og placeret i det andet multiple kloningssted af pCDFDuet-1(SmR) og pRSFDuet-1(KanR) (MCS2) med NdeI/ChoI.embAM-kassetten blev subklonet i pCDFDuet1(SmR) med BamHI- og HindIII-spaltningssteder.orf3/embI-genet (locus, MALA_SAMN05422137_METAG-scaffold_127-gene_3) blev konstrueret ved overlapsforlængelse-PCR under anvendelse af primere EmbI_OE_F_NdeI og EmbI_OE_R_XhoI, fordøjet med NdeI/XhoI, og ligeret i det samme restriktionsenzymer (-1 pSCDEF-enzymer) (-1 pSCDEF-enzymer). lementær bord).6).Restriktionsenzymfordøjelse og ligering blev udført i overensstemmelse med producentens protokol (New England Biolabs).
Post tid: Mar-14-2023