Abstract
Den andre bølgen av neste generasjons sekvense teknologier, referert til som single-molekyl sekvensering (SMS), bærer løfte om profilering prøvene direkte uten anvendelse av polymerase kjede-reaksjonstrinn som benyttes ved forsterkning baserte sekvensering (AS) metoder. For å undersøke verdien av begge teknologiene, vi undersøke mRNA sekvense resultater fra enkelt-molekyl og forsterkning baserte sekvensering i et sett av menneskelige kreftcellelinjer og vev. Vi observerer en karakteristisk dekning bias mot høye overflod transkripsjoner i forsterkning baserte sekvensering. En større fraksjon av AS leser dekk høyt uttrykte gener, slik som de som er assosiert med translasjonelle prosesser og husholdningsgener, noe som resulterer i relativt lavere dekning av gener ved lav og middels nivå overflod. I motsetning til dekning av høye overflod transkripsjoner platåer av ved hjelp av SMS. Derfor er SMS i stand til å sekvensere rste overflod transkripsjoner mer grundig, inkludert noen som er uoppdaget av AS metoder; Men, disse inkluderer mange flere kartleggings gjenstander. En bedre forståelse av de tekniske og analytiske faktorer innføre plattformspesifikke skjevheter i høy gjennomstrømning transkriptomet sekvense søknader vil være avgjørende i kryssplattform meta-analytiske studier
Citation. Sam LT, Lipson D, Raz T, Cao X, Thompson J, Milos PM, et al. (2011) En sammenligning av enkelt molekyl og Amplification Basert Sekvensering av kreft Transcriptomes. PLoS ONE 6 (3): e17305. doi: 10,1371 /journal.pone.0017305
Redaktør: Thomas Preiss, Victor Chang Cardiac Research Institute (VCCRI), Australia
mottatt: 18 oktober 2010; Godkjent: 28 januar 2011; Publisert: 01.03.2011
Copyright: © 2011 Sam et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. AMC er støttes av Doris Duke Charitable Foundation klinisk Scientist Award, en Burroughs Velkommen Foundation Award i klinisk translasjonell forskning og prostatakreft Foundation. AMC er en American Cancer Society forsker. CAM stammer foreløpig støtte fra den amerikanske foreningen for kreftforskning Amgen Fellowship i klinisk /translasjonell forskning, Canary Foundation og American Cancer Society Early Detection postdoktorstipend, og en Prostate Cancer Foundation Young Investigator Award. LTS er støttet av University of Michigan Bioinformatikk Training Program. DL, TR, JT, og PMM er ansatte i Helicos biovitenskap Corporation. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. DL, TR, JT, og PMM er ansatte i Helicos biovitenskap Corporation. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
Sekvense prøver på enkelt-molekyl oppløsning blir sett på som neste skritt i utviklingen av Neste Generation Sequencing (NGS). Disse teknologiene har allerede produsert enestående mengder data ved nukleotid-nivå oppløsning, og transformerer vår evne til å observere biologiske systemer. NGS teknologien har hatt en spesiell effekt i studiet av transcriptomes gjennom mRNA sekvensering, eller RNA-Seq. Tilbyr et bredt dynamisk område og virkelig globalt syn, er dette NGS søknaden raskt fortrenge eksisterende metoder for overvåking av komplekse transcriptomes der både transkripsjon lengder og konsentrasjoner er svært heterogen. Den mangefasetterte natur RNA-Seq har aktivert dyptgående analyse av karakter overflod [1], [2], [3], alternativ spleising [4], [5], [6], [7], roman transkripsjon påvisning [8], biomarkører [9], [10], [11], patogen deteksjon og karakterisering [12], [13], [14], og genfusjon oppdagelse [15], [16], [17] .
Den første bølgen av «neste generasjon» sekvense plattformer som de fra Applied Biosystems, Illumina, Ion Torrent, og Roche /454, utnytte PCR baserte forsterkertrinnene i prøveopparbeidelse og sekvensering og er dermed kategorisert som forsterkning basert sekvensering (AS) metoder. Et annet sett av plattformer, beskrevet som «enkelt molekyl sekvensering «(SMS) [18] av Helicos og Pacific biovitenskap, eliminere forsterkning trinnene involvert i prøveopparbeidelse og sekvensering prosessen og dermed bekjenner seg til å gi et mer nøyaktig bilde av den transkriptom.
AS teknikker involverer typisk to forsterkertrinn; den første forsterker oppstår under dannelsen av dobbelt-trådet cDNA-bibliotek fra den fragmenterte mRNA. CDNA blir ligert til et par av adapter-molekyler, og PCR-amplifisert. En annen forsterkertrinnet utføres med adapteren-ligert cDNA enkelttråder hybridiserte til primere bundet til et glass eller silisium substrat for å produsere lokale grupper av identiske molekyler ved hjelp av isoterm amplifisering eller emulsjon PCR. Samlet utgjør disse to trinnene har potensial til å selektivt innføre over-representert segmenter og gener i AS data. Det har blitt observert at denne skjevhet eksisterer [19], [20], [21], [22], men dens effekt på transkripsjon dekning og kvantifisering ikke har blitt grundig undersøkt i komplekse prøver med transkripter på variabel konsentrasjon. Den Helicos SMS-protokollen innebærer etablering av enkelt cDNA maler direkte fra mRNA og hybridisering av disse polyadenylert maler til komplementære oligomerer bundet til et glass lysbilde for sekvensering (figur S1).
Resultater
Vurdering av SMS RNA-Seq gjennom transkripsjon profilering
for å vurdere systematisk forskjellene mellom de to sekvense teknologier, analyserte vi RNA-Seq resultater fra forsterkning-basert sekvensering (AS) og single-molekyl sekvensering (SMS) på tvers et sett av tolv cancercellelinjer og vevsprøver. Spesielt vår tilnærming forsøkt å oppdage tilbakevendende skjevheter som kan innføres ved forsterkertrinn implisitt i AS. Vårt første datasett som brukes til å evaluere ytelsen kvantifisering består av sampler fra de prostatacancercellelinjer DU145, RWPE, VCap, og LnCap, og en prostatacancer tumorvevet med et samsvarende tilstøtende normal prøve. Ut av vår sett ble tre prøver hver av Vcap og LNCaP strukturert som et tidsforløp studie med 0 t, 24 timer og 48 timer tidspunkter.
I vår analyse av de to teknologiene, valgte vi å bruke den foretrukne innrettingsverktøy for hver teknologi i en «best vs. beste» tilnærming. AS leser ble justert med Bowtie aligner [23] mens SMS leser ble justert med IndexDP [24] (figur S2). Leser innrette til kjente biologiske forurensninger som mitokondrie DNA, ribosomalt RNA, og teknologi-spesifikke forurensninger slik som adaptersekvenser og lange oligomerer, ble filtrert ut av datasettet før analysen.
For å vurdere variasjonen mellom SMS og AS-teknologi, har vi tatt i en enkel lese telling prosedyre lik den andre RNA-Seq kvantifisering metoder [1], [2]. Leser fra enkle baner av AS og SMS-teknologi går parallelt, ble justert til 56 722 University of California Santa Cruz (UCSC) transkripsjoner (versjon hg18). Vi deretter oppregnet leser per-transkripsjon og normalisert basert på antall av høy kvalitet, leser ikke-forurensende per prøve for å oppnå verdier i leser per million (RPM). For å unngå usikkerhet knyttet til multi-kartlegginger av Gene isoformer, ble bare enkelt beste kartleggingsmetoder som brukes til å kvantifisere genene for sammenligning. Enkelt beste kartlegginger ble avledet fra AS leser ved å sette Bowtie å rapportere bare én høyeste kvalitet justeringen per leser. Enkelt beste justeringer ble avledet fra SMS leser ved å akseptere justeringer med de høyeste kvalitetspoeng. Verdier fra alle gentranskriptet isoformer, som definert av UCSC, ble summert for å gi verdier i form av linjer pr million leser for hver av 29,416 gener. Deknings verdier i leser pr kilobase per million (RPKM) ble beregnet ved å summere RPKM verdier av isoformene av hvert gen. Gjennom en head to head sammenligning mellom AS og SMS leser av identiske prøver kjøres parallelt på de to plattformene, observerte vi en systematisk overrepresentasjon av høye uttrykker transkripsjoner i AS i forhold til SMS. Denne skjevhet resulterte i redusert dekning av middels og lavere nivå uttrykk gener som fører til generelt lavere karakterutskriften følsomhet i AS. Reprosessering en undergruppe av AS prøver ved hjelp IndexDP og gjenta analysen utelukkes tekniske forskjeller i lese oppdrag som årsak til denne representasjonen skjevhet. Som sekvense teknologi og kjemi fortsetter å avansere, forventer vi AS plattformer vil overvinne begrensning av lav uttrykt transkripsjon påvisning av økt gjennomstrømning.
Globale egenskaper AS og SMS resultater
transkriptomet sekvensering ble gjennomført parallelt på AS og SMS-plattformer for 12 prøver inkludert 10 prostatakreftcellelinjer og to prostata kreft vev. Totalt sett genererte vi 2,8 til 19700000 rå AS og SMS leser i hver av de 12 prøvene. Omtrent 30-60% av disse leser gått innledende filtreringstrinn og justert til vår transkriptom referanse. SMS leser ble produsert i to separate maskin kjører mens AS leser ble produsert over 6 uavhengige maskinen går. Denne fremgangsmåten resulterte i 2,1-15000000 og 2,8-8000000 leser for SMS og AS, respektivt, som justert til vår transcriptome referanse. I 10 av de 12 prøvene som brukes i evalueringen, produsert SMS mer innrettbar leser i absolutte termer, med en median på 1.39x tvers av alle 12 prøver. SMS resultater inneholdt mer leser innrette til kjente forurensninger, som strekker seg fra 12% til 51% av total leser, med en median på 22%. Fraksjonen av leser samkjøre til forurensninger i AS varierte fra 2,6% til 14% med en median på 4,2%. SMS lese lengde var variabel og et filtreringstrinn begrenset bruk leser til en lengde på mellom 24 bp og 57 bp i første løp, og 25 bp og 64 bp i vårt andre løp, noe som gir en lese telle vektet gjennomsnittlig lengde på ca 33 bp i hver av de tolv prøver (Tabell S1). En median på 97% av alle SMS lesninger hadde lengde mellom 25 bp og 47 bp i alle 12 prøver (figur S3). AS leser ble generert på et minimum lengde på 36 bp i hver prøve, selv om den første og siste flere baser ble ignorert for å produsere høy kvalitet leser minst 34 bp i lengde. All AS leser ble ansett for å ha maksimalt 36 bp lengde. Reproduserbarhet mellom tekniske replikater av DU145 cellelinjen var høy for både AS og SMS-metoder, med en Pearson korrelasjon på
r
= 0,98 for begge teknologiene (figur S4). Leser fra både AS og SMS ble også justert slik at for 25 maksimal kartlegginger for å vurdere fordelingen mellom uniquely- og multiply kartlagt leser på gennivå, selv om bare single-beste kartlegginger ble brukt for kvantifisering og sammenligningsformål. Begge teknologiene oppnådd svært like unike kart priser på 72% og 75% i AS og SMS, henholdsvis. Fra denne rå stilte data, undersøkte vi den relative fordelingen av lyder over gener observert i våre prøver ved å sammenligne deres normaliserte lese teller. Som forventet, observerte vi bred enighet i form av genekspresjon verdier mellom teknologier (figur S5). Imidlertid ble det observert en tilbakevendende mønster av overrepresentasjon av høy-overflod transkripter ved AS metoden sammenlignet med SMS.
Dekning skjevhet i amplifikasjon-sekvensering
Sammenligning av transkriptomet lesninger av den samme prøver kvantifiseres i parallell fra AS og SMS-plattformer avslører en tydelig skjevhet i AS fører til en svak overrepresentasjon av høyt uttrykte gener i forhold til SMS, som vist i figur 1A. Denne forskjellen ble kvalitativt vurdert ved å dele gener inn i kvartiler av like mange, bestilt av observerte verdier i AS, med den første kvartil representerer de høyeste uttrykker genene, den andre kvartil representerer mid-nivå uttrykk gener, og den tredje og fjerde kvartil definere gener med de laveste nivåene av vitnemål (Figur 1b). Sterkt uttrykt transkripsjoner tendens til å ha mer lese dekning i AS, mens SMS tendens til å dekke de lavere uttrykt transkripsjoner mer effektivt (tabell S3). Denne ekstra dekning av høy konsentrasjon transkripsjoner konsekvent ut til å være på bekostning av lavere uttrykt transkripsjoner, som hadde en tendens til å være mer grundig sekvensert ved hjelp av SMS (tabell S4).
(A) Single-beste kartlegging metode- basert quantile-quantile plott viser tegn til overrepresentasjon av høyt uttrykte transkripsjoner i forsterkning baserte sekvensering i forhold til enkelt-molekyl metoder. (B) Fordeling av lyder over gener av transkripsjon konsentrasjons viser redusert SMS dekning av de høyest uttrykte genene, med de som leser kommer til midten og lavt nivå uttrykkere. leser (C) Forskjeller i fordelingen av bly til økt følsomhet av lavt uttrykke transkripsjoner. (D) Ni av kandidatgener sett over 0,3 RPKM støynivået demonstrert noen forsterkning av RT-PCR, selv om bare
HIST1H4C
viste høy overflod.
For å sikre at disse skjevhetene var ikke et resultat av å bruke en annen aligner for hver teknologi, AS leser ble gjen justert med IndexDP aligner brukes til SMS leser for en undergruppe av prøvene, sammensatt av Vcap-24 h, Vcap-48 h, LNCaP -24 h, LNCaP-48 timer, og DU145_1 prøver (figur S6). Meget høy korrelasjon av gen-nivå verdier sammenligne Bowtie og IndexDP justeringer for settet av AS leser utelukkes forskjeller mellom justering verktøy som kilde til de observerte skjevheter. For eksempel korrelasjon av gen-nivå verdier i LNCaP-24 h prøven var høy mellom justeringsmetoder på
r
= 0,97. Tilsvarende høy korrelasjon nivåer over
r
= 0.95 ble observert i de resterende prøvene. Lignende mønstre av høy uttrykker overrepresentasjon i AS ble observert ved anvendelse av IndexDP justeringer av AS står det i stedet for vanlige justeringer ved hjelp av Bowtie som vist i figur S7. Med metodiske forskjeller i hovedsak utelukkes, forsøkte vi å observere effekten av denne høy konsentrasjon dekning skjevhet ved å undersøke påvisning av vitnemål på lave nivåer.
Økt SMS følsomhet resultater fra høy dekning av lav overflod transkripsjoner
for å evaluere effekten av økt dekning i middels til lav-nivå transkripsjoner i SMS, vi beregnet antall gener observert over en støyterskel i bare ett av de to teknologiene. Ved hjelp av 0,3 RPKM støynivået cutoff basert på Ramskold, et al. [25], antall gener detektert i bare en enkelt teknologi varierte mellom en topp på 4851 og et lavt på 2048 og en topp på 1276 og et lavt på 145 i SMS og AS (figur 1C), henholdsvis på tvers av sett av prøver. Det ble observert en log-fold forskjell mellom antall gener påvist i bare én av SMS vs. AS teknologi som vi varierte verdi cutoff mellom 0,1 RPKM og 3,0 RPKM (figur S8) i trinn på 0,1 RPKM. Disse grensene ble valgt for å undersøke følsomheten av de to metodene over et område av verdier som starter fra en nær-null støynivået til en størrelsesorden større enn tidligere rapportert. Lagdeling av genene som observeres i et enkelt teknologi i lengde klasser av 0-300 bp, 300-3000 bp og 3000 bp + viste at dette ikke var på grunn av forskjeller i prøvepreparering teknologi-spesifikke, som AS-protokollen spesifiserer en ~300 bp størrelse valg skritt som SMS prosedyren ikke krever. Denne klassen viser forholdsvis lav representasjon over støy terskler i både AS og SMS. Vi tok denne evalueringen ett skritt videre og undersøkt resultatene fra både SMS og AS teknikker forsøker å finne gener påvise bare i én teknologi.
Unikt oppdaget gener i SMS
For å underbygge potensielle representasjon skjevheter i de to plattformene, og de foreslåtte ekstra følsomhet på SMS, vi neste spørres etter gener som ble oppdaget over en støyterskel på SMS, men var under denne terskelen i AS. Vi valgte å analysere DU145 prøven som det var den mest grundig sekvensert prøven med to gjentak kjøres ved hjelp hver teknologi. Ved hjelp av en 0,3 RPKM terskel, valgte vi å teste uttrykket av 23 gener i våre DU145 prøver ved hjelp av RT-PCR, ti av dem viste påvisbare forsterkning. I tillegg har vi sekvensert DU145 cellelinje mye mer grundig for å sikre at våre registreringer var ikke på grunn av tekniske forhold i en enkelt maskin løp. Som vist i fig S9, dette sett av gener hadde bedre sekvense dekning i SMS sammenlignet AS tvers over den totale 94427789 leser som genereres i vårt andre sett av kjøringer. Denne listen ble generert ved å undersøke fordelingen av leser og dekkende kart over de 50 beste genene som RPKM dekning viste den største forskjellen mellom AS og SMS-teknikker og hadde offisielle HUGO navn [26]. Kandidater ble valgt for tilstedeværelse av lang ( 36 bp) kartlegging leser og godt fordelt lese justeringer over lengden av transkripsjoner. Av de validerte genene detektert bare av SMS, ble bare
HISTH1H4C
funnet å være til stede i DU145 prøve med høy grad av sikkerhet, som vist i figur 1D. Ni andre kandidatgener
AK5
,
ACVRL1
,
AMHR2
,
CERKL
,
MAFA
,
MAGI2
,
PIP5K1B
,
FAM49A
, og
TPRXL
viste svak forsterkning. I dette sett av gener, amplifisering ble bare sett utover syklus 30 som gjør det vanskelig å bekrefte deres nærvær. Vi neste søkt å undersøke de over-representert gener som kan bidra til reduksjon av følsomheten med forsterkning baserte sekvense teknikker.
konsekvent overrepresentasjon av høy-uttrykk gener i forsterkning-basert sekvense
Totalt 393 gener ble funnet å være konsekvent innenfor settet av de 500 overrepresentert gener ifølge normalisert lesekartlegging teller i minst 40% av våre prøver (Tabell S2). Av disse 393 genene, ble ti gener funnet å være over- representert ved normalisert lese kartlegging telling på tvers av alle 12 prøvene vurderes i studien. De dekkende kart over
RPLP0 Hotell og
RPL31
, overrepresentert i alle 12 prøver, og
SPINT2
, over-representert i 11 prøver, viser denne dekningen skjevhet i disse tre høye uttrykker transkripsjoner (figur 2A, B, C). Vi deretter undersøkt sammensetningen og fordelingen av lyder i noen av disse svært overrepresentert transkripsjoner.
Et dekningskart fra forsterkning basert og enkelt molekyl sekvensering viser betydelig større dekning av (A)
RPLP0
(B)
RPL31
, og (C)
SPINT2
. Fjerning av lyder med samme startposisjoner, strengt undertrykke forsterkning av spesifikke mRNA fragmenter, reduserer «spikiness» sett i disse tilfellene betydelig. (D) Duplicate leser, definert som leser i overkant av én per start locus og lese lengde, er relativt jevnt fordelt langs lengden av alle observerte utskrifter på tvers av alle prøvene i vår evaluering sett.
Impact of duplisert leser i forsterkning-basert sekvense
genet
RPLP0
hadde mye større total kartlegging dekning i AS tvers av alle tolv prøver (Figur S10). For å aggressivt redusere effekten av forsterkning i dekningen av dette genet, leser duplikat ble fjernet (slik at bare en lese per unik start plassering) for begge teknologiene som gjøres i tidligere studier [21], [22]. Dette resulterte i undertrykkelse av mange av de observerte toppene i AS. I motsetning til dette, SMS dekning av genet som syntes å være relativt konsekvent over lengden av den
RPLP0
transkripsjon før og etter denne prosedyre. Dette betydelig forskjell i oppførsel mellom pre- og post duplikat lese fjerning for AS i forhold til SMS tyder på at forsterkning er en betydelig medvirkende faktor i den observerte bias. Lignende oppførsel er observert i
RPL31 Hotell og
SPINT2
gener i tillegg.
Vi vurderte både innretting locus og lese lengde i vår definisjon av lese duplisering, slik at man lese på hver locus med en unik lese lengde. Ser over transkriptomet ved hjelp av denne definisjonen av lese duplisering, observerte vi en tilnærmet normal fordeling langs lengden av alle transkripter fanget. En 3-fold forskjell i median antall eksemplarer leser mellom AS og SMS på tvers av alle utskrifter observert i alle prøvene ble opprettholdt over mesteparten av transkripsjon lengde (figur 2D). Dette mønsteret av lese duplisering er lik den som er observert i litteraturen mellom standard forsterkning-avhengige og forsterkningsfritt sekvense metoder [27]. Fjerning av duplikat leser, slik at bare en lese per locus, gitt inkonsistente resultater på tvers av prøvesett (figur S11). I noen tilfeller kan fremgangsmåten reduserte overrepresentasjon i de høyeste som uttrykker genene, men forspenningen syntes å forbli i andre prøver. Prosedyren også drastisk redusert antall bruk leser med en median på 47% over 12 prøvesett (figur S12). Mens denne naive metodikk for duplikat lese fjerning hatt noen positiv effekt i å redusere avvik mellom AS og SMS i form av avskrift kvantifisering, de drastiske effekter det har på antall brukbare lyder i AS foreslår en annen tilnærming kan være ønskelig. Med denne forståelsen av virkningen av duplisert leser, analyserte vi sett recurrently over-representert gener for å se om de sekvensert biologisk interessante kategorier av gener.
Gene ontologi analyse av settet av 393 recurrently over-uttrykte gener
Across prøvene, gener assosiert med cellens replicative maskiner omfattet den største delen av over-representert transkripsjoner av totalt normalisert antall kartleggings leser i de fleste prøvene. Gene Ontologi analyse av settet av 393 jevnt over-representeres gener viser at de er komponenter av cellens translatoriske maskiner (figur 3), en klasse generelt funnet i høye nivåer i alle de tolv prøver som brukes i denne evalueringen. Dette igjen tyder på at forsterkningen prosedyren implisitt i AS bibliotek forberedelse overdriver en bestemt bias mot disse allerede rikelig transkripsjoner. Det totale antall leser falle i hver av klassene observert å være overrepresentert i AS ble et gjennomsnitt på 2.23x høyere i forhold til SMS, selv om gener lapper mellom klassene. Med mindre fokus på høy konsentrasjon translasjonsforskning maskiner og husholdningsgener, da vi forsøkte å bruke SMS i å finne Genfusjonene i transkriptomet.
GÅ analyse av de 393 mest over-representert gener funnet ved hjelp av vår tilbakefall analyse i Molecular Function (MF) og biologisk prosess (BP) undertreene viser at translasjonsforskning prosesser og komponenter til ribosomet er overrepresentert på tvers av prøver i forsterkning baserte sekvensering.
Re-oppdagelsen av kjente genet fusjoner bruker single-molekyl sekvense
Vi evaluerte anvendelsen av enkelt lese SMS i genet fusjon oppdagelse ved å forsøke å gjenoppdage kjente Genfusjonene i Vcap cellelinjen, kjent for å huse
TMPRSS2-ERG
, i en
de novo
prosess. Som vist i fig S13, vi først justert av alle mulige leser mot transcriptome og genomet ved hjelp av IndexDP. Den ikke-mapping leser, hvilke havnen kimærer, ble deretter justert mot transkriptomet å returnere de lesninger som hadde en delvis innretting av minst 18 nukleotider. Den del av lese som ikke klarer å justere er definert som overheng. Alle leser har samme partielle justeringer, noe som tyder på en felles stoppunkt, ble gruppert. Alle grupper ble så sammenlignet for å bestemme om den overhenget fra en stoppunkt region hadde likhet med overheng på et uavhengig stoppunkt for derved å rekonstruere fusjon veikryss. Til slutt, alle gjenværende ikke-mapping leser ble justert mot de nye fusjons veikryss.
For dette formålet, ble en prøve av Vcap cellelinje sekvensert mer omfattende i 2 kanaler, genererer 31198128 leser justert til transkriptom eller genom . Den VCap prøve ble fremstilt med en kanal hver med og uten fragmentering. Referanse fusjon mellom prostata-spesifikt gen
TMPRSS2 Hotell og ETS onkogene familiemedlem,
ERG product: [28], ble funnet å være dekket av 53 leser fra generere 65 millioner leser i Vcap cellelinje (figur 4).
Skjematisk av intra-kromosom omorganisering på kromosom 21 fusing
TMPRSS2 plakater (gul) til
ERG plakater (lilla).
Diskusjoner
Dette er den første studien å vurdere resultatene av RNA-Seq bruker enkelt-molekyl sekvensering i forhold til eksisterende forsterker-baserte teknikker. Mens egenskapene til SMS leser vil variere avhengig av plattformen, forventer vi at fordelingen av lyder over varierende transkripsjon konsentrasjoner å være relativt konsekvent. SMS teknikken var i stand til å generere mer brukbare lyder i ti av de tolv prøvene vurderes i RNA-Seq kvantifisering og dekning evaluering, produsere en gjennomsnittlig 78% mer leser i disse 10 prøvene. Enda viktigere, disse leser tendens til å være mindre konsentrert på de aller høyeste overflod transkripter som vist i figur 1B, hvor fraksjonen av total leser tilordning til de høyeste overflod transkripsjoner i SMS er 4% lavere enn AS. Fordi AS teknikk samler opp en stor andel av leser sekvens høy overflod transkripter, påvisning av lavere overflod gener blir redusert. De store forskjeller mellom den høyeste og nest høyeste kvartil av uttrykte transkripter tyder på at denne effekten er ikke-lineær som transkripsjon overflod økninger i prøven. Det store utvalget av transkripsjon uttrykk i biologiske prøver som gjør denne skjeve lese fordelingen av dekning en viktig faktor når profilering mRNA ved nukleotid-nivå, med avgang fra modeller som kan anta en lineær sammenheng mellom karakter overflod og sekvensering dekning.
antall duplisert leser observert i prøvene på tvers av alle vitnemål ble, ikke overraskende, tre ganger høyere hos AS sammenlignet med SMS. Fjerning av duplikat leser er en veldefinert prosedyre i forsøk med DNA-sekvensering, men er mindre entydig når sekvensere transkriptomet hvor varierende transkripsjon konsentrasjoner naturligvis føre til leser identiske mRNA segmenter. Dette forbeholdet skyldes høyt uttrykte transkripsjoner bidrar falsk positiv duplikat leser på grunn av tilfeldig utvalg av lese starte steder langs karakterutskriften. Imidlertid ville høyt uttrykte transkripter i SMS sannsynlig generere et stort antall av disse falske positiver i tillegg. Som et resultat av denne kilde til falske positive dupliseres leser er usannsynlig å være den viktigste faktor bak de store observerte forskjeller i antallet av dubletter mellom AS og SMS. Fjerningen av duplisert leser ved å filtrere ut alt står i overskudd av en enkelt lese for et enkelt locus synes å være en ufullstendig løsning som introduserer flere forstyrrende faktorer ved bruk av én leser. Først prosessen med å fjerne duplikater er inkonsekvent, påvirker partisk fremstilling av lyder i bare en undergruppe av sakene vi observerer. For det andre, den dupliserte fjerningen også redusert den brukbare sekvens utbytte fra hver forsøks løp med nesten halvparten, selv om dette er en overvurdering på grunn av naive natur av fremgangsmåten. Til slutt, disse dupliserte fjerning metoder innføre en topp dekning grense for hver transkripsjon som tilsvarer lese lengde. Den naive prosessen vi søkt om eliminering av duplikater er absolutt over-aggressive og dette problemet kan bli delvis lindres ved hjelp av mer sofistikerte bioinformatiske og statistiske metoder. Men disse prosessene pålegge ekstra konfunderende faktorer i dataene som SMS unngår helt på grunn av den direkte natur sekvensering metodikk. Alternativt, leser bruk av parvise ende også produserer ytterligere kartlegging og sekvensinformasjon som forbedrer prosessen med duplikat identifikasjon og fjerning. Forskjellene som følger av egenskapene til disse to metoder kan føre til forskjeller i dekningen av gener langs spekteret av uttrykk.
Små forskjeller i fordelingen av lyder på høyeste kvartil av uttrykte gener har en stor effekt på dekning av de gjenværende uttrykte gener. For eksempel, komponerer laveste kvartil av alle gener sett i begge teknologier i VCap-24-timers prøve 0,4% av summen av normalisert leser sett i det høyeste kvartil uttrykt ved AS. En 1% reduksjon i antall lesninger anvendes for å sekvensere de høyeste som uttrykker genene i den fjerde kvartil kan brukes til å tredoble dekning for de laveste som uttrykker genene når lesninger er anvendt innen den fastsatte. Resultatet av skiftende lese distribusjon til lavere uttrykker gener er sett mellom Vcap-0 h og Vcap AS prøver. Begge prøvene ga en relativt lik antall lyder, med 3.636.454 og 3.352.960 leser i Vcap-0 h og Vcap hhv. Imidlertid har den VCap-0-h prøve mer enn dobbelt så stor brøkdel av den totale leser falle inn i det laveste 2 kvartilene med 2,2% og 0,9%, i de respektive VCap-0-h og VCap prøver. Det kommer ikke som noen overraskelse at i Vcap-0 h prøven, er vi i stand til å observere 16,813 gener over 0,3 RPKM støy terskel mens i Vcap, vi bare observere 13,866 gener over denne grensen. På samme måte lar redusert høy overflod dekning forspenning over variable konsentrasjoner av SMS tilnærming 2- til 6-ganger mer dekning i den nedre halvparten av alle uttrykte gener. Den variable lese lengden av SMS leser bidrar til kvantifisering støy, sammenlignet AS, på grunn av det antall kort leser hvilket kart tvetydig. Disse mis-kartlegginger kan bidra til større antall gener observert på de aller laveste uttrykket nivåer. Undersøkelse av den leser kartlegging for å gener bare finnes i SMS viser tilstedeværelse av mer enn 30% av lang SMS leser (mer enn 36 bp i lengde) i en median på 17% av genene (tilnærmet leselengdefordeling på tvers av alle prøver) og etterlater en 1,7-gangers fordel i favør av SMS følsomhet hvis gener påvist med bare kort 24- til 35-mer leser betraktes alle registreringer på grunn av støy. Mens en betydelig andel av denne støyen er direkte knyttet til uklarheter i nøyaktig kartlegging kort leser, tilstedeværelse av lange ( 36 bp) aligned leser er ikke en garanti for transkripsjon tilstedeværelse. I et stort antall av de tilfeller der oppdaget gener har lenge leser justert til dem, falske positiver skyldtes disse lange leser kartlegging av gjentakende elementer eller lav kompleksitet regioner innen transkripsjoner.
Våre PCR Valideringsresultatene tyder på at bruk