PLoS ONE: Hank: En integrert ressurs for profilering høy gjennomstrømming Cancer Genomisk data fra Stress Response Studies

Abstract

Den økende tilgjengelighet og modenhet av DNA microarray teknologi har ført til en eksplosjon av kreft profilering studier for å identifisere kreft biomarkører, og forutsi behandlingsrespons. Avdekke komplekse sammenhenger, men er fortsatt den mest utfordrende oppgave som det krever kompilering og effektivt spørring data fra ulike kilder. Her beskriver vi Stress Response Array Profiler (stropp), en åpen kildekode, web-basert ressurs for lagring, profilering, visualisering og deling av kreft genomiske data. Strap hus multi-kreft microarray data med stor vekt på strålebehandling studier, og tar en systembiologi tilnærming mot integrering, sammenligning og kryssvalidering av flere kreft profilering studier. Databasen er en omfattende plattform for komparativ analyse av genuttrykk data. For effektiv bruk av arrays, kan vi tilby brukervennlige og interaktive visualiseringsverktøy som kan vise dataene og søkeresultatene. Stroppen er web-basert, plattformuavhengig, og fritt tilgjengelig på https://strap.nci.nih.gov/

Citation. Johnson S, Issac B, Zhao S, Bisht M, Celiku O, Tofilon P, et al. (2012) Strap: En integrert ressurs for profilering høy gjennomstrømming Cancer Genomisk data fra stressrespons Studies. PLoS ONE 7 (12): e51693. doi: 10,1371 /journal.pone.0051693

Redaktør: Sui Huang, Institute for Systems Biology, USA

mottatt: 09.08.2012; Godkjent: 05.11.2012; Publisert: 17.12.2012

Dette er en åpen-tilgang artikkelen, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. Arbeidet er gjort tilgjengelig under Creative Commons CC0 public domain engasjement

Finansiering:. Dette arbeidet ble støttet av egenutført Research Program av National Institutes of Health, National Cancer Institute, Senter for Cancer Research. Kostnadene ved publisering av denne artikkelen ble defrayed delvis av utbetaling av side kostnader. Denne artikkelen må derfor herved merket annonse i samsvar med 18 U.S.C. Seksjon 1734 utelukkende for å indikere dette faktum. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser. SJ og SZ er tilknyttet til SAIC, Frederick, Inc. Forfattere KC og PT er PLoS ONE redaksjonelle styremedlemmer. Det finnes ingen patenter, produkter under utvikling eller markedsført produkter å erklære. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer, som beskrevet på nettet i veiledningen for forfatterne.

Innledning

DNA-mikromatriser er vellykket blir brukt til å klassifisere svulster og identifisere nye biomarkører assosiert med kreft (for noen nylige vurderinger se [1]). Genetiske varianter og forskjeller i personlige genomer ikke bare innvirkning kreft profiler, men er ofte ansvarlig for hvordan pasienten og kreft reagerer på behandlingen. Spesielt responsen på cellulært stress, enten indusert av cytotoksiske medikamenter, hypoksi, eller ioniserende stråling, kan variere sterkt, og dens genetiske basis er gjenstand for stor interesse. Vi er spesielt interessert i å belyse det genetiske grunnlaget for stråleterapi respons på jakt etter høyt prediktive genetiske signaturer. Strålebehandling er en sentral komponent i kreftbehandling [2], men har vært relativt under studert: et glimt av offentlige ressurser som Pubmed eller array-databaser viser at strålebehandling studier utgjør mindre enn 1% av det totale antallet poster

Vanligvis hver enkelt studie involverer en rekke statistiske og kvantitative analysetrinn (se [3] for et sammendrag av typiske trinn), og kan vise til genet og genprodukter som er avgjørende for sykdom og behandling. Imidlertid er sparsom, høy-dimensjonal karakter av microarray data plass [4], og et stort antall gener involvert i ofte subtile og komplekse baner, nødvendigmetaanalyser for å sammenligne og å samle resultatene fra forskjellige undersøkelser. Cross-platform kompatibilitet kan bare oppnås en gang i løpet av plattformer konsistens problemene er dekket av adressert og resultatene av slike studier er så godt som genet identifiseringsmetode. MAQC konsortium har generelt funnet at riktig prøveopparbeidelse er tilstrekkelig til å dramatisk forbedre Multilab og multiplattform korrelasjoner [5]. Nytten av slike analyser ble dokumentert i gjennomføringen av CellMiner verktøyet, en web-basert program for integrering av molekylære profildata ved DNA, RNA, protein, og farmakologiske nivåer på de allment studert NCI-60 kreftceller [6]. Flere andre studier funnet lagt kompleksitet for metaanalyse på grunn av stort mangfold i kilden, sample, og plattformtyper [7] – [9]. De to viktigste teknologiene mikromatriser forskjellig i den grunnleggende design, cDNA mikromatriser bruke full-lengde transkripsjoner trykt på lysbilder og oligonukleotid basert arrays utgjør en shorter- oligonukleotider syntetisert in situ. En viktig utforming spørsmål er om å måle ekspresjonsnivåene fra hver prøve på en annen microarray (med én farge, eller enkelt-kanal, arrays), eller i stedet for å sammenligne relative uttrykk nivåer mellom et par av prøver på hver microarray (to- farge eller to-kanals arrays). Det er avveininger mellom de to tilnærmingene. Ensfargede arrays tillate mer fleksibilitet i analysen, mens to-farge arrays kan kontrollere for noen tekniske problemer ved at en direkte sammenligning i en enkelt hybridisering [10]. En fersk sammenligning av en- og to-farge metoder på de samme plattformene funnet god generell enighet i dataene som produseres av de to metodene [11]. Z-stillingen transformasjonsprosedyren for å normalisere dataene er et velkjent statistisk metode i både neuroimaging og psykologiske studier og har nylig blitt anvendt i meta-analyse av mikroarray datasett fra forskjellige plattformer [12], og er spesielt egnet for utvikling av databaser [13].

det vell av data har også ført til etableringen av et bredt spekter av ressurser. På den ene enden av spekteret, dataregistre som Gene Expression Omnibus (GEO) [14] gir tilgang til rå eksperimentelle data; på den andre enden, verktøy som ONCOMINE [15] til ambisiøst, men typisk ved en kostnad, gi muligheter for meta-analyse av array-data. Men til vår kunnskap, ingen av de eksisterende gratis ressurser fokusere på stressrespons eller strålebehandling studier kombinert med visualisering utganger.

Vi utvikler tropp, en gratis web-tilgjengelig ressurs for å ivareta behovet for å søke, sammenligne, profil og visualisere resultater fra ulike microarray eksperimenter. Strap verter data fra ulike kreftstudier (for tiden fra 12 forskjellige typer vev), og vil bli ytterligere utvidet i fremtiden. Vi brukte Z scoring metode for å standardisere data, siden de internt normaliserte verdier ikke endres med påfølgende tillegg av nye datasett. Alle data er kartlagt til Entrez Gene identifikatorer for konsistens i sammenligning. Den brukervennlige grensesnitt forenkler leting etter et bredt spekter av forskere, inkludert de med liten kompetanse i bioinformatikk.

I resten av denne artikkelen beskriver vi kort stropp entreprenør og kjernefunksjoner.

materialer og metoder

arkitektur

runtime arkitektur stroppen er beskrevet i figur 1. arkitekturen er 3-lags. Den grunnleggende utformingen av arkitekturen er en forbedring av våre tidligere utgitt CellMiner verktøy [6]. Den nederste nivået representerer kilder til eksperimentelle (microarray), meta (cellelinje) data, og eksterne verktøy som er påberopt å visualisere data. Den midterste tier representerer hvordan dataene behandles, lagres og gjøres tilgjengelig for brukeren. De pre-behandlingstrinn ble utført før distribusjon. På dette stadiet, ble data fra lavere nivå nås, behandles (ved hjelp av R scripting), og lagret i stroppen dataregister (som består av en MySQL database, og andre filer lagret på serveren filsystem). Den høyre side av mellomlaget representerer analyse «tjenester» som er tilgjengelig ved kjøring til brukeren. Disse inkluderer filtrering av data (i henhold til bruker konstruerte spørringer), visualisering av resultatene, og alternativene for å laste ned data. Disse tjenestene er gjort tilgjengelig som web-tjenester og er vert på en Apache-server. Den øverste tier representerer brukergrensesnittet (implementert ved hjelp av PHP, Javascript, AJAX, og HTML), og er organisert rundt tre hovedmoduler (gener, cellelinjer, og Arrays).

Diagrammet representerer en kjøretids visning av arkitekturen i stroppen. Den nedre tier representerer kilder til eksperimentelle data, metadata og eksterne verktøy som er påberopt å visualisere data. Den midterste tier representerer hvordan dataene behandles, lagres og gjøres tilgjengelig for brukeren. Den høyre side av mellomlaget representerer analyse «tjenester» som er tilgjengelig ved kjøring til brukeren. Jo høyere nivå representerer brukergrensesnittet, og er organisert rundt tre hovedmoduler (gener, cellelinjer, og Arrays).

dataregistre

Fire hoveddataregistre bor på backend av Hank: (1) Gene forbundet merknad informasjon avledet fra National Center for Biotechnology Information (NCBI, https://www.ncbi.nlm.nih.gov/), (2) Pre-behandlet genekspresjon microarray molekylær profildata ( inkludert forhånds beregnes statistikk), (3) metadata på cellelinjer, og (4) metadata på plattform tilhørende informasjon.

Den strukturerte layout av tabellene fremmer effektiv spørring og integrering av fenotypiske data, metadata og molekylær profil informasjon fra ulike studier. Databasen støtter flere samtidige spør økter.

De repositories blir lagret som en MySQL relasjonsdatabase (https://www.mysql.com).

Data Forberedelse

microarray data ble oppnådd som råfiler når det er tilgjengelig eller annet som forfatter avsatt normaliserte filer fra GEO databasen [14], ArrayExpress [16], eller in-house eksperimenter. To plattformtyper er hovedsakelig brukt i disse studiene. CDNA to farger (National Cancer Institute- ROSP 8K Menneskelig Array og Agilent hele menneskets genom mikromatriser), og én farge arrays (for tiden vi huse Affymetrix og Illumina genet chip data)

rådata ble vurdert for kvalitet og normalisert ved Lowess [17], eller henholdsvis metoder for cDNA og Affymetrix arrays, MAS5 [18]. Z-score transformasjon ble brukt til å oppnå en uniform skala på tvers av forskjellige studier og plattformer, noe som er nødvendig for å sammenligne data fra forskjellige studier. Forhånds beregnet statistiske tester ble utført ved tre nestet-nivå kompleksitet.

På øverste nivå, er hver studie utsatt for ANOVA analyse utført mellom alle kontroller og tilfeller å gi en samlet betydning av studien design.

en vev nivå ANOVA analyse er implementert som en andre tier av sammenligning mellom alle kontrollene og saker for hver vevstype i en studie.

på forsøket nivå, for hver celle-linje /prøve, en case-kontroll sammenligning utføres av t-test analyse.

Pre-prosessering og beregning av statistiske tester er utført i R miljø (https://www.r-project.org/) .

Interface

fronten grensesnittet er en web-basert applikasjon implementert ved hjelp av R, PHP (https://www.php.net/) og Python (http: //www. python.org/). Søknaden er utplassert på en Apache HTTP-server (https://httpd.apache.org/) ved National Cancer Institute (NCI).

Kjernefunksjoner

Datatilgang og presentasjon er organisert rundt tre hovedkonsepter eller moduler: (1) gener (2) cellelinjer, og (3) Arrays. Fleksible brukerdefinerte dataspørringer kan startes fra noen av modulene; data visualiseringsmuligheter for resultatene vises i integrerte utsikt og kan, avhengig av spørringen, bære krysstale mellom modulene. Flere linker til eksterne ressurser fremme et systembiologi tilnærming. Tabell 1 gir en oppsummering av kjernefunksjonene for hver modul. Forhånds beregnet statistikk (som beskrevet i forrige avsnitt) gjør visning av effektive og intuitive grafer.

Gener

gener modulen gjør det mulig gen-sentriske spørsmål av stroppen microarray studier. Spørsmål kan være basert på gen eller protein identifikatorer, synonymer, Gene beskrivelser eller kromosom plassering. Resultatene inkluderer tilhørende matriser og studier, og en samling av gen-merknad informasjon, romlig lokalisering i genomet visualisert i UCSC Genome leseren [19], og nettverksnabolaget kart generert fra protein-protein interaksjonsnettverk [20]. Spørsmål kan også bygges ved hjelp av genet lister definert av brukeren eller generert, for eksempel fra Gene ontologi (GO) termer [21].

En typisk gen-sentriske spørringen (se figur 2 for et eksempel arbeidsflyt) starter ved å identifisere studier profilering uttrykket av et gen (liste) av interesse. Uttrykket profiler og deres statistisk signifikans blir deretter visualisert via boksplott og barplots (viser studie-nivå, og eksperimentell-nivå kasus-kontroll forskjeller). Hvis inngangs innebærer en liste av gener, gjør en interaktiv heatmap alternativ visning uttrykk for gener i utvalgte studier. Heatmap er visualisert ved hjelp av Java Utforsker programmet [22].

Vanligvis en arbeidsflyt initiert fra Genes modul involverer en) går inn et gen av interesse (eller en liste av gener), 2) viser og velge studier med genet, 3) å velge en visualisering alternativ, og 4+) vise og inspisere valgt visualisering. Eksempelet som vises er for gen «ABL1.».

Som en ekstra bekvemmelighet har gener modulen inneholder et gen identifikator konvertering verktøyet, som kan brukes til å kartlegge fra én type gen identifikator (for eksempel , Entrez genet symbol) til en annen (for eksempel Entrez geneid).

celle~~POS=TRUNC linjer~~POS=HEADCOMP

cellelinjer modulen gir metadata om tilgjengelige cellelinjer og tilhørende studier. Spørringer i denne modulen er skreddersydd for å tillate utvalg av komplette studier av vev av opprinnelse, eller individuelle cellelinje. Sammenligninger kan gjøres for prøver i en studie eller på tvers av studier. (Se figur 3 for et eksempel arbeidsflyt.) Differensielt uttrykte gener i studier av interesse er identifisert basert på case-control t-test analyser (cellelinjevalg) og ANOVA analyse (studier med mer enn én gruppe). Standard filter er satt til p≤0.05, men kan tilpasses av brukeren.

Cellelinjer initiert arbeidsflyten vanligvis starter med 1) valg av en cellelinje (eller vev) av interesse (her «LCL» ), 2) kontroll av cellelinjen metadata, og tilhørende studier, 3) sammenligning av studier av interesse med en metamap viser betydningen av differensiell ekspresjon av individuelle gener for den gitte cellelinje, og 4+) inspisering av enkeltgener via barplots og boksplott .

arrays

arrays modulen gir en oversikt over aktuelle innholdet i databasen, inkludert antall studier, informasjon om plattformer, bidragsytere, og er tilgjengelig meta-informasjon. Pre-behandlet data eller data fra den opprinnelige kilden kan lastes ned fra denne modulen. Integrerte forespørsler fra denne modulen lar utføre sammenligning av studier av vanlige prøver eller forening av gener innen de utvalgte studiene.

Et eksempel arbeidsflyt er vist i figur 4. Arrays kan filtreres ved å velge stimulus brukt i studien. Gitt vår interesse i effekter av ioniserende stråling, de fleste av arrays i depotet ha «stråling» som stimulans.

Arrays arbeidsflyten vanligvis starter med 1) inspeksjon av tilgjengelige matriser og valg av en studie av interesse, 2 ) visning av eksperimentelle betingelser og valg av en p-verdi terskel for betydningen av genekspresjon differensiering, og 3) studie av uttrykk heatmap. Sammenligning av flere arrays kan også startes fra oversiktssiden.

Differensial uttrykk for tjuefire gener identifisert av Rieger og kolleger [24] for å være viktig for stråling respons. I trinn 1 viser et multi-studie heatmap (for studier 4, 6 og 14). I trinn 2 CDKN1A genet profil ble sammenlignet i studier med (Studier 2-5), og uten stråling som stimulans (studie 14 med hypoksi respons).

Validering

Strålebehandling er en kjernekomponent i kreftbehandling. Men stråling respons varierer ofte betydelig mellom ulike pasienter [23]. Derfor er det viktig å identifisere gener som predikerer stråling respons. Like viktig er å validere resultatene av en analyse i uavhengige data med lignende eksperimentell design.

For å illustrere funksjonaliteten stropp, vi brukte en studie av Rieger og kolleger [24] i perifert blod lymfoblastoidceller avledet fra pasienter med akutt stråle toksisitet og kontrollgruppe av pasienter med mild toksisitet. Ved hjelp av genuttrykk profilering, forfatterne rapporterte 24 svært prediktive gener av stråling respons. Vi ønsket å utforske uttrykket av disse 24 genene i flere uavhengige studier fra stroppen database, og fant 18 gener vesentlig endret blant de utvalgte studiene. For å teste om vi kan reprodusere forfatternes funn, må vi først valgte 3-studier, 2 studier (studier 4 og 6) som inneholder lymfoblastoide celler behandlet med ulike doser av stråling, og som en negativ kontroll, valgte vi en studie (studie 14) med stilk celler fra CNS vev med hypoksi stimulans. Et fler studie heatmap (Figur 5, trinn 1) på genet delsett viste en selektiv opp regulering av genet undergruppe i studier 4 og 6, men ikke i studie 14, noe som bekrefter rollen til disse genene som respons på bestråling. Av spesiell, er CDKN1A en DNA-skade reaksjon, cellesyklusregulerende gen rapportert å bli indusert ved stråling [25], [26]. Vi har utforsket sammenlignende profilering av CDKN1A genet i en rekke studier med ulike cellelinjer fra databasen som er behandlet med (Studier 2-5) eller uten stråling som stimulans (Study 14). En sammenlignende gen profilering på tvers av flere studier (Figur 5, trinn 2) viste en signifikant induksjon av genet selektivt i strålebehandlet studier. I tillegg induksjon er funnet å ha noen effekt ved lav dose stråling (0,4 Gy i studie 3) indikerer cellulær respons for stråling er avhengig av dose brukes.

Konklusjoner

Strap er en åpen -Tilgang ressurs utviklet primært for å støtte forskning på effektene av stress med stor vekt på ioniserende stråling på kreft i en systembiologi sammenheng. Foreløpig data fra tjueen studier har blitt integrert og gjort tilgjengelig gjennom omfattende spørringsvalg, og et brukervennlig web-basert grensesnitt. Støttet av statistiske og kvantitative analysemetoder i bakgrunnen, overvinner ressursen grensene for databaser dedikert til rådata leting, noe som gjør det mulig å antyde nontrivial kunnskap (for eksempel forskjellig uttrykte gener i flere studier).

på grunn av begrensning av antall undersøkelser er tilgjengelige, kan det ha begrenset biologisk betydning. Men rammen av databasen er fleksibel og vil tillate utvidelser med data fra andre typer kreft studier som vil hjelpe i nye funn.

Databasen vil bli jevnlig oppdatert med nye studier og funksjoner. Vi planlegger, for eksempel, for å muliggjøre bygging av interaksjons nettverk med litteratur tekst-mining, og informasjon fra Human Protein Referanse Database (HPRD) [27] og gen sett berikelse analyser og visualiseringer.

Legg att eit svar