Abstract
Sample følgefeil har vært og alltid vil være en del av den praktiske gjennomføringen av store eksperimenter. Det har nylig blitt foreslått at uttrykket kvantitativ egenskap loci (eQTLs) og tilhørende effekter kan brukes til å identifisere utvalgs mix-ups og denne tilnærmingen har vært brukt til en rekke store befolknings genomikk studier for å illustrere utbredelsen av problemet. Vi hadde vedtatt en lignende tilnærming, kalt «grevling», i METABRIC prosjektet. METABRIC er en stor brystkreft studie som kan ha vært den første som eQTL basert deteksjon av uoverensstemmelser ble brukt i løpet av studien, i stedet etter hendelsen, for å hjelpe kvalitetssikring. Vi rapporterer her på de spesielle problemstillinger knyttet til store kreftstudier utført ved hjelp av historiske prøver, noe som kompliserer tolkningen av slike tilnærminger. Spesielt identifiserer vi komplikasjoner ved bruk av tumorprøver, for å vurdere cellularity og RNA kvalitet, distinkte undergrupper eksisterende i studiepopulasjonen (inkludert familiestrukturer), og til å velge eQTLs å bruke. Vi presenterer også noen resultater når det gjelder utformingen av forsøkene gitt behandling av disse sakene. Den eQTL basert tilnærming til identifisering prøve følgefeil er sett til å være av verdi for disse studiene, men krever forsiktighet i gjennomføringen
Citation. Lynch AG, Chin SF, Dunning MJ, Caldas C, TAVARÉ S, Curtis C (2012) Calling Sample Mix-Ups i Cancer befolkningsstudier. PLoS ONE 7 (8): e41815. doi: 10,1371 /journal.pone.0041815
Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA
mottatt: 23. mars 2012; Godkjent: 29 juni 2012; Publisert: 09.08.2012
Copyright: © Lynch et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Denne forskningen ble støttet av The University of Cambridge, Cancer Research UK stipend C14303 /A10825, www.cancerresearchuk.org, og Hutchison Whampoa Limited. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
det er en selvinnlysende sannhet at uansett omsorg tatt, hvis en studie blir store eller komplekse nok så feil vil oppstå i prøven sporing. Dette problemet har hatt en høy profil i det siste etter en feil på en personlig genetisk testing tjeneste (https://spittoon.23andme.com/2010/06/08/update-from-23andme/), problemer avdekket ved siste «rettsmedisinske « undersøkelser av genomisk skala studier [1], og den siste utheving av feil i flere høyprofilerte studier [2]. I tillegg til disse store problemer, i hele år av high-throughput studier, slike feil har blitt nominert som den sannsynlige årsaken til avvikende resultater [3], [4]. Naturligvis, for en tid, det har vært samtaler for å ta vare å begrense slike feil [5], og en rekke strategier for å redusere eller oppdage feil blir jevnlig brukt.
Det er vanlig å bruke replikert kontrollprøver på kjente punkter på en tallerken [6], som skal plukke opp noen store feil (selv om disse er i samme posisjoner på hver plate, så vil de ikke markere feil plate som brukes). I tillegg til denne begrensning, kan bekostning av en slik tilnærming gjør den lite attraktiv. Mange uttrykk plattformer tilbyr muligheten til å blande eksterne kontroller med prøven som skal hybridisert, og initiativer som External RNA Controls Consortium (ERCC) [7] kan bare være en fordel i denne forbindelse. Faktisk bruk av slike kontroller har nylig blitt demonstrert for Affymetrix GeneChips [8]. Når genotyping matriser blir brukt (muligens i den hensikt å utlede DNA-kopi-nummer) så har vi en grunnleggende beregning for å identifisere prøver som vil være til nytte hvis flere prøver er hybridisert fra samme individ [9], eller hvis vi har før kunnskap om genotyper [10]
Kjente fenotyper med en såle (eller sterk) genetisk komponent kan også brukes til å kontrollere prøve gyldigheten (eller snarere å søke å oppdage plating feil -. som de er usannsynlig å ha nok strøm for å bekrefte at en prøve er det som den hevder å være). Sex er den åpenbare fenotype i denne forbindelse. Med en forsiktig prøve layout, som er omtalt senere, feil på en plate skala ville bli oppdaget av en sex-sjekk, men enkelte brytere av alle par kan ikke. Klart for enkelte studier, f.eks i prostata kreft, vil dette ikke være et alternativ. Andre egenskaper som blodgruppe kan sammenlignes med de aktuelle genotypene, men for en egenskap med en smal driv locus det er en for stor sjanse for at det vil være en miscalling av genotypen klasse ganske enkelt å utelate prøver basert på denne verdien. Mange slike trekk er derfor nødvendig.
Expression Quantitative Trait Loci (eQTLs) som regulerer transkripsjon overflod av spesielle mRNA kan identifiseres systematisk bruk av high-throughput teknologier [11] og kan gi dette stort antall egenskaper, med omtrent 5% av gener som viser cis-eQTL drevet oppførsel [12]. Mange studier tar sikte på å antyde eQTLs gitt et sett av genotyper, et sett med uttrykk målinger og en mapping mellom de to. Det følger da at gitt genotypene uttrykket målinger og et sett med eQTLs man bør være i stand til å si noe om kartlegging. Kort sagt, gitt et sett med uttrykk arrays og eQTLs, kan man spå som til de genotypene som man kunne forvente å drive uttrykk og deretter søke å identifisere en genotype matrise som har målt de samme verdier.
Evnen å forutsi SNPs fra uttrykket data har nylig blitt betraktet fra en data-sikkerhetskontekst [13], men det er en tilnærming vi har brukt til prospektivt sikre dataintegritet i molekylær taksonomi av brystkreft International Consortium (METABRIC) studie [14], og har søkt til andre kreftstudier. Tilnærmingen vi kalt BADGER ( «Bead Array Diagnostic for Genotype og Expression relasjoner»), og det er beskrevet i metodedelen. Eksempler på to situasjoner (en enkel, en mer kompleks) hvor forvirring over prøven identitet har oppstått i store studier, og blitt løst ved BADGER, er gitt i figur 1 og 2.
Et uttrykk BeadChip (12 arrays), og to plater av prøver for genotyping er illustrert. Spesielt i det venstre panelet, er de tiltenkte plassering av to prøver markert (i blått og rødt) for de to teknologiene. Den BADGER rangerer for sammenhengen mellom disse to uttrykk arrays og genotype arrays er høy, og indikerer at det er en mis-kartlegging. På høyre side oppløsningen til dette eksempel er vist. Ikke bare med en enkel bryter kan vi matche uttrykk arrays til genotypen arrays (nå med BADGER rangerer fra 1), men siden de to genotyping arrays er fra forskjellige plater, mens de to uttrykk arrays er nabo, kan vi utlede at feilen fant sted på uttrykket chip.
En rekke pasienter (referert til av brev) fra hvem prøvene er tatt (midterste rad, samples avbildet som firkanter) blir sett på enkelte punkt. En tid senere, seks av disse pasientene (E, F, G, I, J, L) tilfredsstiller kriteriene for inkludering i en retrospektiv studie, og det er ment å kjøre prøvene fra disse pasientene på uttrykk arrays (sirkler, øverst til venstre ) og genotypen arrays (sirkler, øverst til høyre). Siden pasientene (og dermed prøver) dannet en sekvens, inkluderer vi plassholdere i skildringen av arrays for de prøvene som ikke var egnet for aktuelle studien (merket med stiplede sirkler for matriser og grå skyggelegging for prøvene) . Den BADGER rangerer for uttrykket og genotypen arrays som var ment å være assosiert med disse seks prøvene varierer 949-2473 tyder på at ingen av de seks er riktig kartlagt. Oppløsningen er vanskelig å finne med mindre man vet om den opprinnelige prøven sekvens, herunder prøver som ikke er en del av den retrospektive studien. Når løst (nederste rad) ser man at prøvene går ut genotypen arrays har «glidd» ved en stilling med det resultat at prøvene G og J har blitt kjørt på ekspresjon, men ikke genotyping matriser, mens prøvene H og K (som var ikke ment å ha blitt kjørt i det hele tatt) er kjørt på genotype, men ikke uttrykk arrays. For de fire matriser som har blitt drevet på begge teknologiene, kan vi se at Badger rekkene er nå perfekt. Det er verdt å merke seg at uttrykket arrays som prøver G og J ble kjørt har en høy «minimum BADGER score» som er et tegn på at prøven ikke funksjonen på noen genotyping array i studien.
Vår tilnærming er begrepsmessig lik den nylig publiserte MixupMapper tilnærming til dette problemet [2], men skiller seg gjennomføre på grunn av beskaffenheten av de data som vi anvende den. Det skiller seg også i valg av implementerings miljø, med BADGER utvikles i R [15] og MixupMapper i Java. Spesielt Westra og kolleger framgangsmåte ser for å finne den beste uttrykket match for en genotype matrise, mens vårt har vært å se, i første rekke, for den beste genotype match for et uttrykk matrise. Det er generelt lettere å identifisere dupliserte genotype arrays enn likt uttrykk arrays, og dermed kan vi sikre, hvis vi ønsker det, at vi arbeider med å kartlegge mot et sett med unike arrays.
Begge tilnærmingene er avhengige av å definere en avstand mellom et uttrykk matrise og en genotyping array. Vårt mål (den «BADGER score») er summen (over eQTLs) av den kvadrerte differansen mellom antall «B» alleler kalles fra genotype utvalg og antall spådd fra uttrykket array. MixupMapper, på den annen side bruker en normalisert summen av z-score for differansen mellom predikerte og observerte verdier uttrykk. Som en liten ekstra detalj, anser MixupMapper omfanget av deres poengsum, mens BADGER ser på rangeringen. Naturligvis er en lav poengsum indikerer en kamp. De aller fleste av arrays (ideelt sett alle bortsett fra én) ikke vil være en kamp, så poengsummen for en matrise som gjør kampen bør være utmark og ta en rangering av én.
Som begrepet identifisere plating feil å bruke eQTLs er påvist, vil vi ikke fokusere på å rettferdiggjøre eller demonstrere tilnærming gang (selv om noen få slike resultater presenteres). Snarere skal vi markere utfordringene i å anvende en slik tilnærming til en befolkning kreft genomikk studien, og legg merke til hvor forskjeller i vår ta på tilnærming egner seg til slike data.
Resultater
Mens vår primære hensikt er ikke å vise nok en gang at en eQTL basert tilnærming til å ringe og identifisere feilaktige prøver kan fungere, vi oppmerksom på at våre resultater her ville støtte budskapet om Westra og kolleger [2]. Vi i stedet søker å fremheve noen av faktorene som kan føre til feiltolking av resultatene av en eQTL basert tilnærming for å identifisere uoverensstemmelser når den brukes i store kreftstudier. Spesielt vil vi vurdere effektene av tap-av-heterozygositet (LOH) og avreise fra diploid status som vi forventer å se i tumorprøver, virkningen av cellularity, og konsekvensene av å ha en blanding av etnisiteter i en studie. I tillegg vil vi rapportere hvordan studiedesign påvirker vår evne til å bruke en slik tilnærming.
Ringe Mis-kartlegginger med Tumorprøver
Westra og kolleger [2] oppmerksom på at det er mulig å » identifisere genotyper som tydelig ikke samsvarer med noen genuttrykk arrays «. Med prospektivt innhentet samlinger av normalt vev dette synes å være tilfelle, men med retrospektive studier av svulstvevet, har en rekke ekstra problemer kommer frem i lyset. Mest åpenbare er at disse metodene forvente å se diploide genotype samtaler, og tumorprøver kan være alt annet enn diploid (selv om mange algoritmer vil fortsatt generere diploide genotype anrop fra disse prøvene). Så er spørsmålet om stromal kontaminering av tumorprøver. Dette kan, i prøven fra hvilken DNA ble ekstrahert, ligge på et annet nivå fra det i prøven som RNA ble ekstrahert. Endelig kan det være en mutasjon i den tumor som forstyrrer den biologiske driver eQTLs som våre tester er basert på.
For de 127 prøvene hvor alle fire matriser (SNP /uttrykk for tumor og normalt vev) er tilgjengelig, det beste fra de kampene fra normale og tumorvev vist i figur 3. generelt for både normale og svulst uttrykk arrays, den «normale» genotype utvalg viste seg å være en bedre kamp enn «svulst» genotype array.
for 127 kvartet matchet tumor-og-normal genotype-og-uttrykk arrays illustrerer vi den relative kvaliteten av kampene mellom de fire ulike uttrykks-genotype kombinasjoner. De 127 genotypen array-parene er alt klart godt matchet (ikke vist). Vår tilnærming er å identifisere kvaliteten av en genotype matrise kamp til et uttrykk matrise, og alle resultatene som er gitt er reflektert av denne retning av sammenligningen. For de sett av tumor og normale uttrykk arrays, indikert i pilene er antall uttrykket arrays som de to genotyping arrays er like gode kamper (har samme genotypen samtaler), antall som svulsten genotyping array for at utvalget har en bedre score enn vanlig genotyping array, og vice versa. I tillegg, i hjørnepaneler, Badger rangerer for de kampene blant hele datasettet som vi har tilgang presenteres.
Den bekymringen da er at i situasjoner der vi ikke har behandlet den normale genotype, ville svulsten genotype noen ganger ikke være en god nok kamp til å tillate oss å tildele kampen riktig. Anecdotally, dette ser ut til å skje. En mulig forklaring er at den ikke-diploide (eller diploid men lider av LOH) natur av svulsten genotype forstyrrer kallet av diploide SNPs. Hvis flertallet av SNP /uttrykk relasjoner observerte ikke er direkte årsaks knyttet sammen, da dette ville forklare de relativt dårlige kamp kvaliteter av svulst SNP arrays i forhold til normalt vev SNPs.
cellularity og RNA Quality
Siden normal genotype matrisen er vist å være en bedre kamp enn svulsten genotype array, selv om våre eQTLs ble definert hovedsakelig fra tumorprøver, synes det rimelig å anta at cellularity (forurensning av svulstvev med stromal vev) vil ha liten effekt på ytelsen til tilnærminger som BADGER. Normal forurensning vil øke sjansene for å ringe heterozygote SNPs, selv når svulsten har gjennomgått LOH eller allel-spesifikk DNA kopinummerendringer.
Selv om forstyrret genotyping kaller grunn av kopinummer avvik i svulster kan hindre tilnærminger som BADGER, er fortsatt en nøyaktig beskrivelse av svulsten og vi må forsøke å identifisere prøven og matche den til et uttrykk array. Som tidligere nevnt, kan en dårlig kvalitet uttrykk utvalg også forstyrre prosessen [2], men kvaliteten på en matrise er estimable og kan kompenseres for, eller matrisen kan rett og slett bli forkastet (minst når definere eQTL relasjoner) .
Figur 4 viser sammenhengen mellom to mål rekke kvalitet (se Methods) og minimum BADGER poengsum assosiert med en rekke (en indikator på om en matchende SNP matrise kan bli funnet). Begge statistikkene er gode prediktorer for utførelsen av en matrise, med statistikk gjør det bedre enn P95. Klart i det minste en av de matriser planlagt å være tom faktisk hadde en prøve hybridisert til den, og et tall som hadde prøver som er tillagt dem ikke klarte å hybridisere. Legg merke til at når det ikke er noe signal på en matrise, er graden forskjellen ikke er null som man kunne forvente, men det er i det vesentlige negativ.
For å illustrere et bredt spekter av array-egenskaper, omfatter denne figur noen dårlig kvalitet arrays som (for denne svært grunn) ble ekskludert fra METABRIC. Venstre panel: Illustrerer sammenhengen mellom 95-persentilen av observerte log-intensiteter (P95) og minimum BADGER poengsum assosiert med matrisen. Høyre panel: sammenhengen mellom og minimum BADGER poengsum. Også indikert, i begge tilfeller, er de arrays der ingen prøven ble planlagt å bli hybridisert.
Etnisiteter
Ved hjelp av prinsipal komponent belastninger publisert for skalldyr verktøy (www.stats.ox .ac.uk /~ Davison /software /skalldyr /shellfish.php), kan man projisere Affymetrix SNP data på en trekant der de tre hjørnene representerer HapMap populasjoner som belastninger ble avledet. For enkelhets skyld vil vi kalle gruppene av prøvene som dannes i disse hjørnene på «Europe gruppen «, den» Africa gruppe «, og» Asia konsernets. Vi har også observert personer som ligger mellom Afrika og Europa grupper (som vi skal kombinere i «Afrika /Europa konsernet) og mellom Europa og Asia grupper (som vi skal kombinere i» Europa /Asia konsernet).
Vi plotte gjennomsnittlig BADGER poengsum (NB scorer ikke rangere) knyttet til hver genotype op mot gruppen i panelet til venstre i figur 5. Vi ser at gjennomsnittsskår er lavere i Europa-gruppen. Dette er å forvente, ettersom Europa gruppen bidrar de aller fleste ekspresjonsvektorer arrayene i vår kolleksjon og man ville ikke bli overrasket over at disse kan forutsi genotyper som er mer lik de som ble oppnådd fra andre prøver i Europa-gruppen. Også, å være i flertall, Europe Gruppen pasienter de drive eQTL-lignende foreninger som brukes av BADGER og disse foreningene kan variere mellom gruppene.
Hver genotyping utvalg er i forhold til alle uttrykk array, og en score tildelt kampen (jo lavere poengsum jo bedre match). I panelet til venstre, er den gjennomsnittlige poengsum av genotype rekke i forhold til etnisitet av pasienten som utledes fra genotyping array. I panelet til høyre på minimum score assosiert med en genotyping array (en bedre indikator på om en kamp finnes) er plottet av etnisitet.
Viktigere enn gjennomsnittlige poengsum er minimum score det, for noen genotyping array med en samsvarende uttrykk utvalg i datasettet, kan vi forvente å være sammenlignbare uavhengig av etnisitet. I panelet til høyre i figur 5 ser vi at dette ikke er tilfelle, og at mens de fleste grupper er faktisk sammenlignbare, utstillinger Afrika gruppen minimum score som er høyere. Vi har ingen
a priori
grunn til å tro at denne gruppen vil være overrepresentert i antall genotyping arrays som ingen samsvarende uttrykk matrise eksisterer. For en relativt høy andel av denne gruppen kan vi ikke være sikker på om kampen mellom genotype og uttrykk, men dette er mer sannsynlig å være en konsekvens av høyere score sett i Afrika gruppen enn en årsak til det.
Vi kan ikke kreve, for noen eQTL par vi bruker, at genotypen vi observerer er faktisk kjører uttrykket (se neste avsnitt). I beste fall er det sannsynlig å være en merking SNP for årsaks variant (hvis det finnes), og resultatene av tagging SNP vil variere mellom etniske grupper. Det har blitt observert at bare 50% av eQTLs er sett i mer enn en befolkning, og en meget liten minoritet i flere [16], [17]. Dermed bør det ikke overraske oss å se atferd som den som er vist i figur 6, hvor sammenhengen mellom genotype og uttrykk som er så tydelig i Europa og Asia grupper er ikke tydelig i Afrika-gruppen. Siden denne gruppen er i mindretall, vil den anslåtte genotypene som genereres for disse personene fra en forening definert av Europa og Asia grupper være dårlig på sitt beste.
Avbildet er log-intensitetsverdiene for Illumina ILMN_1710752 sonde i den NAPRT1 genet plottet mot genotypen samtaler for rs10112966 SNP fra Affymetrix SNP_A-4292499 probe (alle i 8q24.3 regionen i det menneskelige genom). Naturligvis bare data fra disse genotyping og uttrykk matriser som kan matches vises. Foreningen er vist i tre grupper. Sammenhengen mellom denne SNP og genet har tidligere blitt bemerket [26], som har ulike allelfrekvenser mellom grupper.
Nære slektninger og validering
For å illustrere ytterligere aspekter vi vurdere en tilleggs datasett: genotypen og uttrykk data knyttet til HapMap (fase i) prøver [18], som opprinnelig studert av Stranger
et al
. [16], og brukt som en av de illustrerende datasett i MixupMapper artikkel [2]. Selv ikke en kreft studien, gir dette oss først for å bekrefte at BADGER kan identifisere problemer som MixupMapper identifiserte, andre gjør det oss til å undersøke et datasett med kjente familiestrukturer, og tredje det gir et illustrerende studie med større balanse av etnisitet, balanse sex, og antatt bedre kvalitet på data siden dette var en prospektiv studie. Til slutt gir den et mer nyttige datasett for å investere «makt» av disse teknikkene. Se Sweave S1 for alle detaljer.
MixupMapper identifisert bare en mix-up i dette datasettet, finne at det beste uttrykket match for genotypen data visstnok fra prøven NA18515 var som visstnok fra prøve NA18517.
i CEU befolkningen, det er et problem med en av de uttrykk arrays assosiert med «NA10856» (merket GSM232786_NA10856_2_2). Men det er klart at de andre tre ekspresjonsvektorer matriser som passer godt, og med noen undersøkelser, er det klart at verdiene for denne matrisen er identiske med en av de Yoruban arrays (merket GSM232802_NA18503_1_1), men at verdiene varierer i GEO, noe som gjør det uklart hvor problemet oppsto. Vi kan spekulere at siden MixupMapper ville ha funnet en god match for NA10856 genotype array, at det ikke ville ha merket dette som problematisk.
Med BADGER, finner vi også at de fire uttrykk prøvene forbundet med NA18515 alle tilby genotype matrisen tilordnet NA18853 som den beste kampen. Det er sant at uttrykket arrays assosiert med NA18517 er de beste kamper for SNP matrisen tilordnet NA18515, men dette er fordi NA18517 er en forelder av NA18515. Uttrykket arrays assosiert med NA18516 (den andre forelderen) er den nest beste kamp. I fravær av et uttrykk array for barnet, ville vi forvente den beste kampen for å være en av foreldrene. Faktisk kan vi lett se fra genotyper av mor /far /barn trio at feilen (hvis det er en feil) skal være i uttrykket array.
genotype array som tilbyr det beste kamp til alle de NA18515-assosierte uttrykk matriser er den som er forbundet med NA18853. Kampen er marginalt dårligere enn for uttrykket spekter tilknyttet NA18853, men merkbart bedre enn at forbundet med NA18854 (barn av NA18853). Sammenligning av hele uttrykket profilen antyder at NA18515 uttrykk arrays er ikke bare tilfeldige replikater av NA18853. Dermed mix-up er vanskelig å løse fra en slik distanse, og vi vil anbefale å fjerne uttrykket arrays assosiert med NA18515 fra analysene, men ville forlate genotypen arrays som de er. Legg merke til at vi bruker uttrykket matrise gitt av Westra
et al
. så kan ikke gjøre noen påstander om den opprinnelige studien [16].
Mens kampen til en nær slektning har en tendens til ikke å være like god som den til riktig prøven, ser vi nok overlapping i verdiene at hvis en av prøvene manglet da vi ville være i fare for feilaktig å knytte de to som er fra samme individ. Dette vil antagelig være mer av en fare hvis genotype rekke manglet som eksistensen av slektninger vil bli vanskeligere å utlede fra uttrykket data.
Tar Han-kinesere og japanske individer, da disse ikke inneholder kompliserende familie grupper, kan vi simulere prøve brytere og bekrefter nytten av BADGER. Vi finner at halvparten av prøvene har skal slås til å kreve mer enn en produktiv iterasjon (siste iterasjon er alltid å få bekreftet at det ikke er flere brytere for å gjøre), og to tredjedeler må være slått for at det skal begynne å være uløst brytere. Dette kan være en over-estimering av ytelse, siden vår «ytre» eQTL apparatet var i virkeligheten defineres av Westra et al. fra disse dataene, men konkurrerer mot dette er mangel på finesse i de korreksjoner som i praksis gis av den menneskelige vurdering av potensielle brytere og lab-validering mellom gjentakelser. Vurderingen her var forenklede og automatisert for simulering studien. Selv tillater for disse punktene, er det faktum at 80 av de 90 prøvene må være sinnsforvirret før en tilnærming som BADGER klarer å tilføre verdi er bemerkelsesverdig.
Valg av eQTLs
Definere eQTLs fra datasettet kan derfor potensielt påvirke på noen genetisk distinkt minoritetsgruppe i en studie. Westra og kolleger [2] nevne noen av de potensielle fordelene ved å bruke eksternt definerte eQTLs. Det ville sikkert være fordeler ved å gjøre det om vi kunne sikre at alle undergrupper var representert. Det er kjent at ytelsen til uttrykk prober kan påvirkes av SNPs [19] som tilfeldigvis være dekket av en spesiell sonde, og at dette fenomenet kan etterligne eQTL atferd ( «cis-eQTL gjenstander» [20], [21]). Vi har vist spesielt at dette er et problem for de lengre sonder av Illumina BeadArrays [22].
Mange eQTL studier skille ut slike uttrykk sonder for å unngå falske foreninger [23]. Vi vil foreslå at disse «cis-eQTL gjenstander «ikke bare bistå i prosessen som nevnt av Westra
et al
., Men kan gi et robust grunnlag for å korrigere feil. Ved å utnytte en teknisk artefakt på denne måten, ville vi håper å være mindre følsom for ekte biologiske forskjeller mellom grupper av pasienter enn vi ville vært hvis stole på ensartethet av ekte eQTL atferd over populasjoner.
Vi valgte utgangspunktet et sett av 383 eQTLs på grunnlag av styrken av krets sett i våre data. Betydningen av foreningen er like mye et mål på fordelingen av genotyper som det er diskriminerende effekt av uttrykket-SNP forening, men dette er et første pass og settet er raffinert som en del av BADGER tilnærming som beskrevet i Methods . Naturligvis noen av disse eQTLs er «cis-eQTL gjenstander «. Faktisk er dette første sett av uttrykk prober som allerede er anriket for prober som dekker SNP’er med 184 ut av 383 (48%) som faller inn i denne kategori i motsetning til 11 027 ut av 34 361 (32%) av pålitelige sonder på matrisen. Fullstendige opplysninger om SNP dekning for Illumina uttrykk arrays er gitt i tabell 1. I likhet informasjon er tilgjengelig for Affymetrix arrays [24].
Når det sett av uttrykk-SNP foreninger er redusert til 125 probe-par er det ytterligere beriket for SNP-dekker sonder. Kun 26% av de 199 sonder som ikke dekker SNPs overleve i den raffinerte settet, mens dette øker til 33% for de 119 sonder som dekker en SNP, 47% for de 38 sonder som dekker to SNPs og 59% for de 27 prober som dekker mer enn to SNPs.
for å forsterke dette punktet, blant våre sett, er det en trend at flere SNPs uttrykket sonde dekker, jo mindre avvik mellom predikerte og observerte verdier av SNP-sonde i eQTL foreningen. Dette er vist for Europa og Afrika gruppene i Figur 7. Våre eQTLs er forutinntatt mot Europa gruppen som inneholder de fleste av våre prøver og så observerte foreninger er sterkere for denne gruppen. Til tross for foreninger i Afrika gruppe er generelt svakere, sondene som dekker flere SNPs fortsatt forklare en nyttig del av variasjonen av log-uttrykk og hvis valgt på en saklig måte (f.eks utelukkende basert på merknad) de kan gi et sett med sonder som . vil være pålitelig på tvers av de ulike befolkningsgruppene
Plotting for settet av 383 eQTLs den gjennomsnittlige kvadrerte residualene (spådd – observert B-allelet teller) mot antall SNPs som ligger «under» uttrykket sonde i henhold til merknaden. I gjennomsnitt, spådommer er nærmere observasjoner for sonder som ligger over flere SNPs.
Design av eksperimenter
Plate Layout for Sex-basert diagnostikk
Av velge distinkte men ulike mønstre, etter kjønn, for eksempelutforming på en plate, og at mønstrene ikke har rotasjonssymmetri, vil plotting av de utledede kjønn med prøver av platen gir en klar og definitiv diagnostisk om hvorvidt det riktige plate har blitt brukt, og om i riktig retning. Individuell, enkel, brytere i nabo prøver (i kolonne eller rad) kan ikke bli plukket opp, men vi kan maksimere sjansene for å gjøre det ved å velge mønstre i henhold til våre begrensninger som minimerer antall nabopar (i kolonner eller rader) av samme kjønn.
Hvis antallet kjønnene er like i en studie, minimerer en brikke-bord mønster antallet nabo par av samme kjønn, men har rotasjonssymmetri. Små perturbasjoner fra brikken-bord mønster vil bli utsatt for forvirring (enten for seg selv via en rotasjon og lite antall brytere), eller til en annen (via litt flere brytere). Det virker sannsynlig at et regelmessig mønster vil være å foretrekke for lettere å sette opp platen, og hvis bare et lite antall plater er nødvendig så kan dette være mulig. Merke seg om at for å unngå rotasjons symmetrier, og utvisket plater, antall enkle brytere på en plate som opphøre å være påvisbar (dvs. antall par av nabo prøver av samme kjønn) øker raskt (vist i figur 8) .
Illustrated er tre ulike mønstre av sex (angitt med farge) der prøvene kunne lagt ut. Det er 172 forskjellige sett med nabopar (ignorer diagonaler) at man kan identifisere i en 8 × 12 plate, og så 172 muligheter for en enkel bryter av nabo prøver. For den enkleste tilnærmingen illustrert, 36 av disse (tre i hver kolonne) er av samme kjønn, og slik at vi ikke ville være i stand til å bruke sex som en identifikator å få øye på veksling av disse prøvene. Den inverse av denne utforming vil være identisk i henhold rotasjon til den viste utforming, og slik at det ikke kan være ønskelig å benytte begge. Dermed raskt ser vi behovet for mer kompliserte design som andre illustrert her. Flere permutasjoner av de fire grunnleggende kolonnene vil gi aksepterbare (og kan skjelnes fra hverandre) motiver med en viss liten virkning på antallet av prøvebrytere identifiserbare ved design. Den tredje utforming viser hvordan en mulig tiltalende layout, fra det synspunkt av enkelhets skyld, har dårlig evne til å detektere enkle brytere av prøver – knapt gjør bedre enn en tilfeldig oppsett.