Genuttrykksprofilering

Genuttrykksprofilering går ut på at man måler aktiviteten (genuttrykket) til tusenvis av gener på en gang, slik at man får et globalt bilde av cellens funksjon eller tilstand. For eksempel kan man ved å gjøre mikromatriseforsøk med celler fra forskjellige vev, se om der er gener som kun er slått på i bestemte vev, eventuelt se om de har et høyere eller lavere uttrykk. Det samme kan gjelde for enkelte sykdommer hvor et bestemt uttrykksmønster kan fungere som en slags signatur for sykdommen. Mikromatriseforsøk som måler genuttrykk sies derfor å gjøre profilering av genuttrykk, eller genuttrykksprofilering.

Varmekart (*heatmap*) kan brukes til å vise resultater fra analyse av genuttrykksdata. Figuren representerer et fargekart hvor for eksempel rød farge betyr at et gen er oppregulert og grønn farge betyr nedregulering, samt to uavhengige hierarkiske kløstringer, en for gruppering av prøvene (dendrogram på toppen av figuren) og en for gruppering av genene (dendrogram på høyre side av figuren). Resultatet er en figur hvor prøver og gener som ligner hverandre sammen danner fargemønstre som kan fremheve interessante gener.

DNA mikromatriser måler aktiviteten til kjente gener. Sekvensbaserte teknikker, som Serial analysis of gene expression (SAGE) eller SuperSAGE^[1], brukes også til genuttrykksprofilering. SuperSAGE er spesielt nøyaktig og kan måle aktiviteten til et hvilket som helst aktivt gen, også ukjente gener. Anvendelsen av høygjennomstrømnings sekvensering (eng: high throughput sequencing) har gjort sekvensbasert uttrykksanalyse til et "digitalt" alternativ til mikromatriser.

Bakgrunn

Profilering av genuttrykket er det neste naturlige steget etter sekvensering av et genom: Sekvenseringen inneholder koden for hva en celle potensielt sett kan gjøre, mens uttrykksprofilene viser hva cellen gjør under gitte omstendigheter. Genene inneholder informasjonen som trengs for å lage alle de forskjellige typene messenger RNA (mRNA), men i realiteten er mange av genen inaktive ved et gitt tidspunkt. Dersom et gen brukes til å produsere mRNA sier man at genet er "på", ellers er det "av". Det er mange faktorer som er med å på å avgjøre om et gen er på eller av, evt har et høyere eller lavere uttrykk, som tid på døgnet, celledeling og kjemiske signaler fra andre celler. Hudceller, leverceller og nerveceller skrur på forskjellige gener, noe som er en viktig grunn til at de er forskjellige.

I mange forsøk som involverer profilering av genuttrykk måles genuttrykket under to eller flere eksperimentelle tilstander, og man ønsker å identifisere de genene som er endret mellom tilstandene. Grunnen til dette er at, en endring i mengden mRNA kan være en indikasjon på at cellen trenger mer eller mindre av proteinene som et bestemt mRNA koder for. For eksempel så kan høyere nivå av mRNA som koder for alkohol dehydrogenase tyde på at en celle eller vev svarer på økt nivå av etanol i miljøet deres. På samme måte kan det tenkes at en bestemt membranreseptor kan være involvert i brystkreft dersom en brystkreftcelle uttrykker høyere nivå enn en normalcelle av mRNA molekylet som koder for reseptoren. Medisiner som virker på denne reseptoren vil dermed kunne ha mulighet til å hindre eller behandle brystkreft. Profilering av genuttrykk vil muligens kunne bli viktig for diagnostisk testing.^[2]^[3]

Genomikk versus proteomikk

Det humane genomet inneholder mellom 25 og 30 000 gener. Tilsammen er disse genene opphav til en størrelsesorden av 1 000 000 proteiner. Grunnen til det store spriket i disse tallene er at proteinene gjennomgår viktige endringer etter at de er laget, noe som resulterer i at de får endret funksjon. Kunnskap om nøyaktig hvilke proteiner cellen lager (proteomikk) er derfor langt mer relevant enn å vite hvor mye mRNA som produseres fra et bestemt gen, men siden man kun greier å identifisere rundt 2 000 proteiner,^[4] eller rundt 0,2 % av totalen, i et enkelt massespektrometriforsøk, så gir genuttrykksprofilering fortsatt det beste globale bildet i et enkelt forsøk.

Hypotesegenerering og testing

Noen ganger har man en hypotese som man ønsker å teste ved hjelp av et genuttrykksstudie. Studien vil så kunne vise om hypotesen var riktig eller gal. Men ofte har man ingen klar hypotese før man gjør genuttrykksstudier, gjerne på grunn av at der ikke finnes nok informasjon om hvilke gener som er involvert eller hvordan de påvirker hverandre. Det er derfor ofte vanskelig å finne en hypotese som kan testes. I stedet kan genuttrykksprofilering bidra til å identifisere hypoteser som kan testes i fremtidige studier. Denne formen for analyse kalles "klasseoppdaging". En måte å gjøre klasseoppdaging på er å gruppere lignende gener eller prøver ved å bruke grupperingsmetoder som K-means eller hierarkisk kløstring. En annen form for klasseoppdaging er å list alle gener hvis uttrykk har endret seg mellom to tilstander. Dette kalles differensielt uttrykk.

Begrensninger

De virkelig interessante endringene skjer ofte på proteinnivå, men siden det er vanskeligere å måle disse endringene på et globalt nivå, brukes genuttrykksprofilering som en erstatning. Genuttrykksprofilering gir et bilde på hva som kan skje, men det er ikke alltid korrelasjon mellom endringene i genuttrykket og endringene på proteinnivå. Det vil derfor være nødvendig å gjøre oppfølgingsstudier på proteinnivå for utvalgte proteiner for å vise om endringen også skjer der. Siden cellen også har andre mekanismer enn endring av mRNA nivå for regulering av mengde protein så kan genuttrykket forbli uendret selv om proteinnivået endres.

Gjentakelse av det samme forsøke fra mange biologiske kilder, ofte kalt biologiske replikater, er viktig både for at de statistiske metodene skal fungere, men også for at resultatet skal ha en mer generell gyldighet. Budsjettrammer kan være en begrensning i mikromatrisestudier. Begrensede midler fører ofte til at antall replikate forsøk reduseres. Dette skaper problemer for den statistiske styrken i forsøket, noe som gjør det vanskelig å oppdage små endringer i genuttrykket.

Sist, men ikke minst kreves det mye arbeid for å tolke den biologiske meningen av de observerte endringene. Bruk av statistiske tester som inkluderer informasjon om genbeskrivelser fra KEGG og Genontologi har bidratt til at det er blitt enklere å oppdage grupper av gener som er endret. Utfordringene her er fremdeles store ettersom kvaliteten av denne analysen ikke kan bli bedre enn kvaliteten på genbeskrivelsene som brukes.

Ofte taes bare utvalgte gener med i en publikasjon. De utvalgte genene er ofte de som havner på topp etter en statistisk test som rangerer genene. Dette gjør det vanskelig å sammenligne lignende forsøk gjort i forskjellige laboratorier, ettersom de kanskje ikke får nøyaktig de samme genene på topp. Krav fra forskningsmiljøer og tidsskrifter om at mikromatrisedata må gjøres tilgjengelig i offentlig tilgjengelige databaser har gjort at det er mulig å gå tilbake til rådata fra andre studier for å sammenligne med eget arbeid.

Validering

Genuttrykksendringer funnet ved hjelp av mikromatriser blir ofte sjekket (validert) ved hjelp av qPCR. Dette er en teknikk som bygger på de samme prisippene som DNA mikromatriser. Det forventes derfor at disse teknikkene gir lignende resultater, selv om de ikke alltid korrelerer.^[5] Siden endringer i genuttrykk ikke alltid korrelerer med endring i proteinnivå^[6], vil validering på proteinnivå, feks ved bruk av western blot, gi svar på om endringen også kan sees på proteinnivå.

Statistisk analyse

En mikromatrise gir et øyeblikksbilde av genuttrykket ved et bestemt tidspunkt. Cellen er dynamisk, så genuttrykket endrer seg hele tiden. Det er derfor i mange tilfeller svært interessant å se på utvikling over tid. Tidsserier krever mye både i form av eksperimentelt design, analyse og ikke minst penger. Mange velger derfor å bare sjekke virkningen av en bestemt behandling ved et gitt tidspunkt og man ønsker å identifiere gener som viser endret uttrykk ved dette tidspunktet. Tidligere var det vanlig å si at et gen hadde endret uttrykk dersom den gjennomsnittlige endringen blant replikater tilsvarte en dobling eller halvering av genuttrykk. Der er flere problemer med å analysere data ut ifra dette enkle kriteriet: Siden mange mikromatrisestudier ofte har fem eller færre replikater i hvert tilstand som testes, så vil en enkelt prøve som avviker fra resten kunne dra opp eller ned gjennomsnittet for gruppen nok til at flere gener kan se ut som om de har endret uttrykk. I tillegg så vil det å velge en tilfeldig grense som dobling av genuttrykket utelate mange gener som kanskje helt klart er endret, men som kanskje har en mindre endring. I stedet for å basere seg på en bestemt tallverdi for endring er det derfor vanlig å bruke statistiske tester som beregner en p-verdi på bakgrunn av variansen blant replikatene, i tillegg til den gjennomsnittlige endringen mellom to tilstander. P-verdien er et mål på sannsynligheten for at den observerte endringen er en tilfeldig observasjon, med andre ord så er p-verdien et mål på hvor troverdig eller signifikant resultatet er. En p-verdi på 0,05 er generelt sett i statistikken ansett å være en gyldig grense. Dette betyr i realiteten at der er 5 % sjanse for at funnet er tilfeldig. Men heller ikke p-verdier er helt rett frem å bruke for mikromatrisedata. Grunnen til dette er at p-verdien gir sannsynligheten for at observasjonen er tilfeldig, gitt at man bare har testet dette ene genet. I mikromatriseforsøk testes ikke bare et enkelt gen, men mange gener med krav om å finne genene med lavest p-verdi. Dersom 10000 gener er med i forsøket og 0,05 blir satt som grense for troverdige resultater, så betyr det av de 10000 genene som blir testet så forventes 10000 gener * 0,05 = 500 gener å bli funnet differensielt uttrykte ved en tilfeldighet. En opplagt løsning er å bruke en strengere p-verdigrense. En annen løsning er å korrigere p-verdien for multippel testing. Bonferroni korrigering eller beregning av feilrate er vanlige måter å korrigere p-verdien på, som tar hensyn til antall tester som er gjort.

Der finnes mange forskjellige metoder for å rangere differensielt uttrykte gener på, og de fleste av disse oppgir enten en p-verdi eller en feilrate, sammen med gjennomsnittlig endring mellom tilstander. Vanlige metoder inkluderer modifiserte t-tester som Significance Analysis of Microarrays (SAM)^[7], empiriske Bayes metoder og Rank product.^[8] Andre metoder inkluderer bootstrapping (statistikk), maskinlæring og Monte Carlo-metoder.

Forskjellige metoder gir ofte forskjellige resultater, ettersom de er basert på forskjellige antagelser. Etterhvert som det er blitt vanligere å inkludere flere replikater i forsøkene er spriket mellom resultatene fra metodene blitt mindre.

Genannotasjon

En liste med differensielt uttrykte gener gir ikke så mye mening i seg selv, og for å kunne tolke listen er det viktig å vite hvilke proteiner genene koder for, og hva funksjonen til disse proteinene er. Genannotasjon er ment å skulle hjelpe med dette, men der er fortsatt store utfordringer. Funksjonen til mange proteiner er bare delvis kjent og for andre proteiner kjenner man ikke funksjonen i det hele tatt. Dette fører til at mye av genannotasjonen er mangelfull. Databasene oppdateres hele tiden etterhvert som ny kunnskap blir kjent, så den samme genlisten kan muligens tolkes forskjellig et år etter at den første tolkningen ble gjort. Et annet problem er at forskjellige databaser bruker forskjellige navn for å referere til det samme proteinet. Standardisering av gennavn hjelper til med å adressere dette problemet.

Et annet problem når det gjelder genannotasjon er at når man annoterer et nytt genom, så gjøres det ofte blastsøk mot andre organismer for å se om et bestemt gen allerede er annotert der. Dette kan potensielt gi misvisende annotasjon ettersom det samme genet i to organismer kan ha forskjellige funksjoner.

Se også

Referanser

^ Matsumura H, Ito A, Saitoh H, Winter P, Kahl G, Reuter M, Krüger DH, Terauchi R. (2005). «SuperSAGE». Cell Microbiol. 7 (1): 11–8. PMID 15617519. doi:10.1104/pp.103.034496. Arkivert fra originalen 18. januar 2013.
^ Magic Z, Radulovic S, Brankovic-Magic M (2007). «cDNA microarrays: identification of gene signatures and their application in clinical practice». J BUON. 12 Suppl 1: S39–44. PMID 17935276.
^ Cheung AN (2007). «Molecular targets in gynaecological cancers». Pathology. 39 (1): 26–45. PMID 17365821. doi:10.1080/00313020601153273.
^ Mirza SP, Olivier M (2007). «Methods and approaches for the comprehensive characterization and quantification of cellular proteomes using mass spectrometry». Physiol Genomics. 33: 3. PMID 18162499. doi:10.1152/physiolgenomics.00292.2007.
^ Morey JS., Ryan JC. and Dolah FMV. (2006). «Microarray validation: factors influencing correlation between oligonucleotide microarrays and real-time PCR». Biol. Proced. Online. 8: 175-193.
^ Greenbaum D., Colangelo C., Williams K. and Gerstein M. (2003). «Comparing protein abundance and mRNA expression levels on a genomic scale». Genome Biology. 4.
^ «Significance Analysis of Microarrays». Arkivert fra originalen 20. januar 2008. Besøkt 27. desember 2007.
^ Breitling, R., Armengaud, P., Amtmann, A., and Herzyk, P. (2004). «Rank Products: A simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments». FEBS Letters. 573: 83-92.

Eksterne lenker

Bioconductor Et programvareprosjekt med åpen kildekode som har som mål å bidra med verktøy for å analysere genomiske data. Bioconductor byggerhovedsakelig på R, men inneholder også kode fra andre språk.
J-Express Et brukervennlig verktøy for å analysere mikromatrisedata
Genetools En samling vevsbaserte metoder for annotering gener og for å utføre analyse basert på genontologi
Gene Ontology Prosjekt for å beskrive gener på bakgrunn av biologisk prosess, molekylær funksjon og cellulær lokasjon.

Autoritetsdata

[Matsumura-1] Matsumura H, Ito A, Saitoh H, Winter P, Kahl G, Reuter M, Krüger DH, Terauchi R. (2005). «SuperSAGE». Cell Microbiol. 7 (1): 11–8. PMID 15617519. doi:10.1104/pp.103.034496. Arkivert fra originalen 18. januar 2013.

[2] Magic Z, Radulovic S, Brankovic-Magic M (2007). «cDNA microarrays: identification of gene signatures and their application in clinical practice». J BUON. 12 Suppl 1: S39–44. PMID 17935276.

[pmid17365821-3] Cheung AN (2007). «Molecular targets in gynaecological cancers». Pathology. 39 (1): 26–45. PMID 17365821. doi:10.1080/00313020601153273.

[4] Mirza SP, Olivier M (2007). «Methods and approaches for the comprehensive characterization and quantification of cellular proteomes using mass spectrometry». Physiol Genomics. 33: 3. PMID 18162499. doi:10.1152/physiolgenomics.00292.2007.

[5] Morey JS., Ryan JC. and Dolah FMV. (2006). «Microarray validation: factors influencing correlation between oligonucleotide microarrays and real-time PCR». Biol. Proced. Online. 8: 175-193.

[6] Greenbaum D., Colangelo C., Williams K. and Gerstein M. (2003). «Comparing protein abundance and mRNA expression levels on a genomic scale». Genome Biology. 4.

[7] «Significance Analysis of Microarrays». Arkivert fra originalen 20. januar 2008. Besøkt 27. desember 2007.

[8] Breitling, R., Armengaud, P., Amtmann, A., and Herzyk, P. (2004). «Rank Products: A simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments». FEBS Letters. 573: 83-92.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]