Integracija se isplati!


Primer otkrivanja funkcionalno koherentnih grupa gena kvasca integrativnom metodom

Šta je zajedničko za hleb, pivo i vino? Svi se prave zahvaljujući magičnom sastojku – Saccharomices cerevisiae, opštepoznatom kao kvasac. Ali za genetičare kvasac je mnogo više od toga. Kao fleksibilan, bezbedan, a brzo rastući organizam, on je pravi laboratorijski superheroj. Eksperimenti na ovom model organizmu pomažu u otkrivanju funkcija gena, odgovaraju na osnovna biološka pitanja i pomažu u rasvetljavanju bioloških procesa kod složenijih eukariota.

 

Zahvaljujući razvoju molekularne biologije i tehnika za akviziciju podataka na nivou gena sada raspolažemo ogromnim količinama podataka na osnovu kojih treba profilisati gene i dalje raditi na predikciji i određivanju njihovih funkcija. Skupovi podataka mogu poticati iz različitih izvora i otvoreno je pitanje kako objediniti sve informacije u zajednički prediktivni model. Klasterovanje predstavlja najčešće korišćenu tehniku za identifikaciju grupa gena sličnih profila. Funkcije gena za koje još ne postoji dovoljno informacija mogu se predvideti na osnovu funkcija drugih gena u grupi. Princip „s kim si takav si“ zasniva se na pretpostavci da su klasteri gena funkcionalno povezani, odnosno, da se grupišu geni sa sličnim funkcijama, čineći klaster koherentnim u funkcionalnom smislu.

 

Raznovrsni genomski podaci o kvascu predstavljaju neiscrpno polje za istraživanje novih bioinformatičkih metoda. U bioinformatici, integrativni pristupi su motivisani željom za povećanjem robustnosti, stabilnosti i preciznosti. S druge strane, klasterovanje je pouzdanije ako se rezultati dobijeni na osnovu različitih modela slažu. Imajući ovo u vidu, istraživači Instituta BioSens predložili su tehniku koja formira klastere gena na osnovu svakog od dostupnih izvora podataka pojedinačno, a zatim ih spaja korišćenjem nenegativne matrične faktorizacije.

 

Naše istraživanje obuhvatilo je širok skup različitih izvora podataka: ekspresije gena merene u različitim trenucima tokom metaboličkog ciklusa, ekspresije gena iz Saccharomyces baze podataka i fenotipe duplih mutanata dobijene sintetičkim genetskim nizovima. Pokazali smo da se našim postupkom mogu uspešno integrisati heterogeni skupovi podataka i formirati kvalitetni klasteri, kakve ne bi bilo moguće dobiti jednostavnim spajanjem podataka pre grupisanja gena. Za kvalitet formiranih klastera zaslužna je upravo integracija podataka jer različiti izvori podataka mogu da obezbede različite, ali komplementarne uvide u posmatrani sistem. Integrativni pristup zasnovan na nenegativnoj matričnoj faktorizaciji je robustan, u stanju je da otkrije grupe gena sa velikom funkcionalnom koherentnošću i u poređenju sa alternativnim postupcima integracije daje bolje rezultate.

Metod integracije objedinjuje grupisanja gena koja proizilaze iz različitih izvora podataka ili su dobijena na osnovu različitih tehnika predobrade ili grupisanja. Integrativni pristup se odvija u sledećim koracima: nakon predobrade genomskih podataka, procenjuje se sličnost između gena na osnovu izabrane mere sličnosti, kreira se mreža gena, a zatim se rezultati grupišu i integrišu u jedinstvenu matricu gena i klastera. Konačni klasteri izdvajaju se na osnovu nenegativne matrične faktorizacije.