Genetika, genomika ta beste

Bakterioen sekuentziak identifikatzen

Orain dela bi aste BMC Bioinformatics Bartzelona aldean egon nintzenean egindako lan bat argitaratu zuen eta lan horretan egindakoa kontatuko dizuet.
 
Intrahistoriarekin hasiko naiz. Bartzelonara joan nintzenean Institut de Biologia Evolutiva (CSIC-UPF)-n ibili nintzen #kafekurasan gora bakterioak behera. Lan-taldeak larruazalean egon daitezkeen bakterioak identifikatzea zuen helburu, baina bakterioak aztertzea nahiko korapilatsua izan daiteke ingurune jakin batean dauden bakterio guztiak ezagutu nahi badituzu. Orduan egiten dena zera da: laginean egon daitekeen DNA guztia hartu (beno, ostalariarena kenduta, noski, bakterioen DNA interesatzen zaigu, ez larruazalaren jabearena), sekuentziatu (ATCG segida hori zein den irakurri) eta gero ezagunak diren DNA sekuentziekin konparatu zein bakterio presente dauden jakiteko. Hurbilketa honi metagenomika bezala ezagutzen da, genoma asko aldi berean aztertzen baitira.
 
Sinplea dirudien prozedura honek puntu askotan arazoak edo zailtasunak izan ditzazke. Biologo konpoutazionala naizenez imagina dezakezue zein puntutan hartu nuen esku eta, batzutan, nire burua mediterraneora bota nahi nuen. Bai, DNA sekuentziak ezagunak diren bakterioekin konparatzeko pausuan.
 
Lehen arazoa, hamaika programa daude konparaketa hori egiteko, zein aukeratu? Ba horretan jarri nintzen. Artikulu batzuk bazeuden simulatutako datuekin zer geratzen zen aztertzen zutenak eta metodo batzuk konparatzen zituztenak. Baina metodo berriak ere agertu zirenez eta datu gehiago lortzen ziren bitartean datu batzukin frogak egin nitzakeenez, horretan jarri nintzen lan-taldeko barne kontu bat bezala, datu gehiago heltzen zirenean prozedura eraginkor bat ezarrita edukitzeko. Hala ere, barne kontu bezala hasi zena, lan pixkat gehiagorekin artikulu bat izan zitekeela erabaki genuen eta horrela azalduko dizuedan artikulua garatu zen.
 

 
20140411123500
 
Bartzelonan #kafekurasan batekin lantzen nituen artikuluak
 

 
Bakterioen (eta metagenomikaren bidez aztertu daitekeen edozein izakien) sekuentziak identifikatzeko hamaika programa daudela esan dizut. Bai, baina guztiak ez dira oso eraginkorrak. Errez identifikatzen diren sekuentziak ia metodo guztiek identifikatzen dituzte, baina metagenomikan interesgarriena
 
ezezagunak diren bakterioak identifikatzea da. Azken finean ezezaguna dena aztertu nahi dugu, orain arte ez genekiena ezagutu. Pare bat metodo ezezaguna den zati hori aztertzen saiatzen dira. Eta horiek konparatu nituen.
 
Azkenean hiru metodo konparatu nituen hurbilketa ezberdinak erabiltzen dituztelako: bata antzekotasunean oinarrituta (gehien erabiltzen dena baina sekuentzia guztiak identifikatzeko gai ez dena) eta beste bi oinarri matematiko ezberdinak erabiltzen dituztenak (bata Markov Eredu Ezkututan oinarritua, bestea hurbilketa Bayesiarrean) eta sekuentzia guztiak identifikatzeko gai direnak.
 
Hiru metodo/programa hauek, dituzten aukera ezberdinak erabilita ere, hainbat datu simulatu eta benetazkoekin erabili nituen. Datu simulatuetan zera egiten dugu, ezagunak diren bakterioen sekuentziak hartzen ditugu, zatitu eta nahasten ditugu, eta batzutan pixkat eraldatu, programek asmatu ote duten jakiteko. Simulatutako datuak sortzeko programak badaude ere, hainbat parametro guk aldatzeko Marc lankide eta lagunak programatxo bat garatu zuen hori egiteko. Datu simulatuekin eszenatiki ezberdinak sortu genituen: denetariko bakterioak egotea, bakterio dominante bat egotea eta gauza bera baina birusak gehituta. Eta benetazko datuetan zer zegoen ez genekienez emaitzak konparatzea interesgarria izan zitekeen.
 
Eta ze emaitza lortu genituen? Ba nahiko agerikoa den zozer: programak oro har ados zeuden talde handiak identifikatzerakoan baina gero eta zehatzago izan nahian (adibidez genero edo espezie mailan) pot egiten zuten. Uler dezazun, “ugaztuna da baina ez dakit gizakia ala txinpantze bat den” parekoa bakterioen munduan. Zer esan nahi du honek? Ba bakterio batzuk euren artean antzekoak izan daitezkenez ezin daitekeela guztiz zehaztu zein den eta, bestetik, bakterioak ezezagunak direnean nahasteak handitzen direla.
 
Egia esan emaitzak ez dira harrigarriak. Baina emaitzak ikusita, bai simulazioetan zein benetako datuak aztertuta, ondorio batzutara heldu ginen. Alde batetik emaitzak aztertutako sekuentziaren luzeraren menpekoak dira, gero eta luzeago, are eta hobegoa. Izan ere maila taxonomikoaren (izaki bizidunak sailkatzeko taldeak) arabera, zure emaitzetaz ziur egoteko sekuentzia luzeera minimoa zein den estimatu genuen. Eta biologia konputazionalean erabiltzen dugun urrezko araua gogoratu: gero eta metodo gehiagok zeozer esan, hare eta ziurragoa zure emaitza. Hiru metodo hauek ados zeudenean, cap problema, zure identifikazioa ona da. Hirutik bik zeozer badiote, tira, ondo, aurrera jarraitu. Baina ados ez daudenean, emaitza horiekin kontuz ibili. Eta, batez ere, programei ikasteko ematen diezun informazioa pausu erabakiorra da: horren arabera emaitzak aldatzen dira.
 
Ez, ez genuen ezer iraultzailerik aurkitu. Dena nahiko agerikoa zen, itxarongarria, baina gure bertutea sentzazio hori zenbakitan jartzea, mugak adieraztea eta arazoak non zeuden zehaztea izan zen. Bakterioen sekuentziak identifikatzearakoan aurkitu genituen alde onak eta txarrak komunitate guztiarekin partekatzea.
 

One comment on “Bakterioen sekuentziak identifikatzen

Utzi erantzuna