Aurreko batean lan egiteko ordenagailuak erabiltzen nituela azaldu nizuen . Oraingoan erabiltzen ditugun ordenagailu programek zer egiten duten azaltzen saiatuko naiz, batzuetan oso ondo nola egiten duten ulertzen ez badut ere.
Genometan (izaki bizidun guztiok dugun argibide-liburu horretan) osagai ezberdinak daude: geneak (exon, intron eta eskualde erregulatzaileez osatuak), transposonak (LINEak, SINEak, LTRdunak), RNA mota ezberdinak, eta hizki-zopa zerrenda luze bat. Kontua guzti horiek hor daudela nola dakigun da, horrela genoma bat sekuentziatzen denean, ATGC konbinazio luze horietatik, zenbat gene eta halako estatistikak sortzeko gai garen jakitea.
Berez programek jakinak diren egiturak bilatzen dituzte eta egitura horiek aurkituta zer egon datiekeen aurresaten dute. Guztia baldintzatzen duena aurretik dakiguna da, ezagunak diren egiturak, horiek osagai berriak bilatzeko oinarriak baitira. Guzti hau oso abstraktua denez trenbide-pasaguneak erabiliko ditut adibide modura.
Euskotreneko Basauri-Arizeko geltoki ondoan dagoen trenbide-pasagunea
Trenbide-pasagune bat antzemateko burdinbidea, burdinbidea gurutzatzen duen errepidea edo bidea behar dugu. Baita ere mota ezberdinetako seinaleak, semaforoak, langak eta bozgarailuak egoteak trenbide-pasagune bat antzematea errezten du.
FEVEko Arizeko burdinbide-hondartza eta Etxebarriko Arcelor-Mittal lotzen dituen burdinbidean dagoen trenbide-pasagunea
Egia esan ez da beharrezkoa egitura guzti horiek egotea trenbide-pasagune bat antzemateko. Baina, gero eta egitura gehiago, ziurrago gaude trenbide-pasagune bat delaz.
Ordenagailu programek halako zeozer egiten dute genoma bat irakurtzerakoan. Egitura jakinak bilatu (burdinbide, errepide eta besteen parekoak) eta horietan oinarritu osagaiak antzemateko. Noski, horretarako trenbide-pasagune bat burdinbidez, errepidez etab-ez osatua dagoela jakin behar da eta ordenagailu lanabesa horretarako programatu. Hortaz, gero eta hobeto ezagutu genomaren osagaiak, beraien egiturak (ATGC segida jakinak) eta ezaugarriak programa finagoak eta hobeagoak egiten dira, osagai genomikoak antzemateko lana erreztuz eta hobetuz. Bai, agerikoa dirudi, gero eta gehiago jakin, gero eta hobeto antzematen dira osagaiak. Baina biologian dena ez da hain erraza.
Basauriko Larrazabal eta Pozokoetxe kaleen bidegurutzea
Aurreko argazkian trenbide-pasagunerik antzematen al duzue? Bai, galdera-tranpa bat da. Ez, orain ez dago trenbide-pasagunerik baina txiki nintzenean bazegoen. Laminados Velasco (orain Arcelor-Mittal dena) eta Bizkaiko Labe Garaien Bandaseko lantegia (orain Arcelor-Mittal ere dena) batzen zituen burdinbidea handik pasatzen zen. Orain urte asko burdinbide hori itxi zutela, baina hasieran ez zuten kendu. Geroago burdinbideak kendu zituzten, baina errepidean “zauria” mantendu zen. Beranduago errepidea berrasfaltatzerakoan zauria pixkat disimulatu zen baina urteekin bidegurutzea guztiz berregin zuten eta ez zen burdinbidearen aztarnarik ikusten. Argazkia orain dela hilabete gutxi egindako berregitearen ostekoa da eta lorategitxo hori jarri ostean eta espaloiak handitzerakoan sines zaila da hor trenbide-pasagune bat egon zela irudikatzea. Baina ezkerretara begiratzen baduzue, kamioaren gainean zeozer horia dago. Hori antzinean zegoen semafoaren arrastoa da, hor inoiz trenbide-pasagune bat egon zelaren azkenengo aztarna.
Genomak irakurtzerakoan ordenagailu programek halakoetan bi gauza egin dezakete: hor ezer ez dagoela esatea edo zeozer dagoela esatea. Zein da zuzena? Auskalo. Bidegurutze horretan aldaketak egon dira, eboluzionatu du, baina hor trenbide-pasagune bat egon zela jakitea agian interesgarria izan daiteke. Genometan halako zeozer gertatzen da, agian orain osagai jakin bat antzemateko gai ez gara, baina egon izanak agian interesa izan dezake. Horregatik gertu eta ez hain gertuko genomak konparatzen dira, genomaren pareko eskualdeak konparatzeko eta zer “irabazi”, “galdu” edo “aldatu” den ikusteko. Eta, horrela, eboluzioaren ikuspuntutik interesgarriak diren aldaketak aztertu.
Genomaren osagaiak antzemateko erabiltzen ditugun programen muga nahiko agerikoa da: dakiguna. Horregatik estrategia konputazional berriak bilatzen dira osagai horiei buruz dakiguna mugatzailea ez izateko. Jakintza mugak gainditzen doazen heinean urteetan zehar genoma baten estatistikak aldatuz doaz, emaitzak fintzeko gaitasuna handitzen delako. Gizakion gene kopurua adibiderik argiena da, 30000 eta 40000 bitartetik 20800 genera jeitsi baita. Fintze hau, ez da bakarrik gehiago dakigulako, baita hein handi batean ere, ordenagailuen potentzia handitu delako eta matematikak ematen dituen lanabesak erabili direlako posible da. Honen ondorioz biologia konputazionalan estrategia kuriosoa erabiltzen dugu: programa bakoitzak egitura ezberdinak edo oinarri matematiko ezberdinak erabiltzen dituenez, ahalik eta programa gehien erabiltzen ditugu. Eta programa batek baino gehiagok osagai bat detektatzen badu, osagai hori benetakoa dela onar dezakegu.
Edonola ere, hasieran esan bezala, batzuetan nola egiten duten ez dut oso argi. Zer bai, eta emaitzak zer diren ulertzen dut, baina prozesua, hor azpian dauden matematikak, nahaste-borraste bat iruditzen zaizkit. Biologoei erabiltzen ditugun ordenagailu programekin askotan gertatzen zaigu hori. Ezjakintasun horri kutxa-beltza deitzen diogu. Programari prozesatu nahi ditugun datuak ematen dizkiogu, kutxa-beltzean zeozer magikoa gertatzen da eta emaitzak jasotzen ditugu. Emaitzak interpretatzen eta kokatzen dakigun bitartean, gaitzerdi. Horregatik beti “aurresanda” eta “emaitza hauek balidatu” diogu biologia konputazionalaren arloan, egiten duguna ondo eginda badago ere, guztiz ziurtatu ezin dezakegulako. Gureak lehen pausuak dira, findu behar direnak, baina lan zikin asko kentzen dituztenak. Edo baliabideak urriak direnean ideia orokor bat izateko modu bat. Bidea zabaldu atzetik datozenei bidea errazteko.
Sarrera honek #Kultura Zientifikoa I. Jaialdian parte hartzen du.
One comment on “Genometako egiturak bilatzen”