Mosquit Alert obre la seva col·lecció de 20.000 fotografies per entrenar programes de Deep Learning

A Mosquit Alert fem accessibles a altres investigadors i desenvolupadors les nostres dades. Ara, anem un pas més enllà, i obrim també la nostra base de fotografies etiquetades prèviament validades pel nostre equip d’expertes i experts entomòlegs. En total, la col·lecció compta amb gairebé 20.000 fotografies de mosquits i llocs de cria. Totes elles, fetes pels ciutadans i enviades a través de l’app Mosquit Alert des de 2014. Si t’interessen, estan disponibles a partir d’ara a la plataforma GitLab. Una base que s’anirà actualitzant anualment amb les noves imatges.

Poden descarregar-se totes les imatges i el seu fitxer adjunt amb el codi de la imatge, la data, la localització en què va ser presa, com va ser classificada pel participant i les diferents categories de validació dels experts.

Aquestes imatges correctament classificades són un gran recurs per a programes de reconeixement d’imatge que vulguin explorar els problemes d’identificar i classificar objectes en una imatge. Mosquit Alert proporciona una gran quantitat de dades perquè un algoritme d’Intel·ligència Artificial pugui ser “entrenat”, ajustat, aprendre i millorat, en el que es coneix com machine learning o aprenentatge automàtic.

Com s’ensenya a una màquina a reconèixer objectes?

Avui hi ha una demanda generalitzada de sistemes amb una Intel·ligència Artificial avançada, que siguin capaços de processar la gran quantitat de dades que es generen contínuament. Això s’està donant en tots els sectors, en ser moltes les activitats que poden beneficiar-se d’una anàlisi intel·ligent i automatitzat de les dades.

Una de les claus de la Intel·ligència Artificial està en l’aprenentatge. Cada vegada més, els programadors els demanen a les màquines que aprenguin per si soles, ja que resulta literalment impossible pre-programar instruccions que tinguin en compte les infinites combinacions de dades i situacions que es donen en el món real. Per això, es necessita que les màquines aprenguin de la seva pròpia experiència, una estratègia que es coneix com a aprenentatge automàtic (Machine Learning).

Una de les tasques més prometedores de l’aprenentatge automàtic és el reconeixement de patrons i la interpretació d’imatges. Aquesta tecnologia pot usar-se per a verificar a un usuari en reconèixer el seu rostre, la seva empremta dactilar, ajudar en el diagnòstic de malalties identificant patologies en imatges mèdiques, reconeixement de caràcters escrits a mà o impresos i interpretar fotografies de tota mena.

No obstant això, que un ordinador sigui capaç d’identificar visualment un objecte no és fàcil. El procés implica reproduir les mateixes habilitats que tenim els humans. Si ens ensenyen la foto d’un gos, sigui la raça que sigui, podem identificar que es tracta un gos. Encara que la foto estigui presa des d’un angle o un altre, es vegi l’animal de cara o d’esquena, des de dalt o des de baix. Fins i tot encara que l’animal no aparegui complet a la foto. Amb un detall de la seva cara, la seva silueta, o qualsevol altre detall, som capaços de reconèixer l’animal. Es vol fer que un ordinador sigui capaç de fer el mateix.

Per a això, els programadors desenvolupen algoritmes que permetin a la màquina aprendre de les seves experiències. Un aprenentatge que ens recorda molt a com aprenem nosaltres mateixos de petits, basades en el reforç, tant positiu com negatiu. En els sistemes d’aprenentatge automàtic, igual que amb els nens, les conductes que es premien tendeixen a augmentar la probabilitat que aquestes es repeteixin, mentre que les conductes que es castiguen deixen de repetir-se i tendeixen a desaparèixer en el temps.

L’aprenentatge supervisat

És el que s’anomena aprenentatge supervisat, que requereix la intervenció de les persones per anar indicant a la màquina si la identificació que ha fet està bé o està malament. En tots aquests casos, són els humans els que saben abans que la màquina quines són les propietats de l’objecte a classificar, per a això s’han d’etiquetar moltes imatges a partir de les quals la màquina podrà aprendre.

Maching learning Mosquito Alert deep learning mosquits mosquit tigre

Fig. 1. Esquema d’aprenentatge profund, en el qual l’ordinador va identificant i creant etiquetes a diferents nivells per generar el seu “propi” concepte de mosquit. Font: Mosquit Alert -CC0

Perquè els algoritmes puguin millorar la seva capacitat d’identificar i interpretar imatges correctament, han de comptar amb un enorme conjunt d’imatges d’entrenament proporcionades pels humans. A partir d’aquesta experiència d’entrenament, els algoritmes seran capaços de generalitzar i començar a classificar les imatges sense intervenció humana.

L’aprenentatge profund

L’aprenentatge actual més prometedor és el que es coneix com a aprenentatge profund o aprenentatge neuronal profund (Deep Learning), un procés inspirat en el pensament humà. En el cas de l’aprenentatge supervisat, els humans han d’extreure les característiques de l’objecte que es desitja que reconegui l’ordinador, depenent el procés d’aprenentatge de la capacitat del programador per a definir un conjunt de característiques que defineixin el que és un “mosquit tigre”, per exemple. L’avantatge de l’aprenentatge profund és que el mateix programa fabrica el conjunt de característiques sense supervisió humana. Una mica més ràpid i generalment més precís (Fig. 1).

Perquè funcioni, el programa necessita moltes dades d’entrenament. Moltes imatges etiquetades prèviament que diguin si és “mosquit tigre” o “no mosquit tigre“. Amb aquestes primeres etiquetes el programa crea un conjunt de característiques per “mosquit tigre” i construeix un model predictiu. En aquest primer pas l’ordinador podria predir que qualsevol cosa amb dues ales, cos negre i taques blanques, hauria de ser etiquetat com “mosquit tigre“. Sense ser conscient ha generat unes etiquetes “ales“, “cos negre”, “taques blanques“, i busca patrons de píxels en les dades digitals que té. Amb cada nova imatge, el model va afegint noves “categories”, que fa que el “concepte” de mosquit tigre es torni més complex i precís, millorant el model predictiu.

En l’actualitat, el principal fre de la potència d’aquests algoritmes és el mateix procés d’entrenament, ja que per dur-ho a terme es necessita una bona base de dades amb imatges que hagin estat prèviament etiquetades per persones. Sense això, els algoritmes no poden aprendre de manera efectiva.

És en aquest punt, on les dades que ofereix Mosquit Alert cobren valor, ja que representen milers d’imatges de mosquits i punts de cria que han estat validades i etiquetades per experts (Fig. 2). Un material valuosíssim per entrenar algoritmes en el seu procés d’aprenentatge.

mosquito tigre Aedes albopictus machine learning

Fig. 2. Mostra de les imatges que arriben a Mosquit Alert a través de l’aplicació. Quants mosquit tigre podrà identificar un programa de reconeixement d’imatges un cop entrenada? Font: Mosquit Alert -CC0

Mosquit Alert, un projecte 100% Open Science

Mosquit Alert vol que la ciència que fa pugui ser reutilitzada per altres investigadors o ciutadans, oferint totes les seves dades en obert i accessibles. El programari utilitzat en l’aplicació de Mosquit Alert és lliure i de codi obert, es distribueix sota una llicència que permet utilitzar, canviar, millorar el programari i redistribuir-ho, ja sigui en la seva forma modificada o en la seva forma original.

Totes les dades recollides a través de l’aplicació es fan públics, tant en un mapa interactiu en xarxa, des del qual es poden descarregar les dades, com a la plataforma Zenodo, on es distribueixen sota llicència CC0 (Creative Commons 1.0 Universal).

Ara, segueix obrint les seves dades, oferint tota la seva base de fotos etiquetades perquè puguin ser utilitzats per altres línies d’investigació i contribuir així a projectes d’intel·ligència artificial en aprenentatge automàtic.

Mosquit Alert comparteix totes les seves dades i programari perquè és un projecte Open Science o ciència oberta. La ciència oberta és un canvi de paradigma en la manera de fer ciència. No canvien les seves motivacions i objectius, però sí que ho fan els seus mètodes. No canvia el què es fa sinó el com es fa. L’objectiu principal d’aquest moviment és fer que la ciència sigui oberta, col·laborativa i feta “amb i per a” la societat.

La ciència oberta és un canvi de paradigma en la manera de fer ciència

En el context de la ciència oberta, el que està obert és qualsevol resultat de la investigació, tant els resultats publicats en articles científics com les dades originals, així com, quan és possible, les eines i instruments usats. Això implica que també es facin públics els codis de programació usats.

Oferir tota aquesta informació fa que tot el procés sigui més transparent, ja que permet a altres investigadors revisar tot el procés, així com reutilitzar les dades i codi per dur a terme les seves pròpies investigacions.

D’aquesta manera, se’ls pot donar un nou ús a les dades i la recerca, guanyant el conjunt de la comunitat científica i amb això el conjunt de la societat. Mosquit Alert vol que la seva ciència pugui ser reutilitzada per qualsevol altre, oferint les seves dades en obert, permetent així la seva nova utilització, al mateix temps que facilitar que puguin comprovar-se i reproduir-ne els resultats.

Mosquito Alert és un projecte de ciència ciutadana cooperatiu sense ànim de lucre, coordinat per diferents centres de recerca públics. Els seus primers anys va pebre l’impuls de l’Obra Social “la Caixa”, Dipsalut (Organisme de Salut Pública de la Diputació de Girona) i per la Fundación Española para la Ciencia y la Tecnologia (FECYT).

Mosquit Alert obre la seva col·lecció de 20.000 fotografies per entrenar programes de Deep Learning