Mosquito Alert abre su base de 20.000 fotografías para entrenar programas de Deep Learning

En Mosquito Alert hacemos accesibles a otros investigadores y desarrolladores nuestros datos. Ahora, vamos un paso más allá, y abrimos también nuestra base de fotografías etiquetadas que han sido validadas por nuestro equipo de expertas y expertos entomólogos. En total, la colección cuenta con casi 20.000 fotografías de mosquitos y lugares de cría. Todas ellas, hechas por la ciudadanía y enviadas a través de la app Mosquito Alert desde 2014. Si te interesan, están disponibles a partir de ahora en la plataforma GitLab. Una base que se irá actualizando anualmente con las nuevas imágenes.

Pueden descargarse todas las imágenes y su fichero adjunto con el código de la imagen, la fecha, la localización en la que fue tomada, como fue clasificada por el participante y las distintas categorías de validación de los expertos.

Estas imágenes correctamente clasificadas son un gran recurso para programas de reconocimiento de imagen que quieran explorar los problemas de identificar y clasificar objetos en una imagen. Mosquito Alert proporciona una gran cantidad de datos para que un algoritmo de Inteligencia Artificial pueda ser “entrenado”, ajustarse, aprender y mejorar, en lo que se conoce como machine learning o aprendizaje automático.

¿Cómo se enseña a una maquina a reconocer objetos?

Hoy existe una demanda generalizada de sistemas con una Inteligencia Artificial avanzada, que sean capaces de procesar la gran cantidad de datos que se generan continuamente. Esto se está dando en todos los sectores, al ser muchas las actividades que pueden beneficiarse de un análisis inteligente y automatizado de los datos.

Una de las claves de la Inteligencia Artificial está en el aprendizaje. Cada vez más, los programadores les piden a las máquinas que aprendan por sí solas, pues resulta literalmente imposible pre-programar instrucciones que tengan en cuenta las infinitas combinaciones de datos y situaciones que se dan en el mundo real. Por ello, se necesita que las maquinas aprendan de su propia experiencia, una estrategia que se conoce como aprendizaje automático (machine learning).

Una de las tareas más prometedoras del aprendizaje automático es el reconocimiento de patrones y la interpretación de imágenes. Esta tecnología puede usarse para verificar a un usuario al reconocer su rostro, su huella dactilar, ayudar en el diagnóstico de enfermedades identificando patologías en imágenes médicas, reconocimiento de caracteres escritos a mano o impresos e interpretar fotografías de todo tipo.

Sin embargo, que una computadora sea capaz de identificar visualmente un objeto no es fácil. El proceso implica reproducir las mismas habilidades que tenemos los humanos. Si nos enseñan la foto de un perro, sea la raza que sea, podemos identificar que se trata un perro. Aunque la foto esté tomada desde un ángulo u otro, se vea al animal de cara o de espaldas, desde arriba o desde abajo. Incluso aunque el animal no aparezca completo en la foto. Con un detalle de su cara, su silueta, o cualquier otro detalle, somos capaces de reconocer al animal. Se quiere hacer que una computadora sea capaz de hacer lo mismo.

Para ello, los programadores desarrollan algoritmos que permitan a la máquina aprender de sus experiencias. Un aprendizaje que nos recuerda mucho a cómo aprendemos nosotros mismos de pequeños, basadas en el refuerzo, tanto positivo como negativo. En los sistemas de aprendizaje automático, igual que con los niños, las conductas que se premian tienden a aumentar su probabilidad de que se repitan, mientras que las conductas que se castigan dejan de repetirse y tienden a desaparecer.

El aprendizaje supervisado

Es lo que se denomina aprendizaje supervisado, que requiere de la intervención de las personas para ir indicando a la máquina si la identificación que ha hecho está bien o está mal. En todos estos casos, son los humanos los que saben antes que la máquina cuales son las propiedades del objeto a clasificar, para ello deben etiquetar muchas imágenes para que la máquina pueda aprender.

Mosquito Alert Machine learning fotos identificar imagenes

Fig. 1. Esquema de aprendizaje profundo, en el cual el ordenador va identificando y creando etiquetas a diferentes niveles para generar su «propio» concepto de mosquito. Fuente: Mosquito Alert -CC0

Para que los algoritmos puedan mejorar su capacidad de identificar e interpretar imágenes correctamente, deben contar con un enorme conjunto de imágenes de entrenamiento proporcionadas por los humanos. A partir de esta experiencia de entrenamiento, los algoritmos serán capaces de generalizar y empezar a clasificar las imágenes sin intervención humana.

El aprendizaje profundo

El aprendizaje actual más prometedor es el que se conoce como aprendizaje profundo o aprendizaje neuronal profundo (deep learning), un proceso inspirado en el pensamiento humano. En el aprendizaje supervisado, los humanos deben extraer las características del objeto que se desea que reconozca la computadora, dependiendo el proceso de aprendizaje de la capacidad del programador para definir un conjunto de características que definan lo que es un “mosquito tigre”, por ejemplo. La ventaja del aprendizaje profundo es que el propio programa fabrica el conjunto de características sin supervisión humana. Algo más rápido y generalmente más preciso (Fig. 1).

Para que funcione, el programa necesita de muchos datos de entrenamiento. Muchas imágenes etiquetadas previamente que digan si es “mosquito tigre” o “no mosquito tigre”. Con esas primeras etiquetas el programa crea un conjunto de características para “mosquito tigre” y construye un modelo predictivo. En este primer paso la computadora podría predecir que cualquier cosa con dos alas, negro y manchas blancas, debería ser etiquetado como “mosquito tigre”. Sin ser consciente ha generado unas etiquetas “alas”, “cuerpo negro, manchas blancas”, y busca patrones de píxeles en los datos digitales que tiene. Con cada nueva imagen, el modelo va añadiendo nuevas “categorías”, haciendo que su “concepto” de mosquito tigre se vuelva más complejo y preciso, mejorando el modelo predictivo.

En la actualidad, el principal freno de la potencia de estos algoritmos es el propio proceso de entrenamiento, pues para ello se necesita una buena base de datos con imágenes que hayan sido previamente etiquetadas por personas. Sin esto, los algoritmos no pueden aprender de manera efectiva.

Es en este punto, donde los datos que ofrece Mosquito Alert cobran valor, pues representan miles de imágenes de mosquitos y puntos de cría que han sido validadas y etiquetadas por expertos (Fig. 2). Un material valiosísimo para entrenar algoritmos en su proceso de aprendizaje.

mosquito tigre Aedes albopictus machine learning

Fig. 2. Muestra de las imágenes que llegan a Mosquito Alert a través de la aplicación. ¿Cuántos mosquito tigre podrá identificar un programa de reconocimiento de imágenes una vez entrenada? Fuente: Mosquito Alert -CC0

Mosquito Alert, un proyecto 100% Open Science

Mosquito Alert quiere que la ciencia que hace pueda ser reutilizada por otros investigadores o ciudadanos, ofreciendo todos sus datos en abierto y accesibles. El software utilizado en la aplicación de Mosquito Alert es libre y de código abierto, distribuyéndose bajo una licencia que permite utilizar, cambiar, mejorar el software y redistribuirlo, ya sea en su forma modificada o en su forma original.

Todos los datos recolectados a través de la aplicación se hacen públicos, tanto en un mapa interactivo online, desde el cual se pueden descargar los datos, como en la plataforma Zenodo, donde se distribuyen bajo licencia CC0 (Creative Commons 1.0 Universal).

Ahora, sigue abriendo sus datos, ofreciendo toda su base de fotos etiquetadas para que puedan ser utilizados por otras líneas de investigación y contribuir así a proyectos de inteligencia artificial en aprendizaje automático.

Mosquito Alert comparte todos sus datos y software porque es un proyecto Open Science o ciencia abierta. La ciencia abierta es un cambio de paradigma en la manera de hacer ciencia. No cambian sus motivaciones y objetivos, pero sí lo hacen sus métodos. No cambia el qué se hace sino el cómo se hace. El objetivo principal de este movimiento es hacer que la ciencia sea abierta, colaborativa y hecha “con y para” la sociedad.

La ciencia abierta es un cambio de paradigma en la manera de hacer ciencia

En el contexto de la ciencia abierta, lo que está abierto es cualquier resultado de la investigación, tanto los resultados publicados en artículos científicos como los datos originales, así como, cuando es posible, las herramientas e instrumentos usados. Ello implica que también se hagan públicos los códigos de programación usados.

Ofrecer toda esta información hace que todo el proceso sea más transparente, ya que permite a otros investigadores revisar todo el proceso, así como reutilizar los datos y código para llevar a cabo sus propias investigaciones.

De esta manera, se les puede dar un nuevo uso a los datos y la investigación, ganando el conjunto de la comunidad científica y con ello el conjunto de la sociedad. Mosquito Alert quiere que su ciencia pueda ser reutilizada por cualquier otro, ofreciendo sus datos en abierto, permitiendo así su nueva utilización, al mismo tiempo que facilitar que puedan comprobarse y reproducirse sus resultados.

Mosquito Alert es un proyecto de ciencia ciudadana cooperativo sin ánimo de lucro, coordinado por diferentes centros de investigación públicos. Sus primeros años pimienta el impulso de la Obra Social «la Caixa», Dipsalut (Organismo de Salud Pública de la Diputación de Girona) y por la Fundación Española para la Ciencia y la Tecnología (FECYT).

Mosquito Alert abre su base de 20.000 fotografías para entrenar programas de Deep Learning