I no només el que ens diuen les fotos. El Deep Learning és una família d’algoritmes d’Intel·ligència Artificial que permet als ordinadors extreure informació útil de tot tipus de dades mitjançant l’aprenentatge sense intervenció humana. Per aconseguir-ho necessiten una gran quantitat de dades i un objectiu que indiqui quin tipus d’informació volem extreure.
Un nou algoritme basat en Deep Learning dissenyat per Raul Gómez, investigador de la unitat de Tecnologies Audiovisuals d’Eurecat, permet aprendre relacions entre imatges i paraules.
Ho aconsegueix aprenent d’imatges amb text associats. Aquesta tècnica es diu aprenentatge no supervisat i elimina la necessitat d’etiquetar les dades manualment, fet que suposa un avanç.
Un cas pràctic: el que ens diuen les fotos d’Instagram de Barcelona
Per al desenvolupament d’aquest nou algoritme s’han analitzat un milió d’imatges públiques de la xarxa social visual més potent del món: Instagram. I s’ha seleccionat “Barcelona” com a terme de cerca ja que és una de les ciutats més populars de la xarxa amb més de 35 milions d’entrades.
Primer, l’algoritme d’anàlisi textual aprèn relacions entre paraules del text associat a les publicacions d’Instagram. Estudiant els contextos en què apareixen, aprèn una representació semàntica d’aquestes. D’aquesta manera podem saber quines paraules associen els usuaris d’Instagram a Barcelona i altres conceptes.
A continuació, l’algoritme d’anàlisi visual aprèn a reconèixer patrons en les imatges d’Instagram que permetran relacionar-les amb termes textuals. L’algoritme ens mostrarà quins elements visuals relacionen els usuaris d’Instagram amb Barcelona i altres conceptes.
Anàlisi textual: Quines paraules relacionen els usuaris amb #Barcelona i altres conceptes?
Quan els turistes parlen de #Barcelona a Instagram se solen referir a conceptes com l’arquitectura i la cultura, el que permet a l’algoritme relacionar aquests dos àmbits amb “turisme” a la ciutat.

Relacions que estableix l’algoritme
El disseny i l’arquitectura són conceptes associats als hotels a Barcelona mentre que els termes relacionats amb hostels es refereixen a l’ambient juvenil i de diversió d’aquests establiments.
Les imatges també parlen: Esmorzar amb #xurros, #brunch al migdia i #paella per sopar
L’algoritme també és capaç de fer una anàlisi visual i determinar quin tipus d’imatges es relacionen amb cada terme textual. En el cas concret d’aquest estudi, l’algoritme ha après que quan la gent parla de diversió a Barcelona (“fun”) associa imatges de les platges de la ciutat o de prendre copes i quan es parla de cultura Gaudí s’erigeix com el màxim exponent.
La gastronomia és un altre dels punts forts de la ciutat i per aquest motiu és interessant conèixer els conceptes associats a les imatges que prenen els visitants. L’esmorzar s’associa a la xocolata amb xurros, mentre que l’algoritme ha après a relacionar la paella amb el concepte “sopar”. Per al brunch se solen associar imatges de menjar saludable com amanides.

El Deep Learning ens pot ajudar a detectar tendències
Per barris: vermut i modernisme a Sant Antoni i menú econòmic a Sants
Els visitants solen associar el vermut a Sant Antoni, mentre que relacionen Sants a menús barats o Sitges a les seves platges i ambient homosexual. Poblesec està associat a les seves tapes, mentre les fotos dels turistes relacionen Gràcia a l’art de carrer d’aquest barri.

Associacions per barris
En una segona fase s’ha estès l’anàlisi a un desglossament per idiomes dels continguts fent una anàlisi per barris. La combinació d’anàlisi textual i visual també llançarà resultats interessants per conèixer preferències i tendències a la ciutat.
Deep Learning per a ciutats
Els resultats aporten informació d’alt valor sobre tendències en sectors tan competits com el turisme o el retail. També poden ser útils per a les ciutats per extreure conclusions derivades de les dades públiques penjades a xarxes socials relacionades amb elles.
Aquesta anàlisi de les imatges de xarxes socials, text associat i tècniques Deep Learning és extrapolable a qualsevol altra ciutat, esdeveniment o subjecte del qual es puguin obtenir una gran quantitat de dades.
Per aplicar l’algoritme a una altra àrea, cal recollir imatges amb text associat sobre aquesta i reentrenar els algoritmes amb aquestes dades.
Estàs interessat en iniciar algún projecte Deep Laerning? Contacta’ns al correu info@eurecat.org