Dai BigData agli SmartData | Maurizio Galluzzo

I motori di ricerca Web, dalla loro prima apparizione, avevano lo scopo di far trovare quelle pagine presenti in rete che contenevano certe keyword separandole da tutte le altre. Non a caso prima di essi erano le Web directory che permettevano tali ricerche attraverso una strutturazione gerarchica decisa di volta in volta dal compilatore e con una ontologia rudimentale. Nel tempo i motori di ricerca sono migliorati passando dai vari Yahoo! e Altavista che archiviavano le diverse keywords, a Google che fin dalla prima apparizione stupì per alcuni accorgimenti che mancavano ai predecessori: la correzione automatica delle keywords di ricerca, la possibilità di formulare frasi di ricerca complesse, la velocità, ma specialmente la capacità, seppur limitata, di comprendere il contesto. Al primo utilizzo Google sorprendeva perché organizzava i risultati secondo la logica del “maggior interesse” e presentata per primi i link a pagine più popolari.

Tuttora la ricerca passa per le pagine Web che trattano un certo argomento.

Se questo può sembrare a prima vista naturale, non lo è affatto. Può andar bene per la ricerca di contenuti testuali che trattano un certo argomento ma i testi sono solo una frazione, peraltro limitatissima, dei contenuti possibili. Le stesse ricerche di immagini o video passano per la riduzione formale dei testi associati (siano essi nomi di file, tag o commenti). Tutto questo pone delle limitazioni allo sviluppo di possibili applicazioni in quell’area di ricerca strategica che è Internet of Things (o Internet delle cose) ovvero la possibilità di creare interazione con il mondo reale.
Nella sua banalizzazione più tecnica è l’idea di mettere un indirizzo IP a ogni oggetto dotato di minima intelligenza, nella sua forma più completa è la oggettiva manipolabilità digitale delle informazioni e della sua rappresentazione.

Se si parla molto di BigData (e spesso a sproposito) ma si parla ancora poco della possibilità di creare dei veri e propri sistemi aperti di conservazione manutenuta delle informazioni.

Mi esce difficile chiamarla “archiviazione” perché il concetto rimanda all’idea di uno stato definitivo quando in realtà abbiamo delle informazioni che variano continuamente. Pensiamo ad esempio a una variabile aggiornata in tempo reale che contenga la temperatura istantanea in una certa località. Questo non è attualmente possibile, possiamo saperlo per variabili discrete, in un certo momento T ma non continuamente.
Serve un nuovo modo di ripensare all’informazione, alla sua variazione temporale e alla sua memorizzazione in un tempo discreto.

Le informazioni, “indipendenti dal contenitore”, sono fondamentali anche nel nascente contesto delle Smart Cities che hanno bisogno di dati, riclassificati, certi e aggiornati.

Gli OpenData in questo senso vengono in aiuto perché portano avanti l’idea di rendere disponibili a chiunque informazioni prima relegate a pochi. Pensiamo al caso più semplice della Pubblica Amministrazione ma anche delle università, degli enti di ricerca.

Non da meno sono le informazioni in possesso dei privati che spesso però hanno una rilevanza pubblica e che non sono, se diffusi, una perdita di valore per il privato stesso.

Pensiamo ai musei, ai cosiddetti “giacimenti culturali”, ai libri, agli archivi.

Non indifferente è l’area dei cosiddetti “saperi informali”, ovvero competenze che non trovano una loro collocazione accademica formale ma sono conoscenze spesso indispensabili.

Si parla di una quantità sterminata di informazioni tutte eterogenee, spesso limitate dall’uso della lingua, ancora più spesso difficilmente classificabili.

Ci sono molti strumenti di knowledge management ma la maggior parte di essi richiede un accesso a un particolare archivio, spesso specialistico. Sono limitati nel numero e origine delle fonti, non consentono una condivisione distinta dalla vestizione.

Pensiamo ancora solo all’uso del linguaggio HTML: la vestizione grafica è legata intimamente al testo e i contenuti non testuali (video e immagini) hanno una relazione solo per la presenza nella stessa pagina. Dati così formattati non sono interessanti e perdono il valore dell’attributo relativo.

SmartData ha proprio lo scopo di indagare i contenuti complessi, modellare i dati, renderli fruibili e utilizzabili in forma libera. Questo richiede lo sviluppo di un framework idoneo, aperto, peer to peer, indipendente e con la possibilità di marcatura autoriale e di autorevolezza.

Quello degli SmartData è un mondo in cui è la realtà fisica che si palesa nella rete, non la sua rappresentazione. E su questo ci sto lavorando.