L’arte di contestualizzare i dati

0
153

Lavorare e manipolare i dati è uno dei lavori più in voga negli ultimi tempi e sicuramente uno dei più interessanti. È spesso però evidente anche una certa approssimazione nell’approccio allo studio.

Analizzare e raccontare dati grezzi può essere un’arte apparentemente facile, ma non è così. Spesso e volentieri alle analisi che troviamo in rete manca un pezzo fondamentale e non così scontato per facilitare e arricchire la comprensione dell’analisi stessa: il contesto.

heatmap

Se volessimo fare un paragone, la contestualizzazione dei dati è importante tanto quanto lo è la base di dati di partenza. La semplificazione rischia di sminuire l’analisi, se non – nei casi più estremi – di far leggere dati diversi dalla realtà. Questo è un fenomeno particolarmente evidente quando andiamo a parlare di “geo-analisi”, ovvero di rappresentazioni di dati basate su mappa.

Facciamo un esempio…

Il New York Daily News ha recentemente pubblicato un’analisi relativa ai crimini avvenuti nelle diverse stazioni metropolitane della città, rappresentando con una bolla il numero di crimini: più grande la bolla, maggiore il numero di crimini.

C’è anche una seconda visualizzazione che permette di leggere il grafico in termini di numero di crimini per ogni 100.000 passeggeri e già questo è un passo verso una lettura migliore dei dati raccolti negli ultimi 5 anni. Quello che salta quasi immediatamente all’occhio è come la fermata apparentemente più criminosa in realtà è anche una delle più trafficate e quindi la corrispondente bolla diventa molto più piccola. Di contro, le stazione del Bronx e di Brooklyn acquistano un’importanza completamente diversa.

Altra particolarità la otteniamo osservando i dati della stazione di Broad Channel: considerando che il numero di passeggeri giornalieri tiene conto solamente degli utenti che passano i tornelli e non di quelli che cambiano linea, Broad Channel appare come una delle stazioni con il più alto numero di crimini per 100.000 passeggeri. I dati di partenza sono però evidentemente incompleti, in quanto mancanti di una rilevante fetta di utenti.

Quindi?

È il numero di passeggeri il dato più corretto da cui partire? E se lo incrociassimo con il reddito delle aree attorno alle stazioni della metropolitana, solo per fare un esempio?

È molto difficile arrivare ad un livello di spiegazione dei dati che includa tutte le possibili variabili, perché risulterebbe molto complesso sia da rappresentare che da raccontare, ma sicuramente le analisi possono e devono essere affinate e normalizzate, anche in mancanza di dati perfettamente comparabili e compatibili.

SHARE
Previous articleSocial Login Data: Facebook continua a crescere
Next article#vincenzonibali: analisi di una vittoria
Classe 1985, si occupa di Social Media per agenzie e aziende ormai da 6 anni. Laureato in Ingegneria, ha fatto dell’analisi dei dati le fondamenta del suo approccio al mondo del Marketing. Misurabilità, KPI e tracciabilità sono le sue parole d’ordine, Excel e Insight i suoi principali “tool” di lavoro. Quando non è impegnato dietro un computer, corre. Troppo.

NO COMMENTS

Rispondi