A caccia dell'Informazione
A caccia dell'Informazione contenuta in una serie di dati quantitativi
Benvenuti a questa uscita invernale. Siete sicuri di voler continuare a leggere questo blog? Avverto che rischiate di perdere sonni tranquilli.
Si pretende di andare oltre la varianza, attualmente strumento cardine della Scienza dei Dati e della Ricerca Scientifica.
Mi sono deciso a raccontarvi la mia misura di variabilità, ottenuta tramite una metrica semplice, come lo può essere ad esempio una media di dati osservati, che chiamo deviazione semplice, (γ), da contrapporre alla deviazione standard. A onore del vero qualcuno può dire che esiste già una misura di deviazione semplice, la deviazione media assoluta, ma, come la deviazione standard, misura la dispersione non la variabilità.
Come esempio applicativo presento un modo di costruire una tavola riassuntiva opportunamente articolata in grado di descrivere compiutamente il fenomeno quantitativo a cinque dimensioni descritto dagli indicatori europei in un dato anno.
Kendall e Stuart (1997, vol. 1, pag. 42) assolvono la varianza pur ammettendo che possa sembrare un po’ artificiale. Qui invece la si considera imperdonabilmente del tutto artificiale perché esagera gli scarti elevati e rimpicciolisce quelli piccoli. Come se non bastasse spesso si spaccia la dispersione per variabilità quando quest’ultima può dirsi piuttosto più vicina all’idea di evoluzione. Con tutto il rispetto per Sir Ronald Fisher è tempo che questo punto venga processato a dovere.
Una Teoria dei distacchi
Con “Il crescere della serie” conviene intendere un crescere migliorativo, ragionato. Come cresce la serie? A distacchi. Per ottenere una metrica adatta questo blog intende contrapporre all’idea degli scarti, che porta alla varianza e ai suoi derivati, un’idea degli stacchi conseguiti (ovvero distacchi) rispetto alla prima unità che insegue (o, equivalentemente, degli scatti ipotetici necessari a ogni unità per raggiungere quella che precede). Dunque basterebbe riassumere i distacchi con una media, senonché:
Bisogna cautelarsi in modo che tutte le grandezze siano leggibili come distacchi;
Le grandezze devono essere dimensionalmente comparabili;
Le grandezze devono avere la stessa direzione, cioè tutte migliorative.
Le tre condizioni sono soddisfatte da variabili assimilabili a una classifica, quelle che chiamo direttamente informative (altrimenti si possono rendere tali utilizzando la distanza dal valore preferibile).
Vediamo di che si tratta per una singola serie quantitativa X rilevata su un collettivo di N unità. Il crescere di X (non avvalorato dal contesto) è un concetto prettamente numerico. Per andare oltre è utile passare a un crescere migliorativo che permette di coinvolgere lo scopo dell’analisi. Tutto nasce da una richiesta fondamentale della ricerca:
Cosa succede al variare di ciascuna grandezza quantitativa coinvolta?
Per ora poniamo l’attenzione solo sulla seconda parte della frase: al variare di ciascuna grandezza. Siamo sicuri di aver inteso cosa significa? È davvero così scontato? Serve qualche precisazione.
Viene chiamata in causa la variabilità solitamente intesa come capacità di prendere valori differenti: un concetto definito in modo, a dir poco, generico. Questo rappresenta un aspetto cruciale dato che la variabilità ha a che fare con l’informazione che la grandezza dovrebbe apportare all’analisi. Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso. Questo succede quando viene calata nel contesto, quando riceve interpretazione tramite la situazione.
Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso.
Il variare, inteso come il percorrere la serie da un minimo a un massimo, non ha niente a che fare con il ballare attorno a un punto, come riferiscono certi strumenti, varianza compresa. Ora, piuttosto che al variare di… è più idoneo chiedersi al crescere di… Ma questa precisazione non soddisfa appieno. Infatti il crescere è un concetto ancora prettamente numerico. Come fare?
Si fa intervenire la situazione oggetto di analisi dato che ogni grandezza dovrebbe essere informativa proprio rispetto al contesto.
Così facendo si potrà parlare di:
Grandezze con crescita migliorativa
Grandezze con crescita peggiorativa
Grandezze con crescita indecidibile
Distinzione che risulta del tutto inesistente per la letteratura scientifica attuale. Le grandezze leggibili come distacchi presentano infatti crescita migliorativa o peggiorativa: vengono qui chiamate direttamente informative.
Quelle a crescita indecidibile possono dirsi indirettamente informative, tanto che, per queste ultime, si ritiene non abbia senso misurarne la variabilità e perciò andrebbero rese direttamente informative o separate dall’analisi.
Una grandezza viene qui definita a crescita migliorativa quando ammette una osservazione non preferibile in corrispondenza del minimo osservato; mentre si dirà a crescita peggiorativa quando tale valore corrisponde al massimo. Quelle con crescita indecidibile presentano un valore preferibile interno al range.
Si noti che mentre il crescere rimane un concetto numerico il crescere migliorativo acquista significato e valore. In altre parole, dato che tutte le grandezze vanno da un minimo a un massimo, non basta un crescere numerico per parlare di informazione. Applicando la trasformata Preferibile non Preferibile (PnP), cioè la distanza relativa dal valore non preferibile (proposta in precedenza in versione ridotta), ogni grandezza può essere letta come dotata di crescita migliorativa e perciò trattata come direttamente informativa. Così facendo tutte le grandezze si possono leggere con l’incipit al migliorare della serie. Per misurare il crescere migliorativo i passi preliminari necessari per ogni serie sono i seguenti:
Si verifica se la situazione è in grado di conferire alla grandezza la connotazione di classifica;
Si calcolano le distanze relative dal valore non preferibile (trasformata PnP).
Per ora le cose stanno nei termini che seguono. Per una serie di dati esiste una misura di variabilità? Esiste sotto certe condizioni:
Quando la serie è assimilabile a una classifica;
Quando la classifica prende senso dalla situazione in esame.
Infatti, quando ciò si verifica, la serie genera una serie di distacchi, cioè le distanze di ciascun dato dal primo degli inseguitori. Da notare che mentre si può dimostrare che la serie di distacchi non è meno informativa della serie di provenienza non sembra esistere qualcosa di analogo tra la serie degli scarti quadratici e la serie iniziale. Questa è la prima chiave di volta che permette la chiusura dell’arco o, se preferite, del ragionamento.
Ecco che allora una media di questi distacchi è una misura di variabilità della serie. Dunque, almeno una soluzione esiste. Ma nel caso a più dimensioni funziona in maniera un po’ diversa. Infatti con più grandezze si dovrà ridimensionarle, si consiglia con PnP, in modo che tutte abbiano un crescendo favorevole e insistano sulla stessa scala, da 0 a 100. In questo modo però le medie dei distacchi si equivalgono dato che essi assommano a cento. Però, la serie di distacchi genera, a sua volta, una nuova serie di distacchi che conviene chiamare irregolarità. La media delle irregolarità fornisce la misura (γ) che cerchiamo.
Si mostra ora come riassumere k serie disponibili (esempio: tavola A) sia verticalmente che orizzontalmente.
Una tavola speciale, nuova a prescindere dalla metrica accennata, che permette sia una sintesi verticale che una orizzontale. Nuova perché necessita di:
Una trasformata, che plotta i dati nel range 0-100, da chiamarsi preferibile-non-preferibile (PnP), che coinvolge la situazione oggetto di analisi;
Di grandezze orientate nella direzione migliorativa;
Di grandezze comparabili dimensionalmente.
Va detto che la trasformata minimax, che opera un cambiamento di scala in modo da piazzare i dati nel range 0-1, o 0-100, è soltanto numerica perché non coinvolge il contesto e non si cura dell’orientamento delle grandezze. La seconda chiave di volta è: Esistono serie che non sono immediatamente leggibili come distacchi; come dire che vi sono grandezze direttamente informative e altre che lo sono solo indirettamente. Questo fatto mette in evidenza l’esistenza di due tipi di grandezze mai rilevate nella letteratura. Se una serie non è assimilabile a una classifica lo diventa la serie delle distanze dal valore preferibile.
Nella tabella A per i 27 paesi Europei i riassunti verticali primeggiano la posizione dell’Inflazione seguita dal Deficit, … e l’irregolarità dei distacchi del Debito e dell’Occupazione, … (mentre la deviazione standard indicherebbe Inflazione e Pil):si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Pil, Debito, … e dell’irregolarità dei distacchi di Pil, Inflazione, … (e non di Debito, Occupazione, … come direbbe la deviazione standard).
Nei riassunti orizzontali primeggiano la posizione di Paesi Bassi, Irlanda, Svezia, Danimarca… e l’irregolarità dei distacchi di Portogallo, Finlandia, Estonia, Francia… (e non la deviazione standard di Spagna e Irlanda, Austria, Finlandia…): si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Ungheria, Grecia, Malta e Belgio… e dell’irregolarità dei distacchi di Paesi Bassi e Ungheria (e non di Lettonia, Bulgaria, Malta, Italia, … come direbbe la deviazione standard).
I valori in tabella segnano la posizione relativa raggiunta da ciascun paese per ciascuna grandezza. Ad esempio l’Italia si trova al 28% del range. Dalla riga di ogni paese si ricava un ordine di intervento auspicabile; ad esempio per Italia e Belgio è opportuno intervenire principalmente su Debito, Occupazione, Pil, … nell’ordine.
Si noti, in tabella B, come siano diversi i pesi da assegnare alle grandezze:
Lascio a voi il confronto degli altri riassunti e la verifica di questi calcoli.
Tabella B
Infine un dettaglio di calcolo delle irregolarità della prima grandezza, tPil:
Si accettano proposte alternative o aggiustamenti all’informazione lineare suggerita.
La metrica qui proposta è una insinuazione irriverente nei confronti della Scienza dei Dati: Si tratta di una piccola breccia aperta in una muraglia antica. È solo un inizio, sto cercando sostituti per covarianza, correlazione, coefficiente di determinazione, tanto per citare qualche misura.
Si vedrà. Speriamo prossimamente.
Buon Anno, Buon 2024 e seguenti!
Last updated