A caccia dell'Informazione
A caccia dell'Informazione contenuta in una serie di dati quantitativi
Benvenuti a questa uscita invernale. Siete sicuri di voler continuare a leggere questo blog? Avverto che rischiate di perdere sonni tranquilli.
Si pretende di andare oltre la varianza, attualmente strumento cardine della Scienza dei Dati e della Ricerca Scientifica.
Mi sono deciso a raccontarvi la mia misura di variabilità, ottenuta tramite una metrica semplice, come lo può essere ad esempio una media di dati osservati, che chiamo deviazione semplice, (γ), da contrapporre alla deviazione standard. A onore del vero qualcuno può dire che esiste già una misura di deviazione semplice, la deviazione media assoluta, ma, come la deviazione standard, misura la dispersione non la variabilità.
Come esempio applicativo presento un modo di costruire una tavola riassuntiva opportunamente articolata in grado di descrivere compiutamente il fenomeno quantitativo a cinque dimensioni descritto dagli indicatori europei in un dato anno.
Kendall e Stuart (1997, vol. 1, pag. 42) assolvono la varianza pur ammettendo che possa sembrare un po’ artificiale. Qui invece la si considera imperdonabilmente del tutto artificiale perché esagera gli scarti elevati e rimpicciolisce quelli piccoli. Come se non bastasse spesso si spaccia la dispersione per variabilità quando quest’ultima può dirsi piuttosto più vicina all’idea di evoluzione. Con tutto il rispetto per Sir Ronald Fisher è tempo che questo punto venga processato a dovere.
Una Teoria dei distacchi
Con “Il crescere della serie” conviene intendere un crescere migliorativo, ragionato. Come cresce la serie? A distacchi. Per ottenere una metrica adatta questo blog intende contrapporre all’idea degli scarti, che porta alla varianza e ai suoi derivati, un’idea degli stacchi conseguiti (ovvero distacchi) rispetto alla prima unità che insegue (o, equivalentemente, degli scatti ipotetici necessari a ogni unità per raggiungere quella che precede). Dunque basterebbe riassumere i distacchi con una media, senonché:
Bisogna cautelarsi in modo che tutte le grandezze siano leggibili come distacchi;
Le grandezze devono essere dimensionalmente comparabili;
Le grandezze devono avere la stessa direzione, cioè tutte migliorative.
Le tre condizioni sono soddisfatte da variabili assimilabili a una classifica, quelle che chiamo direttamente informative (altrimenti si possono rendere tali utilizzando la distanza dal valore preferibile).
Vediamo di che si tratta per una singola serie quantitativa X rilevata su un collettivo di N unità. Il crescere di X (non avvalorato dal contesto) è un concetto prettamente numerico. Per andare oltre è utile passare a un crescere migliorativo che permette di coinvolgere lo scopo dell’analisi. Tutto nasce da una richiesta fondamentale della ricerca:
Cosa succede al variare di ciascuna grandezza quantitativa coinvolta?
Per ora poniamo l’attenzione solo sulla seconda parte della frase: al variare di ciascuna grandezza. Siamo sicuri di aver inteso cosa significa? È davvero così scontato? Serve qualche precisazione.
Viene chiamata in causa la variabilità solitamente intesa come capacità di prendere valori differenti: un concetto definito in modo, a dir poco, generico. Questo rappresenta un aspetto cruciale dato che la variabilità ha a che fare con l’informazione che la grandezza dovrebbe apportare all’analisi. Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso. Questo succede quando viene calata nel contesto, quando riceve interpretazione tramite la situazione.
Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso.
Il variare, inteso come il percorrere la serie da un minimo a un massimo, non ha niente a che fare con il ballare attorno a un punto, come riferiscono certi strumenti, varianza compresa. Ora, piuttosto che al variare di… è più idoneo chiedersi al crescere di… Ma questa precisazione non soddisfa appieno. Infatti il crescere è un concetto ancora prettamente numerico. Come fare?
Si fa intervenire la situazione oggetto di analisi dato che ogni grandezza dovrebbe essere informativa proprio rispetto al contesto.
Così facendo si potrà parlare di:
Grandezze con crescita migliorativa
Grandezze con crescita peggiorativa
Grandezze con crescita indecidibile
Distinzione che risulta del tutto inesistente per la letteratura scientifica attuale. Le grandezze leggibili come distacchi presentano infatti crescita migliorativa o peggiorativa: vengono qui chiamate direttamente informative.
Quelle a crescita indecidibile possono dirsi indirettamente informative, tanto che, per queste ultime, si ritiene non abbia senso misurarne la variabilità e perciò andrebbero rese direttamente informative o separate dall’analisi.
Una grandezza viene qui definita a crescita migliorativa quando ammette una osservazione non preferibile in corrispondenza del minimo osservato; mentre si dirà a crescita peggiorativa quando tale valore corrisponde al massimo. Quelle con crescita indecidibile presentano un valore preferibile interno al range.
Si noti che mentre il crescere rimane un concetto numerico il crescere migliorativo acquista significato e valore. In altre parole, dato che tutte le grandezze vanno da un minimo a un massimo, non basta un crescere numerico per parlare di informazione. Applicando la trasformata Preferibile non Preferibile (PnP), cioè la distanza relativa dal valore non preferibile (proposta in precedenza in versione ridotta), ogni grandezza può essere letta come dotata di crescita migliorativa e perciò trattata come direttamente informativa. Così facendo tutte le grandezze si possono leggere con l’incipit al migliorare della serie. Per misurare il crescere migliorativo i passi preliminari necessari per ogni serie sono i seguenti:
Si verifica se la situazione è in grado di conferire alla grandezza la connotazione di classifica;
Si calcolano le distanze relative dal valore non preferibile (trasformata PnP).
Si estende il calcolo a tutte le k serie (la tabella A più avanti ne è un esempio dove si vedrà come riassumere sia le colonne, con , che le righe, ). Si consigliata una tabella come la A nelle situazioni in cui le grandezze presentano una struttura di inter-correlazione debole o contenuta e la si raccomanda comunque come stadio intermedio di ogni analisi.
Per ora le cose stanno nei termini che seguono. Per una serie di dati esiste una misura di variabilità? Esiste sotto certe condizioni:
Quando la serie è assimilabile a una classifica;
Quando la classifica prende senso dalla situazione in esame.
Infatti, quando ciò si verifica, la serie genera una serie di distacchi, cioè le distanze di ciascun dato dal primo degli inseguitori. Da notare che mentre si può dimostrare che la serie di distacchi non è meno informativa della serie di provenienza non sembra esistere qualcosa di analogo tra la serie degli scarti quadratici e la serie iniziale. Questa è la prima chiave di volta che permette la chiusura dell’arco o, se preferite, del ragionamento.
Ecco che allora una media di questi distacchi è una misura di variabilità della serie. Dunque, almeno una soluzione esiste. Ma nel caso a più dimensioni funziona in maniera un po’ diversa. Infatti con più grandezze si dovrà ridimensionarle, si consiglia con PnP, in modo che tutte abbiano un crescendo favorevole e insistano sulla stessa scala, da 0 a 100. In questo modo però le medie dei distacchi si equivalgono dato che essi assommano a cento. Però, la serie di distacchi genera, a sua volta, una nuova serie di distacchi che conviene chiamare irregolarità. La media delle irregolarità fornisce la misura (γ) che cerchiamo.
Si mostra ora come riassumere k serie disponibili (esempio: tavola A) sia verticalmente che orizzontalmente.
Una tavola speciale, nuova a prescindere dalla metrica accennata, che permette sia una sintesi verticale che una orizzontale. Nuova perché necessita di:
Una trasformata, che plotta i dati nel range 0-100, da chiamarsi preferibile-non-preferibile (PnP), che coinvolge la situazione oggetto di analisi;
Di grandezze orientate nella direzione migliorativa;
Di grandezze comparabili dimensionalmente.
Va detto che la trasformata minimax, che opera un cambiamento di scala in modo da piazzare i dati nel range 0-1, o 0-100, è soltanto numerica perché non coinvolge il contesto e non si cura dell’orientamento delle grandezze. La seconda chiave di volta è: Esistono serie che non sono immediatamente leggibili come distacchi; come dire che vi sono grandezze direttamente informative e altre che lo sono solo indirettamente. Questo fatto mette in evidenza l’esistenza di due tipi di grandezze mai rilevate nella letteratura. Se una serie non è assimilabile a una classifica lo diventa la serie delle distanze dal valore preferibile.
Nella tabella A per i 27 paesi Europei i riassunti verticali primeggiano la posizione dell’Inflazione seguita dal Deficit, … e l’irregolarità dei distacchi del Debito e dell’Occupazione, … (mentre la deviazione standard indicherebbe Inflazione e Pil):si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Pil, Debito, … e dell’irregolarità dei distacchi di Pil, Inflazione, … (e non di Debito, Occupazione, … come direbbe la deviazione standard).
Nei riassunti orizzontali primeggiano la posizione di Paesi Bassi, Irlanda, Svezia, Danimarca… e l’irregolarità dei distacchi di Portogallo, Finlandia, Estonia, Francia… (e non la deviazione standard di Spagna e Irlanda, Austria, Finlandia…): si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Ungheria, Grecia, Malta e Belgio… e dell’irregolarità dei distacchi di Paesi Bassi e Ungheria (e non di Lettonia, Bulgaria, Malta, Italia, … come direbbe la deviazione standard).
I valori in tabella segnano la posizione relativa raggiunta da ciascun paese per ciascuna grandezza. Ad esempio l’Italia si trova al 28% del range. Dalla riga di ogni paese si ricava un ordine di intervento auspicabile; ad esempio per Italia e Belgio è opportuno intervenire principalmente su Debito, Occupazione, Pil, … nell’ordine.
Le colonne e suggeriscono le priorità di intervento da parte dei rispettivi paesi sulla posizione raggiunta come grandezze e come importanza delle stesse, rispettivamente. L’informazione promessa, gamma, sta nelle irregolarità dei distacchi (precisamente nuovi distacchi), viene chiamata deviazione semplice, ed è la misura da contrapporre alla deviazione standard classica (Qualche sostenitore della varianza potrebbe considerare la deviazione standard dei distacchi come una misura alternativa di dispersione).
La classifica attribuisce all’Italia il XXIII° posto (meglio del Belgio) mentre l’irregolarità dei distacchi , assegna il XXI° (meglio del Belgio e del Lussemburgo). Tabella A:
Paesi\PnP%
tPIL
t|DEF|
tDEB
tINFL
tOCC
Paese
AU
37,79
94,23
44,0
84,04
74,67
61,6
X
19,9
III
10,08
XVIII
AU
BE
35,30
96,15
19,6
88,30
32,89
39,6
XXIV
29,3
XII
13,32
XXV
BE
BU
0
100
85,3
26,6
31,56
47,7
X
41,1
XXVI
9,71
XVII
BU
CI
23,29
34,62
44,0
84,04
72,89
44,3
XX
34,7
XXIII
7,52
VI
CI
DA
36,13
7,69
77,3
89,36
100
70
V
26,7
VIII
7,70
VII
DA
ES
13,37
50,00
100
36,17
65,78
55,4
XII
31,8
XVIII
7,40
III
ES
FI
34,29
0
68,4
90,43
69,78
62
IX
21,6
IV
7,36
II
FI
FR
31,37
50,00
39,6
90,43
69,78
47,1
XVIII
33,3
XXI
7,41
IV
FR
GE
33,81
98,08
38,4
82,98
65,78
63,7
VII
28
IX
8,74
XIV
GE
GR
25,12
34,62
8,7
75,53
30,22
38,1
XXVI
29,8
XIV
7,78
VIII
GR
IR
49,32
98,08
78,7
76,60
64,44
73,1
II
18
II
8,52
XIII
IR
IT
28,00
73,08
0
86,17
18,22
41,1
XXIII
36,9
XXIV
10,46
XXI
IT
LE
9,00
100
94,0
0
60,89
52,1
XIV
45,9
XXVII
10,38
XX
LET
LI
9,70
78,85
86,5
45,74
45,78
56,2
XI
34,2
XXII
9,35
XVI
LIT
LU
100
40,38
96,5
78,72
42,77
71,2
III
28,1
X
12,09
XXIII
LU
MA
17,65
67,31
41,3
100
0
38,4
XXV
37,8
XXV
12,02
XXII
MA
PaBa
40,89
96,15
57,8
90.45
95,11
73,3
I
28,3
XI
16,80
XXVII
PaBa
POL
6,99
63,46
58,6
79,79
10,67
49,8
XXI
24
XIX
12,95
XXIV
PO
POR
16,95
51,92
39,9
81,91
58,67
43,7
XVI
32,9
VI
7,16
I
POR
ReUn
35,74
48,08
59,3
82,98
75,11
63,1
XV
29,5
XIII
7,45
V
ReCe
ReCe
18,74
82,69
74,6
75,53
51,11
52
VIII
30,7
XVII
8,36
XI
ReUn
RO
2,10
51,92
90,6
55,32
18,67
42,9
XXII
33,1
XX
7,88
IX
RO
SLOVA
12,96
65,38
74,1
87,23
27,11
46,1
XIX
30,7
XVI
9,10
XV
SLOVA
SLOVE
22,67
92,31
80,1
67,02
58,67
63,9
VI
26,3
VII
10,34
XIX
SLOVE
SP
29,75
59,62
67,3
77,66
48,89
53,9
XIII
17,8
I
7,99
X
SP
SV
37,09
32,69
63,1
89,36
87,11
70,3
IV
-22
V0
8,50
XII
SV
UN
11,05
5,77
37,7
23,40
12,00
29,7
XXVII
30
XV
16,55
XXVI
UN
26,6
62,0
39,8
72,1
51,4
V°
II°
IV°
I°
III°
19,5
30,5
26,7
19,3
20,8
II°
V°
IV°
I°
III°
1,88
0,93
0,67
0,87
0,44
V°
III°
I°
IV°
II°
39,2
19,4
14,0
18,2
9,2
Si noti, in tabella B, come siano diversi i pesi da assegnare alle grandezze:
ad esempio, a differenza del coefficiente di variazione sui dati iniziali e della deviazione standard %, la deviazione semplice % proposta, che rappresenta il nuovo contributo di ciascuna grandezza all’analisi, fa primeggiare il PIL.
Lascio a voi il confronto degli altri riassunti e la verifica di questi calcoli.
Tabella B
112,8
2,22
27,46
3,78
69,56
58,19
1,93
16,75
2,81
4,61
26,6
62,0
39,8
72,1
51,4
19,5
30,5
26,7
19,3
20,8
3,70
3,70
3,70
3,70
3,70
0,097
0,052
0,045
0,056
0,035
17,3
29,1
23,5
26,6
3,5
15,2
23,8
20,8
19,3
20,8
34,0
18,3
15,8
19,7
12,3
1,88
0,93
O,13
0,94
0,48
43,1
21,3
3,0
21,6
11,0
Infine un dettaglio di calcolo delle irregolarità della prima grandezza, tPil:
Bulgaria
0
0
Estonia
0,3117
0,3117
Cipro
0,6116
0,131062
Malta
0,699
0,087374
Austria
0,699
0
Lituania
0,699
0
Svezia
0,9611
0,262123
Belgio
1,0048
0,043687
Rep Ceca
1,0922
0,087374
Ungheria
1,3543
0,262123
Francia
1,6164
0,262123
Spagna
1,7475
0,131062
Grecia
1,8349
0,087374
Danimarca
0,3932
0,081485
Regno Unito
0,4369
0,043687
Finlandia
0,4806
0,043687
Francia
1,6164
0,262123
Spagna
1,7475
0,131062
Grecia
1,8349
0,087374
Francia
1,6164
0,262123
Spagna
1,7475
0,131062
Grecia
1,8349
0,087374
Francia
1,6164
0,262123
Spagna
1,7475
0,131062
Grecia
1,8349
0,087374
Francia
1,6164
0,262123
Spagna
1,7475
0,131062
Si accettano proposte alternative o aggiustamenti all’informazione lineare suggerita.
La metrica qui proposta è una insinuazione irriverente nei confronti della Scienza dei Dati: Si tratta di una piccola breccia aperta in una muraglia antica. È solo un inizio, sto cercando sostituti per covarianza, correlazione, coefficiente di determinazione, tanto per citare qualche misura.
Si vedrà. Speriamo prossimamente.
Buon Anno, Buon 2024 e seguenti!
Last updated
Was this helpful?