Only this pageAll pages
Powered by GitBook
1 of 25

L'informazione raccontata a mia nipote

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Informazione

Informazione di Primo Tipo

Usualmente per informazione si intende quella derivante dalla variabilità di una grandezza quantitativa. Per Wikipedia l'Informazione è un insieme di dati coordinati con cui un'idea viene comunicata. Una notizia, una nozione, un dato, sono informazione.

Ora qui iniziamo con il proporre un tipo di informazione che chiameremo di primo tipo. Limitiamoci all'informazione di un dato quantitativo osservato sulle unità di un collettivo rispetto ad alcune grandezze di interesse.

Conviene pensare a una tabella avente tante righe quante sono le unità e tante colonne quante sono le grandezze. Ogni casella contiene un dato quantitativo riferito a una singola unità su una delle grandezze (serie di dati). Per noi l'nformazione non è esattamente quel numero, ma il valore di quel numero nel contesto. Noi dobbiamo calare quel numero nella situazione. La situazione reale dovrebbe fornire per ogni casella un valore minimo (min) e uno massimo (Max) e dirci anche quale dei due è preferibile.

Ad esempio se le unità sono frutteti di mele le grandezze possono essere: quintali prodotti (X1), numero di trattamenti effettuati (X2), numero di piante allevate (X3), metri quadrati di superficie (X4) e anni di età dell'impianto (X5).

Presentazione

Rinnovamento dell'analisi dei dati, innovazione, efficienza.

Lo scopo di questo blog è di studiare la qualità degli strumenti quantitativi della ricerca scientifica, di avviare un processo di rinnovamento dell'analisi dei dati e di proporre strumenti innovativi più efficienti.

C'è un concetto fondamentale che va per la maggiore. Il seguente:

VARIABILITÀ=INFORMAZIONE.

Una sintesi notevole e dubbia (per me). Si riferisce alla VARIABILITÀ di una grandezza quantitativa osservata in un collettivo. Ebbene, grande parte delle risultanze scientifiche poggia su questo pilastro concettuale. Più VARIABILITÀ più informazione. Eppure qualcosa non torna (a me). Basti dire che, per esempio, una singola osservazione sarebbe dotata di informazione nulla: cosa francamente inaccettabile. Inoltre, quando si tratta di grandezze tipo valutazioni sensoriali, maggiore VARIABILITÀ corrisponde a minore QUALITÀ (minore accordo), dunque minore informazione: Esattamente il contrario del concetto di partenza. Quali sono allora le condizioni per la validità del concetto?

La risposta alla prossima occasione.

The information told to my niece

Gabriele Stoppa: The information in my opinion.

Gabriele Stoppa

My name is Gabriele Stoppa and I teach Quality Control at the Economics Faculty at the University of Trento. More than 600 students have attended my course over the last 10 years.

The purpose of my blog is to study the quality of the quantitative instruments used in scientific research in order to start off the process of data analysis renewal and to propose more effective innovative instruments.

This Blog can also be considered as an introduction to Data Analysis putting forward the idea that can be called the Paradox of Data Science.

A paradox is a phrase or a statement that seems acceptable but actually is not, so it surprises the reader. The term paradox derives from para=against and doxa=opinion. Therefore: contrary to popular opinion, contrary to the evidence, contrary to intuition. This paradox is linked to the concept of variability which is suggested as a complement to the concept of growth. The latter term is a special type of variability, where a quantum (of variability) is also filled by a sensum, the meaning of which relates to the context.

While traditional variability implies the shakiness of a series around a barycentre (without considering the objectives of the analyses or what occurs at other magnitudes involved, growth expresses how the series progresses along its path from a minimum to a maximum point and this makes it possible to involve the context, to assess the qualitative contribution of the series to the analyses in a way as to be able to assess the effects on other involved magnitudes. This is something that traditional variability is unable to do.

The Paradox of Data Science is as follows:

"The quantitive data series (xi1,1≤i≤n;i,nϵN)(x_{i1},1\leq i \leq n; i,n\epsilon N)(xi1​,1≤i≤n;i,nϵN)referred to the size(X1)(X_1)(X1​)chosen carefully and correctly collected has the right credentials (what it takes) to rightfully be part of the analyses".

The path that you will follow in these pages will take you to The Data Science Paradox.

L'informazione raccontata a mia nipote

Gabriele Stoppa: L'informazione secondo me

Sono Gabriele Stoppa, insegno Controllo di Qualità alla Facoltà di Economia dell'Università di Trento. Negli ultimi 10 anni più di 600 studenti hanno frequentato il mio corso.

Lo scopo di questo blog è di studiare la qualità degli strumenti quantitativi della ricerca scientifica, di avviare un processo di rinnovamento dell'analisi dei dati e di proporre strumenti innovativi più efficienti.

Questo Blog può essere considerato come un corso introduttivo all’Analisi dei Dati proponendo quello che può essere chiamato il Paradosso della Scienza dei Dati.

Un paradosso è una frase, un’affermazione, che sembra accettabile, ma che non lo è, perciò sorprende il lettore. Il termine paradosso deriva da para=contro e doxa=opinione. Dunque: contro l’opinione comune, contro l’evidenza, contro l’intuito. Tale paradosso ha a che fare con il concetto di variabilità al quale si propone di affiancare quello di crescita, un tipo di variabilità speciale, con il quale un quantum (di variabilità) viene riempito anche da un sensum, un significato rispetto al contesto.

Mentre la variabilità classica riguarda il ballare di una serie attorno al suo baricentro (senza badare agli obiettivi dell’analisi né a ciò che succede alle altre grandezze in gioco) la crescita esprime come si muove la serie nel suo andare dal minimo al massimo e questo permette di coinvolgere il contesto, di valutare il contributo qualitativo della serie all’analisi in modo da poter valutare gli effetti sulle altre grandezze coinvolte, cose che la variabilità classica non è in grado di fare.

Il Paradosso della Scienza dei Dati è il seguente:

"Una serie di dati quantitativi riferita a una grandezza scelta con cura e rilevata correttamente ha le carte in regola per entrare di diritto nell’analisi".

Il percorso che seguirete in queste pagine vi condurrà al

(xi1,1≤i≤n;i,nϵN)(x_{i1},1\leq i \leq n; i,n\epsilon N)(xi1​,1≤i≤n;i,nϵN)
(X1)(X_1)(X1​)
Paradosso della Scienza dei Dati.
Gabriele Stoppa

Rete di Dipendenza

Dopo la valutazione di posizione (situazione) e quella di variabilità è importante anche ricavare la rete di dipendenza. Si dimostra che vale la rete di dipendenza seguente (vedi appendice):

       +43,7            -51,8            +29,5
sPIL ---------- sINFL ---------- sDEB ---------- sOCC          s|DEF|

Si può affermare che solo il |Deficit| è un parametro indipendente dagli altri. La rete così misurata suggerisce che in Europa al diminuire del Debito, tendenzialmente, crescerebbe l’Inflazione e calerebbe l’Occupazione. Si tratta di una informazione preziosa! Anche questo risultato avvalorerebbe eventuali scelte di Bruxelles.

Osservazione

Osservazione relativa

Questo blog suggerisce di ricavare dalle osservazioni 'Xi' le osservazioni relative 'sXi' nel modo seguente: Calcolando, per ogni osservazione, la distanza relativa dal proprio valore non preferibile (min o Max). Vi risparmio la formuletta. (Per i più esperti va detto che la distanza relativa proposta, che chiameremo 'situazionata', è una misura parametrica. In certi casi si può ricavarne anche una parametrica utilizzando la funzione di distribuzione empirica).

Attenzione: Per qualche grandezza può succedere che il valore non preferibile non sia né il minimo né il massimo, ma un valore intermedio (l'età dell'impianto, nell'esempio). Queste grandezze rappresentano un grosso guaio, le chiameremo NON FRANCHE rispetto all'analisi (vedremo come rimediare). Ora una osservazione situazionata rappresenta un coefficiente di posizione (una percentuale, è L'Informazione del dato singolo) che indica la posizione relativa occupata dall'unità nel percorso (spettro) descritto dalla serie. Perché non è mai stato proposto un approccio di questo genere? Perché questo si chiama VOLGARE DIVULGAZIONE. In questo modo si rischia che tutti capiscano i dati del problema! (Non sia mai!)

Variabilità Situazionata

Il concetto di variabilità passa attraverso quello di varianza. Ma la varianza è una entità numerica auto-referenziale. Noi vogliamo calare anche la variabilità nella situazione, nel contesto dell’analisi. Perché? Perché noi abbiamo bisogno di aggrapparci a qualcosa di intuitivo. Come fare? Ragionando sulle variazioni della serie di dati. Prendiamo una serie di dati, ad esempio il Pil dei 27 paesi UE. Poniamo la serie in ordine crescente e consideriamo le variazioni successive. È bene chiedersi se queste variazioni siano interpretabili ai fini dell’analisi e, ancor più, se siano univocamente interpretabili. Nel senso che possono assumere, rispetto all’analisi, un significato concreto, sicuro e garantito. In questo modo si scopre che non tutte le serie presentano questa caratteristica. Se non si verifica questo fatto il concetto di variazione e quindi di variabilità perde significato. Perché? Perché è fondamentale chiedersi: cosa succede al variare della serie? Esistono tecniche importanti per trovare risposte adeguate a questa questione, ma il tutto è condizionato, subordinato, al fatto che quel variare sia sensato e univoco. Se non è così anche le tecniche importanti possono portate a risultati dubbi, opinabili. Si fa notare che quando la serie ammette, rispetto alla situazione, un valore preferibile e uno non preferibile e questi possono essere associati al valore più grande e al più piccolo rispettivamente (o viceversa) – cioè se la serie è franca (Stoppa, 2019) lo è anche la sua varianza – allora si comprende che le variazioni non nulle sono interpretabili come favorevoli, anzi univocamente favorevoli, perché si avvicinano a un valore preferibile (o non favorevoli altrimenti). Quando invece la situazione individua un valore preferibile, ma lo associa a un punto intermedio della serie, individuerà anche due punti non preferibili e associabili agli estremi della serie, allora l’interpretazione non è più univoca. Quella serie non è franca rispetto alla situazione. In genere, fortunatamente, è agevole trasformarla in serie franca.

I conti di Bruxelles

I conti li facciamo noi

I conti di Bruxelles sulla situazione globale li facciamo noi. Ovviamente lavoriamo sulla Situazione (sui dati situazionati). Consideriamo innanzitutto le posizioni medie dei cinque parametri e l’informazione corrispondente (%C.V., coefficiente di variazione, misura di variabilità relativa):

Questi valori permetterebbero di individuare eventuali priorità di intervento. Infatti si può dire che il Pil europeo medio (sPIL, 26,6%) richiede, rispetto ai cinque parametri, un intervento prioritario perché occupa una situazione preoccupante: 26,6% del percorso verso l’eccellenza. Nello stesso tempo rappresenta il 29% dell’informazione media: la variabilità relativa maggiore (un PIL molto variabile da paese a paese). Anche l’Occupazione (sOCC) media merita attenzione perché si situa al 51% del percorso verso l’eccellenza rafforzata dal fatto che una informazione del 20,5% segnala una elevata variabilità. Il Debito (sDEBpref) medio occupa, come situazione, il terzo posto: 60,2% del percorso verso l’eccellenza e il quarto come informazione 17,5%. Il Deficit (s|DEF|pref) medio sta al quarto posto: 62% del percorso verso l’eccellenza e al terzo come informazione, 19,5%. Infine l’Inflazione (sIFLpref) media, che vale 72,1% del percorso verso l’eccellenza e 13,5% come informazione, occupa, come parametro, la posizione migliore. Questo modo di procedere darebbe valore alle scelte sovra-nazionali.

Serie          media         C.V.          C.V.%
sPIL           26,6          73,2          29
s|DEF|pref     62            49,2          19,5 
sDEBpref       60,2          44,3          17,5 
sINFLpref      72,1          34,2          13,5
sOCC           51            51,8          20,5

Posizione e Coerenza

La posizione complessiva raggiunta dai 27 paesi occupata con i pesi %I^2 e la coerenza (l’informazione orizzontale) tra le politiche dei cinque Ministeri si può apprezzare dalla tabella seguente:

Paese        posizione  %I2.Paese     coerenza
Paesi Bas    77,5839	Irlanda       7,48
Irlanda      74,8516	ReUnito       5,81
Austria      68,6068	Spagna        5,72
Lussemb      68,2511	Paesi Bas     5,63
Slovenia     65,892	Austria       5,01
Germania     65,8081	Lussemb       4,62
Rep Ceca     61,3603	Slovenia      4,49
Svezia       59,408	Francia       4,38
Regno Unito  58,9278	Svezia        4,33
Danimarca    58,048	Rep Ceca      4,27
Lettonia     58,0046	Germania      4,25
Belgio       55,9786	Portogal      3,86
Spagna       55,9339	Cipro         3,75
Lituania     55,0958	Lituania      3,21
Francia      55,029	Slovacchia    3,12
Estonia      53,5196	Estonia       3,03
Bulgaria     52,6164	Danimarca     2,97
Slovacchia    52,4074	Belgio        2,88
Cipro        49,9545	Finlandia     2,73
Portogal     49,1944	Ungheria      2,62
Finlandia    47,8205	Grecia        2,6
Malta        43,9557	Polonia       2,47
Polonia      43,3023	Romania       2,36
Romania      43,1395	Bulgaria      2,14
Italia       41,5495	Malta         2,12
Grecia       33,4476	Lettonia      2,1
Ungheria     16,6999	Italia        2,06

Abbiamo ceduto alla tentazione di operare una sintesi del fenomeno a cinque dimensioni attraverso una combinazione lineare con pesi %I^2. Nonostante la ‘bontà’ di tali pesi la sintesi non è accettabile, non si può fare. Non si può combinare risultanze unidimensionali e spacciarle come sintesi, come ‘l’essenza’ del fenomeno. Non basta rabberciare le informazioni ricavate dalle singole serie di dati per ottenere una immagine del fenomeno congiunto. Questo si può fare solo quando le cinque serie di dati sono indipendenti (praticamente mai), e se anche capitasse il fenomeno in sé non sarebbe nemmeno interessante. Una vera sintesi deve rendere conto principalmente proprio della rete di dipendenze. Questo è possibile attraverso la metrica di Hotelling. Per una sintesi più sofisticata può essere preferibile uno strumento che si chiama Analisi delle Componenti Principali. Lo vedremo a breve.

Variabilità

Variabilità = Informazione

Riprendiamo il filo interrotto, un po’ romanzando, parecchio semplificando e pure sforbiciando qua e là. Ripartiamo dal concetto

VARIABILITA’ = INFORMAZIONE.

Si tratta di una equivalenza o di un’eguaglianza?

È una equivalenza tra due concetti, è una uguaglianza quando si misura la quantità di informazione, di una serie di dati, di una grandezza, tramite una misura di variabilità.

Un concetto analogo in campo sociale, diciamo amoroso, potrebbe essere:

VOLUBILITA'= INFORMAZIONE.

Più volubilità più informazione? Sarà anche vero, come è vero che se le ragazze sono tanto volubili daranno ai ragazzi altrettanta incertezza. Dunque dovremmo dire piuttosto:

Più Volubilità = Minore Certezza.

Abbiamo anche sospettato che il principio non funzionasse per un singolo dato. In realtà, precisando che si tratta di Informazione di variabilità, è corretto dire che per un singolo dato l’informazione vale zero.

Ora proviamo a precisare. Per variabilità intendiamo la capacità di una grandezza, osservata su un collettivo (di N unità), di prendere valori differenti. Cosa intendiamo per Informazione? È informazione una notizia, una nozione e anche un dato. Wikipedia definisce l’informazione come un insieme di dati coordinati tra loro con cui un’idea viene comunicata. Viene da chiedersi: può, una serie di dati (una grandezza) essere utile, fornire informazione sulla questione oggetto di studio? Una serie di dati (una grandezza) ne sa qualcosa della situazione?

Dipende. Sì, se è possibile calare la serie nel contesto, se si trova il modo di ancorarla al contesto. Noi lo facciamo con una definizione. Definiamo informativa una serie di dati (una grandezza) quando, alla luce della situazione, può essere interpretata o come punteggi di merito o come penalità.

Vedremo, tra poco, che anche la posizione di un dato è informazione (informazione di posizione) e pure la rete di relazione tra serie di dati è informazione (informazione di dipendenza).

Divagazione

Pierino, le mele e i confronti orizzontali

Permettete una divagazione che può servire per introdurre i confronti orizzontali. (Da giovane a scuola ero forte in fatto di divagazioni. Infatti prendevo regolarmente cinque in italiano perché andavo fuori tema.) Un giorno la mia maestra si è raccomandata:

- Ragazzi, non sommate le pere con le mele! Pierino, che credevo sempre distratto, dall’ultimo banco interviene:

- Perché maestra? 7 mele e 5 pere fanno 12 frutti.

- Sì Pierino, ma tu non metterli insieme. Pensa se ci sono anche le patate? Non mettere tutto insieme!

- Perché no? - chiede Pierino.

- Perché lo dico io! - impone la maestra.

- Ma allora non vale! - lamenta Pierino. Pierino insiste:

- Perché no, maestra? 7 kg di mele, 5 kg di pere e 3 kg di patate fanno 15 kg di spesa.

- Sì Pierino, però ora basta, eh? - lamenta la maestra.

- Sì maestra, forse intende che se metto tutto insieme le pere si rovinano perché potrebbero essere più mature. Noi, infatti, facciamo la raccolta differenziata.

- Differita Pierino. Meglio di no, Pierino. Non funziona sempre! – ammoniva la maestra – in effetti se ti alleni per 2 ore e vai a 8 minuti al km, come fai a mettere tutto insieme?

- Faccio 2 per 8, maestra. Ho fatto 16 km. - insiste Pierino.

- Sì, Pierino, ma non fare 2 più 8! – precisa la maestra – se fai 2 più otto non sai dire cos’è dieci, dieci cosa?

Chi ha ragione? Pierino o la maestra? A scuola davo ragione alla maestra, in strada ascoltavo Pierino. Col tempo ho capito che per trarre qualche conclusione utile DEVO confrontare anche grandezze diverse.

Dispersion

The measure of relative position, the measures of dispersion, standard deviation, absolute deviation, and that of variability

We ended 2023 a bit hastily by looking at a multidimensional situation prematurely and thus risked losing most of you readers. Let's make a fresh start with our feet on the ground, one step at a time, trying to limit the formulas as much as we can. Previously we harshly criticized the classical measure of variability in use, variance, essentially due to an unforgivable flaw (if you will pardon my directness): Exaggerate the extreme gaps and compress the more central gaps and you overestimate their variability: by how much we will see later. Don't be alarmed beforehand, variance is capable of resurrecting itself like the mythical bird, the Arabian Phoenix, symbol of rebirth. We can continue to use σ by stating that it is an overestimation. How?

Comparing the standard deviation, σ, with the absolute deviation, δ, assuming that it is a question of measures of dispersion, not of variability exactly. Here a variability measure, ϒ, is added, the mean of the irregularities of the detachments.

As an example, let's consider the measure of relative position, E(X), the measures of dispersion, standard deviation, σ, absolute deviation, δ and that of variability γ, referring to the five series relating to the European parameters (transformed according to PnP):

E(X)

σ

%

δ

%

sovrastima

ϒ

%

tPIL

26,6 I

19,5

15,2 V

13,6

13,5 V

43,4

2,012

39,0 I

t|DEF|

61,9 IV

30,5

23,8 I

25,1

24,9 I

21,5

1,042

20,2 II

tDEB

60,2 III

26,7

20,8 III

21,8

21,5 III

23,0

0,742

14,4 IV

tINF

72,1 V

24,7

19,3 IV

18,5

18,3 IV

33,5

0,900

17,4 III

tOCC

51,4 II

26,7

20,8 II

22,1

21,9 II

20,8

0,462

9,0 V

The position ranking, (E(X)), is innovative, the other two indicate agreement on the choices of any priority interventions presumably recommended/advised at the time. The relative position, E(X), evaluates Europe's margin for improvement in the year of reference of each quantity, suggesting the priorities of any interventions. These are, to be precise: GDP, Employment, Debt, Deficit, and Inflation, in that order.

As regards dispersion, σ and δ give information about the disparity between one country and another. The priorities identified derive from the sequence: Deficit, Employment, Debt, Inflation and GDP, in the order, which is in agreement with that which was presumably recommended at the time at European level. The over-estimations via the standard deviations, σ, on the information capacity of the five parameters do not seem at all negligible compared to the absolute deviations, δ. Note how the variability measure γ instead proposes a different sequence with respect to the intervention priorities, namely: GDP, Deficit, Inflation, Debt and Employment. This should make you think.

Il Paradosso della Variabilità

Paradosso della Variabilità

Buon giorno, bentornati. Spero siate tutti in grande forma. Ora vi aspetta un paradosso che si rifiuta di fornire indicazioni sufficienti. Infatti si vorrebbe che qualche giovane appassionato si cimentasse su queste tematiche. I risultati ammissibili sono alla portata di tutti gli uomini di buona volontà. Perciò sono ridotto a disattendere le promesse fatte a mia nipote: pure lei dovrà metterci del suo. Il fatto è che questo Blog, iniziato per sfida, quasi per gioco, sta diventando talmente serio che rischia di diventare il mio testamento scientifico.

Paradosso della variabilità:

La variabilità di una serie di dati quantitativi si misura adeguatamente attraverso la varianza.

Siamo sicuri? Ora lo vediamo.

Dalle variazioni alla variabilità

In questa sede si contesta il fatto che il crescere di una dimensione possa essere rappresentato adeguatamente tramite la varianza in quanto questa opera su un certo tipo di variazioni: sugli scarti dalla media. Gli scarti dalla media sono soltanto variazioni particolari che individuano una sorta di balletto. La variabilità è un concetto più ampio che dovrebbe intendere di per sé un muovere. La variabilità di una grandezza, oltre alla sua capacità di prendere valori differenti, non dovrebbe necessitare di specificazioni, pretende però di avere a che fare con il suo variare, con il suo evolvere, con il suo crescere. Infatti si è spesso interessati a capire cosa succede a una o più altre serie proprio al crescere della serie di partenza (non si è interessati a capire come balla una serie al ballare di un’altra). La variabilità, almeno quella qui intesa, è invece la capacità di correre lungo un campo di realizzazione, non attorno a un punto sia pure dotato di proprietà particolari. Il variare di una grandezza dovrebbe essere inteso come il suo muovere, il suo evolvere, solitamente il suo crescere, verosimilmente interpretabile rispetto al contesto.

Infatti la varianza è colpevole su due fronti:

1) Misura come balla una serie di dati attorno al suo baricentro, ossia lavora sulle variazioni, quando invece, con tutto il rispetto nei confronti del baricentro, dovrebbe misurare come muove la serie, come corre, come evolve, come cresce: cioè la sua capacità di variare, di evolvere, la sua variabilità effettiva;

2) Inoltre, elevando al quadrato, distorce gli scarti esagerando così l’importanza di quelli elevati a danno degli altri. Si ha un bel dire che poi si va a farne la radice quadrata scegliendo la soluzione positiva (σ) in modo da riportare il tutto all’unità di misura, ma ciò non è in grado di rimediare al danno ormai combinato. Non a caso è stato proposto in alternativa, ma con scarso successo, la media dei valori assoluti degli scarti la quale comunque risolverebbe il secondo fronte, ma non il primo.

Quanto detto dimostra che la varianza non è adeguata a misurare la variabilità di una serie di dati.

Perciò si sconsiglia l’uso della varianza () e dei suoi derivati, deviazione standard (σ) e coefficiente di variazione (C.V.), per non parlare delle innumerevoli metodiche basate su tale misura, per evidenti problemi concettuali coinvolti, a mia conoscenza mai rilevati né messi in discussione nella letteratura metodologica (Si sorvola sui momenti diversi dal primo e dal secondo). Siccome gran parte della metodologia attuale si basa sulla varianza si può immaginare lo stato della scienza dei dati contemporanea, per non parlare della ricerca scientifica.

La Scienza dei Dati deve ancora nascere. La Scienza dei Dati ha bisogno di sostanza e di coscienza. Buon lavoro!

Un confronto

Ecco che già mi pento di aver limitato le spiegazioni: perciò propongo di mettere il tutto a confronto con l’esempio relativo alla situazione economica dei paesi EU27. Ho in mente una misura di variabilità (indicata con il simbolo Δ), che si può chiamare elementare, che non definirò, di facile calcolo per le grandezze elementari (in precedenza chiamate informative), quelle che ammettono interpretazione univoca rispetto alla situazione in analisi, ma, con un aggiustamento opportuno, adattabile a tutte le altre (non elementari). Sta a Voi indovinare la misura di variabilità elementare utilizzata o trovarne una adeguata.

Si osservi la tabella seguente:

Serie
media
σ
C.V.
%C.V
%

Notare che il coefficiente di variazione non permette un confronto completo tra le cinque dimensioni mentre, attraverso la misura di variabilità relativa elementare (Δ) è possibile valutare i pesi delle grandezze coinvolte. Questo permetterebbe di individuare quale area meriti un intervento prioritario essendo ogni dimensione diversamente informativa: lo dicono le serie registrate. La variabilità relativa (C.V.) non permette una risposta dato che una dimensione possiede un valore medio prossimo allo zero (-0,107). La %C.V. si limita a considerare le altre quattro grandezze. La variabilità classica lascia primeggiare l’Inflazione e fa perdere terreno all’Occupazione risultando entrambe ben lontano dal 25% atteso. La variabilità relativa elementare fornisce invece i valori. La variabilità relativa elementare rende più informativi il Deficit e l’Inflazione: ben lontani dal 20% atteso.

Ho incautamente promesso a mia nipote di arrivare a otto paradossi: sarebbe un bel ottovolante. Si capisce che una giostra di questo tipo di certo non vola né, tantomeno, pretende di arrivare da qualche parte.

PIL

98,3

44,7

46,65

24,6

16,9

DEF

-0,107

2,64

?

-

36,1

DEB

43,3

26,7

61,57

33,2

17,5

INFL

3,33

2,32

69,67

37,4

26,7

OCC

66,2

6

9,07

4,9

2,8

Il Paradosso della Scienza dei Dati

Paradosso della Scienza dei Dati

Un paradosso è una frase, un’affermazione, che sembra accettabile, ma che non lo è, perciò sorprende il lettore. Il termine paradosso deriva da para=contro e doxa=opinione. Dunque: contro l’opinione comune, contro l’evidenza, contro l’intuito. Tale paradosso ha a che fare con il concetto di variabilità al quale si propone di affiancare quello di crescita, un tipo di variabilità speciale, con il quale un quantum (di variabilità) viene riempito anche da un sensum, un significato rispetto al contesto.

Mentre la variabilità classica riguarda il ballare di una serie attorno al suo baricentro (senza badare agli obiettivi dell’analisi né a ciò che succede alle altre grandezze in gioco) la crescita esprime come si muove la serie nel suo andare dal minimo al massimo e questo permette di coinvolgere il contesto, di valutare il contributo qualitativo della serie all’analisi in modo da poter valutare gli effetti sulle altre grandezze coinvolte, cose che la variabilità classica non è in grado di fare.

Il Paradosso della Scienza dei Dati è il seguente:

"Una serie di dati quantitativi (xi1,1≤i≤n;i,nϵN)(x_{i1},1\leq i \leq n; i,n\epsilon N)(xi1​,1≤i≤n;i,nϵN)riferita a una grandezza (X1)(X_1)(X1​)scelta con cura e rilevata correttamente ha le carte in regola per entrare di diritto nell’analisi".

Si consideri, come esempio, l’età delle piante di un certo tipo in un contesto di produzione. L’età rispetto alla produzione, è una grandezza che merita di entrare di diritto nell’analisi perché è una scelta ragionevole e può essere rilevata correttamente su un collettivo di piante. Lo sanno tutti! È matematico! Invece può essere un paradosso! Infatti a decidere se una serie di dati, e quindi una grandezza, ha diritto di far parte dell’analisi è il contesto, gli obiettivi dello studio.

Cosa si intende con "Entrare di diritto nell’analisi"? Ché poi non si dica che vi stanno imbrogliando le carte o tendendo una trappola! Significa rendere conto automaticamente del fenomeno osservato, si dirà cioè che la serie è franca (adatta, affidabile, utile) rispetto alla situazione e perciò ha diritto di entrare nell’analisi.

Davvero una serie (X1)(X_1)(X1​)con le caratteristiche suddette è in grado di servire, di esprimersi nell’analisi? Di certo la serie fornisce i momenti, dei quantum importanti, dai quali ricavare, ad esempio, la deviazione standard e il coefficiente di variazione: quantum di variabilità della serie, assoluto e relativo rispettivamente. Ma il variare necessita, oltre che di un quantum, anche di un sensum, di un significato qualitativo e questo lo può dare solo il contesto. Ora la variabilità misura quanto balla la serie attorno al baricentro: lo fa in modo autoreferenziale, cioè senza tener conto della situazione né delle altre serie in gioco. Esiste un altro modo di considerare la variabilità, del tutto trascurato in letteratura: il muovere della serie dal minimo al massimo.

Più precisamente il crescere della serie ordinata (x(i)1)(x_{(i)1})(x(i)1​)che è dato dal muovere, dal passaggio, da un valore al successivo più grande. Si consideri che il crescere è anche il riferimento base per valutare il comportamento delle altre (k−1)(k-1)(k−1) serie coinvolte (Xj,1<j≤k;j,kϵN)(X_j, 1 <j\leq k;j ,k\epsilon N)(Xj​,1<j≤k;j,kϵN). A differenza della variabilità classica la crescita fornisce il modo per coinvolgere il contesto e ciò rende lecito il valutare gli effetti sulle altre grandezze presenti.

La variabilità non è in grado di chiarire quale sia il rapporto con il contesto né quale sia il contributo qualitativo della serie all’analisi. Lo può fare la crescita, vediamo come. La serie ordinata entra di diritto quando è franca (adatta, affidabile) rispetto alla situazione: avviene quando la valutazione qualitativa, rispetto alle aspettative, dei passaggi (del muovere) da un valore all’altro, purché differenti, risulta univoca, cioè quando li classifica come tutti favorevoli (promettenti), rispetto alle aspettative, oppure come tutti sfavorevoli (non promettenti).

L'esempio del Faggio

Come esempio, si consideri l’età delle piante di faggio ai fini della produzione di legno. Siccome ci si aspetta che al crescere dell’età il peso della pianta, mediamente, aumenti, i passaggi di età, da un valore all’altro più elevato, hanno tutti un significato, e uno soltanto, nel senso che sono tutti interpretabili (agli effetti della produzione di legno) come promettenti (favorevoli) in modo univoco, inequivocabile. Dunque l’età delle piante di faggio è franca (univoca, non ambigua) rispetto alla situazione.

L'esempio del Melo

Invece l’età delle piante di melo di varietà Golden, in un contesto di produzione di mele, presenta passaggi di età, da un valore all’altro più elevato, inizialmente, fino ai 12/15 anni, interpretabili come promettenti (in questo primo periodo la pianta produce mediamente via via sempre di più), successivamente risultano non promettenti (nel secondo periodo la pianta produce mediamente via via sempre di meno). L’età delle piante di melo non è franca rispetto alla situazione. In questo caso l’età delle piante di melo non è valida per l’analisi in corso, non è in grado di mettere la sua variabilità al servizio dell’analisi. Solo una grandezza franca può apportare la propria variabilità all’analisi.

L'esempio UE27, I conti di Bruxelles

Nell’esempio UE27 (I conti di Bruxelles), rispetto a una politica di ragionevole equilibrio del Disavanzo, punto di riferimento di ogni politica seria, i passaggi del Disavanzo nel primo tratto della serie ordinata, quello negativo, sono favorevoli (si riduce il disavanzo negativo, l’equilibrio si avvicina), nel secondo tratto, quello positivo, risultano sfavorevoli (aumenta il disavanzo positivo, l’equilibrio si allontana). Dunque i passaggi del Disavanzo non sono tutti promettenti e perciò la serie non è franca. Le grandezze Pil e Occupazione sono franche perché presentano passaggi tutti favorevoli (univocamente favorevoli/promettenti) rispetto al contesto di benessere socio-economico-finanziario. La grandezza Debito presenta passaggi tutti sfavorevoli (univocamente sfavorevoli/non promettenti): perciò anche il Debito è una grandezza franca. Per il tasso di Inflazione, a volte, si decide di tollerare la presenza di una soglia, ad esempio pari all’1%, entro la quale il tasso può ritenersi accettabile. In questo caso i passaggi del tasso di Inflazione sono favorevoli soltanto per valori inferiori all’unità, per valori sopra l’unità diventano sfavorevoli.

L’importanza del concetto di crescere sta nel fatto che esso, non la variabilità classica, coinvolge l’analisi e le altre grandezze in gioco. È il caso di sottolineare che la metodologia insegna come valutare il comportamento delle altre grandezze presenti proprio "al crescere di X1X_1X1​". Perciò "al crescere di X1X_1X1​" deve essere chiarito in tutti i suoi aspetti, in particolare se è dotato di significato univoco rispetto all’analisi, perciò franco (affidabile). Allora si dirà franca la serie e franca la grandezza. In caso contrario la grandezza va separata dall’analisi perché confondente, risultando ambiguo il suo significato. Naturalmente il ragionamento va esteso a tutte le k grandezze oggetto di studio. In sostanza è a partire dalla crescita di una grandezza ordinata, e non dalla variabilità, che si può rendere conto degli effetti sulle altre grandezze in gioco.

Cosa sostengo

Volendo riassumere, in questa comunicazione si sostiene che:

Una serie di dati è adatta all’analisi (si dirà che è franca) se, e solo se, nel percorrere la serie ordinata (x(i)1)(x_{(i)1})(x(i)1​)il muovere da un valore a quello immediatamente più elevato, risulta sempre promettente rispetto alle attese (concorde con gli obiettivi) oppure sempre non promettente (discorde rispetto agli obiettivi).

In sostanza:

Una serie (e la grandezza corrispondente) è franca (affidabile, cioè che serve all’analisi) quando, e solo quando, tutti i passaggi da un valore al successivo più grande sono migliorativi rispetto alle aspettative dell’analisi, oppure quando sono tutti peggiorativi.

La morale di questo argomentare

La morale di questo argomentare è la seguente: si può studiare il comportamento di altre grandezze al variare della serie (X1)(X_1)(X1​) in questione se, e solo se, il suo crescere è interpretabile univocamente, quando cioè la serie è franca, affidabile. In pratica si deve essere molto severi, molto esigenti. Non basta guardare ‘come balla’ la serie, serve capire ‘come muove’, anzi, più precisamente, ‘come cresce’.

Ricapitolando

Ricapitolando, il variare è la capacità di prendere valori differenti. Si considerino i valori ordinati dal più piccolo al più grande (in senso non decrescente). I valori ordinati esprimono il crescere della serie. Con quale significato? I passaggi da un valore al successivo più elevato possono essere promettenti o meno rispetto alle aspettative dell’analisi: possono assumere due modalità opposte. Quando tali passaggi sono o tutti promettenti o tutti non promettenti, rispetto alle aspettative, si è in grado di cogliere il significato complessivo del comportamento della serie. In questo caso si dirà che il significato è univoco. Perciò la serie e la grandezza di riferimento possono dirsi franche e in caso contrario ambigue.

Si può trovare facilmente una trasformata tale da rendere franca una serie che non lo è (basta prendere la distanza dal punto di riferimento: nell’esempio delle mele è dato dall’età critica). Si può dimostrare che la franchezza garantisce la presenza di effetti di primo grado e quindi la possibilità di stimare correttamente la struttura di inter-correlazione tra le grandezze.

Con tutto ciò si conclude che non è vero che una grandezza, per quanto scelta e osservata con cura, automaticamente, entri di diritto nell’analisi! Ecco il paradosso! L’affermazione iniziale vale solo in presenza di grandezze franche.

Va osservato infine che le altezze dei gradini della scala, associati alla serie ordinata, gi1=x(i+1)1−x(i)1(1≤i≤n−1)g_{i1}=x_{(i+1)1}-x_{(i)1} (1\leq i \leq n-1)gi1​=x(i+1)1​−x(i)1​(1≤i≤n−1), hanno come baricentro della crescita g‾1=1(n−1)(xmax,1−xmin,1)\overline{g}_1=\cfrac{1}{(n-1)} (x_{max,1} -x_{min,1})g​1​=(n−1)1​(xmax,1​−xmin,1​), dove xmax=x(n)x_{max}=x_{(n)}xmax​=x(n)​ e xmin=x(1)′x_{min}=x_{(1)'}xmin​=x(1)′​ che rappresenta una misura di variabilità alternativa alla deviazione standard; mentre il coefficiente di crescita relativa, C.C.=g‾1/x‾1C.C. =\overline{g}_1 / \overline{x}_1C.C.=g​1​/x1​ , è una misura alternativa al coefficiente di variazione.

A Robust Variance

A robust variance for non-sample case

The refoundation of the Data Science must do accounting with the robust variance metric here suggested. Robustness, a sample estimator property with respect to tone down hypothesis, here about the deviation squaring metric, is intended respect the variance abnormal effects already reported. The variance adopts a metric that has a superiority complex. At the same time, the absolute deviation suffers from the opposite problem: an inferiority complex: it certainly appears timid and haughty, while, in a certain sense, it fails to take a stand. With this idea in mind we suggests, for an X variable observed on N-unit collective, a class of robust-variances: , with, , where is an increasing function in the negative real segment and a decreasing one in the positive one thus producing opposite effects on the deviations with respect to the variance. This would amount to a re-match victory for the deviations which occupy central positions in order to snub the lateral deviations, as defined afterwards. In we prefer what can be called a robust variance: where α is a modulator parameter of the squaring defects using the ratio between the reciprocal of the absolute deviation, and the absolute deviation, .

First, let's see how two different types of deviations behave: standardized, zX , and normalized, tX, with PnP transformation (from non-preferred to preferred), in percentage, relative to the five parameters provided by Brussels and already considered previously.

zX

min≤max

%||<1

zPil

1

0.695

V

-1.4≤3.8

74

0.390

V

0.389

zDeficit

1

0.782

III

-1.9≤2.0

67

0.564

III

0.228

zDebt

1

0.816

II

-1.5≤2.3

67

0.632

II

0.210

zInflaction

1

0.752

IV

-1.2≤3.0

70

0.504

IV

0.778

zEmployment

1

0.830

I

-2.0≤1.9

63

0.660

I

0.091

We can call those deviations whose absolute value is less than its unity, here typically 66%, central deviations; those deviations which have an absolute value greater than one, here 34%, however, we will call lateral deviations. The central deviations are strongly scaled down by the squaring produced by the variance and the lateral deviations are overstated. This is the impact of variance as a metric. Therefore, the robust variance may be preferable, suggested as an alternative, or, if preferred, as a culmination. We note that α almost halved the squared defects (0.43 precisely). The European parameter with greater variability, like Inflection and Debt, needed priority interventions, rather than Employment and Debt, as absolute deviation indicates. In fact,robust deviation, do not agrees with the absolute deviation, δ.The overestimation effect can be summarized as follows: the standard deviation, σ, is on average 1.29 times the absolute deviation, δ, and 2.28 times the robust deviation,, while δ is, on average, 1.77 times bigger . When considering deviations, or rather PnP on a percentage scale, things are different on worthwhile variables such as classifications (a scale which ranges from non-preferable to preferable):

min≤max

%|x|<|1|

tPil

19.50

13.57

V

-27≤74

0

7.64

V

0.558

tDeficitD*

30.46

25.06

I

-62≤38

0

19.66

I

0.290

tDebt

26.66

21.76

III

-60≤40

3.7

16.86

III

0.219

tInflaction

24.65

18.53

IV

-72≤28

0

12.41

IV

0.782

tEmployment

26.65

22.13

II

-52≤49

3.7

17.60

II

0.090

* tDeficitD = tDeficit distance from zero

In this second case it can be verified that the quadratic effect contracts 1.5% of central deviations, on average, while it typically dilates 98.5% of lateral deviations. The robust deviation, , do not agrees with the absolute deviation,, as in the previous case. The overestimation effect agrees with the previous one. The robust Pnp case requires priority interventions on Deficit and Inflation (not in Inflation and Pil like in standardized case).

Conclusioni

Si dovrebbe dire piuttosto: Variabilità => Informazione. La variabilità può portare informazione. La variabilità di una serie, sotto le condizioni suggerite, porta all’analisi una informazione di Variabilità relativa singola (%C.V.)(\%C.V.)(%C.V.)e una informazione di variabilità relativa congiunta (%I2)(\%I^2)(%I2). Anche la Posizione porta informazione (informazione di Posizione). Così la rete di Relazioni porta informazione (informazione di dipendenza). Questi sono i quattro tipi principali di Informazione trattati in questo Blog.

Puntata n.4 del 2024

A caccia dell'Informazione contenuta in una serie di dati quantitativi

Benvenuti a questa uscita invernale. Siete sicuri di voler continuare a leggere questo blog? Avverto che rischiate di perdere sonni tranquilli. Si pretende di andare oltre la varianza, attualmente strumento cardine della Scienza dei Dati e della Ricerca Scientifica.

Mi sono deciso a raccontarvi la mia misura di variabilità, ottenuta tramite una metrica semplice, come lo può essere ad esempio una media di dati osservati, che chiamo deviazione semplice, da contrapporre alla deviazione standard.

Come esempio applicativo presento un modo di costruire una tavola riassuntiva opportunamente articolata in grado di descrivere compiutamente il fenomeno quantitativo a cinque dimensioni descritto dagli indicatori europei in un dato anno.

Kendall e Stuart (1997, vol. 1, pag. 42) assolvono la varianza pur ammettendo che possa sembrare un po’ artificiale. Qui invece la si considera imperdonabilmente del tutto artificiale perché esagera gli scarti elevati e rimpicciolisce quelli piccoli.

Come se non bastasse spesso si spaccia la dispersione per variabilità quando quest’ultima può dirsi piuttosto più vicina all’idea di evoluzione.

Con tutto il rispetto per Sir Ronald Fisher è tempo che questo punto venga processato a dovere.

A onore del vero va detto che esiste già una misura di deviazione semplice, la deviazione media assoluta, ma, come la deviazione standard, misura la dispersione non la variabilità.

Una Teoria dei distacchi

Con “Il crescere della serie T” si intende un crescere migliorativo, ragionato. Come cresce la serie? A distacchi, a scatti, a gradini disordinati. Allora si tratta di misurare il disordine, la diversità, l’irregolarità, cioè l’informazione.

Lasciando da parte l’entropia che si usa in altri ambiti, il disordine viene qui misurato come una media delle irregolarità come verrà chiarito a breve.

Per ottenere una metrica adatta questo blog intende contrapporre all’idea degli scarti, che porta alla varianza e ai suoi derivati, un’idea degli stacchi conseguiti (ovvero distacchi) rispetto all’unità che insegue o, equivalentemente, degli scatti ipotetici necessari a ogni unità per raggiungere quella che precede.

Dunque basterebbe riassumere i distacchi con una media, senonché:

  1. Bisogna cautelarsi in modo che tutte le grandezze siano leggibili come distacchi;

  2. Le grandezze devono essere dimensionalmente comparabili;

  3. Le grandezze devono avere la stessa direzione, cioè tutte migliorative.

Le tre condizioni sono soddisfatte da variabili assimilabili a una classifica, quelle che chiamo direttamente informative. Altrimenti si possono rendere tali utilizzando la distanza dal valore preferibile.

Vediamo di che si tratta per una singola serie quantitativa X rilevata su un collettivo di N unità. Il crescere di X (non avvalorato dal contesto) è un concetto prettamente numerico. Per andare oltre è utile passare a un crescere migliorativo che permette di coinvolgere lo scopo dell’analisi.

Come misurare il crescere migliorativo? A costo di ripetizioni i passi preliminari necessari per ogni serie sono e seguenti:

  1. Si verifica se la situazione è in grado di conferire alla grandezza una connotazione di classifica;

  2. Si calcolano le distanze relative, T, dal valore non preferibile (trasformata PnP). Si estende il calcolo a tutte le k serie (la tabella A più avanti ne è un esempio).

  3. Si vedrà come riassumere sia le colonne, con μc,σc,γc\mu_c,\sigma_c,\gamma_cμc​,σc​,γc​ , che le righe, con μr′,σr′,γr′\mu'_r,\sigma'_r,\gamma'_rμr′​,σr′​,γr′​.

Si consigliata una tabella come la A nelle situazioni in cui le grandezze presentano una struttura di inter-correlazione debole o contenuta e la si raccomanda comunque come stadio intermedio di ogni analisi.

Per ora le cose stanno nei termini che seguono. Per una serie di dati esiste a misura di variabilità? Esiste sotto certe condizioni:

  1. Quando la serie è assimilabile a una classifica (altrove è stata definita anche come direttamente informativa); e

  2. Quando la classifica prende senso dalla situazione in esame.

Infatti, quando ciò si verifica, la serie genera una serie di distacchi, cioè le distanze di ciascun dato dal primo degli inseguitori.

Si può dimostrare che la serie di distacchi non è meno informativa della serie di provenienza.

Questa è la chiave di volta che permette la chiusura dell’arco o, se preferite, del ragionamento.

Ecco che allora una media di questi distacchi è una misura di variabilità della serie. Dunque, almeno una soluzione esiste. Ma nel caso a più dimensioni questo non funziona. Infatti con più grandezze si dovrà ridimensionarle, si consiglia con PnP, in modo che tutte abbiano un crescendo favorevole e insistano sulla stessa scala, da 1 a 100. In questo modo però le medie dei distacchi si equivalgono dato che essi assommano a cento. Però, la serie di distacchi genera, a sua volta, una nuova serie di distacchi che conviene chiamare irregolarità.

La media delle irregolarità fornisce la misura che cerchiamo.

Ripetiamo il tutto ancora una volta:

  1. Distacco è la distanza di ciascun dato dal primo degli inseguitori;

  2. I distacchi hanno senso in situazioni di classifica (per questo le classifiche si possono chiamare direttamente informative);

  3. Ogni classifica riceve senso dalla situazione oggetto di studio;

  4. In situazioni di classifica ogni serie di dati genera una serie di distacchi sensata;

  5. Si può dimostrare che una serie di distacchi ha una variabilità non minore della serie che l’ha generata;

  6. Una media dei distacchi di una singola serie è una misura di variabilità;

  7. Con più grandezze, dovendo ridimensionarle (con PnP) quanto detto non funziona;

  8. Si sfruttano perciò le irregolarità dei distacchi: ciascuna media delle irregolarità è una misura di variabilità.

Si mostra ora come riassumere k serie disponibili (esempio: tavola A) sia verticalmente che orizzontalmente.

Una tavola speciale, nuova a prescindere dalla metrica accennata, che permette sia una sintesi verticale che una orizzontale.

Nuova perché necessita di:

  1. Una trasformata, che plotta i dati nel range 0-100, da chiamarsi preferibile-non-preferibile (PnP), che coinvolge la situazione oggetto di analisi;

  2. Di grandezze orientate nella direzione migliorativa;

  3. Di grandezze comparabili dimensionalmente. Va detto che la trasformata minimax, che opera un cambiamento di scala in modo da piazzare i dati nel range 0-1, o 0-100, è soltanto numerica perché non coinvolge il contesto e non si cura dell’orientamento delle grandezze.

In realtà le chiavi di volta di questa pagina sono due:

  1. è già stata formulata;

  2. l’altra è: Esistono serie che non sono immediatamente leggibili come distacchi; come dire che vi sono grandezze direttamente informative e altre che lo sono solo indirettamente. Questo fatto mette in evidenza l’esistenza di due tipi di grandezze mai rilevate nella letteratura. Se una serie non è assimilabile a una classifica lo diventa la serie delle distanze dal valore preferibile.

Tutto nasce da una richiesta fondamentale della ricerca:

“Cosa succede al variare di ciascuna grandezza quantitativa coinvolta?”

Per ora poniamo l’attenzione solo sulla seconda parte della frase: al variare di ciascuna grandezza.

Siamo sicuri di aver inteso cosa significa? È davvero così scontato? Serve qualche precisazione.

Viene chiamata in causa la variabilità solitamente intesa come capacità di prendere valori differenti: un concetto definito in modo, a dir poco, generico.

Questo rappresenta un aspetto cruciale dato che la variabilità ha a che fare con l’informazione che la grandezza dovrebbe apportare all’analisi.

Si deve precisare:

  • quale informazione?

  • su che cosa?

  • rispetto a cosa?

  • e come misurarla?

Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso.

Questo succede quando viene calata nel contesto, quando riceve interpretazione tramite la situazione. Il variare, inteso come il percorrere la serie da un minimo a un massimo, non ha niente a che fare con il ballare attorno a un punto, come riferiscono certi strumenti, varianza compresa.

Ora, piuttosto che al variare di… è più idoneo chiedersi al crescere di… Ma questa precisazione non soddisfa appieno. Infatti il crescere è un concetto ancora prettamente numerico. Come fare? Si fa intervenire la situazione oggetto di analisi dato che ogni grandezza dovrebbe essere informativa proprio rispetto al contesto. Così facendo si potrà parlare di grandezze con crescita migliorativa o peggiorativa o indecidibile: distinzione che risulta del tutto inesistente per la letteratura scientifica attuale.

Le grandezze leggibili come distacchi presentano infatti crescita migliorativa o peggiorativa: vengono qui chiamate direttamente informative.

Quelle a crescita indecidibile possono dirsi indirettamente informative, tanto che, per queste ultime, si ritiene non abbia senso misurarne la variabilità e perciò andrebbero rese direttamente informative o separate dall’analisi.

Una grandezza viene qui definita a crescita migliorativa quando ammette una osservazione non preferibile in corrispondenza del minimo osservato; mentre si dirà a crescita peggiorativa quando tale valore corrisponde al massimo. Quelle con crescita indecidibile presentano un valore preferibile interno al range.

Si noti che mentre il crescere rimane un concetto numerico il crescere migliorativo acquista significato e valore. In altre parole, dato che tutte le grandezze vanno da un minimo a un massimo, non basta un crescere numerico per parlare di informazione.

Applicando la trasformata Preferibile non Preferibile (PnP), cioè la distanza relativa dal valore non preferibile (proposta in precedenza in versione ridotta), ogni grandezza X viene indicata con T e può essere letta come dotata di crescita migliorativa e perciò trattata come direttamente informativa. Le grandezze indecidibili possono essere trasformate in peggiorative tramite la distanza dal valore preferibile. Così facendo tutte le grandezze si possono leggere con l’incipit al migliorare di T.

La tabella A per i 27 paesi Europei si presenta nel modo seguente:

Paesi\PnP%

tPIL

t|DEF|

tDEB

tINFL

tOCC

Classifica

Classifica

Classifica

Paese

AU

37,79

94,23

44,0

84,04

74,67

61,6

X

19,9

III

10,08

XVIII

AU

BE

35,30

96,15

19,6

88,30

32,89

39,6

XXIV

29,3

XII

13,32

XXV

BE

BU

0

100

85,3

26,6

31,56

47,7

X

41,1

XXVI

9,71

XVII

BU

CI

23,29

34,62

44,0

84,04

72,89

44,3

XX

34,7

XXIII

7,52

VI

CI

DA

36,13

7,69

77,3

89,36

100

70

V

26,7

VIII

7,70

VII

DA

ES

13,37

50,00

100

36,17

65,78

55,4

XII

31,8

XVIII

7,40

III

ES

FI

34,29

0

68,4

90,43

69,78

62

IX

21,6

IV

7,36

II

FI

FR

31,37

50,00

39,6

90,43

69,78

47,1

XVIII

33,3

XXI

7,41

IV

FR

GE

33,81

98,08

38,4

82,98

65,78

63,7

VII

28

IX

8,74

XIV

GE

GR

25,12

34,62

8,7

75,53

30,22

38,1

XXVI

29,8

XIV

7,78

VIII

GR

IR

49,32

98,08

78,7

76,60

64,44

73,1

II

18

II

8,52

XIII

IR

IT

28,00

73,08

0

86,17

18,22

41,1

XXIII

36,9

XXIV

10,46

XXI

IT

LE

9,00

100

94,0

0

60,89

52,1

XIV

45,9

XXVII

10,38

XX

LET

LI

9,70

78,85

86,5

45,74

45,78

56,2

XI

34,2

XXII

9,35

XVI

LIT

LU

100

40,38

96,5

78,72

42,77

71,2

III

28,1

X

12,09

XXIII

LU

MA

17,65

67,31

41,3

100

0

38,4

XXV

37,8

XXV

12,02

XXII

MA

PaBa

40,89

96,15

57,8

90.45

95,11

73,3

I

28,3

XI

16,80

XXVII

PaBa

POL

6,99

63,46

58,6

79,79

10,67

49,8

XXI

24

XIX

12,95

XXIV

PO

POR

16,95

51,92

39,9

81,91

58,67

43,7

XVI

32,9

VI

7,16

I

POR

ReUn

35,74

48,08

59,3

82,98

75,11

63,1

XV

29,5

XIII

7,45

V

ReCe

ReCe

18,74

82,69

74,6

75,53

51,11

52

VIII

30,7

XVII

8,36

XI

ReUn

RO

2,10

51,92

90,6

55,32

18,67

42,9

XXII

33,1

XX

7,88

IX

RO

SLOVA

12,96

65,38

74,1

87,23

27,11

46,1

XIX

30,7

XVI

9,10

XV

SLOVA

SLOVE

22,67

92,31

80,1

67,02

58,67

63,9

VI

26,3

VII

10,34

XIX

SLOVE

SP

29,75

59,62

67,3

77,66

48,89

53,9

XIII

17,8

I

7,99

X

SP

SV

37,09

32,69

63,1

89,36

87,11

70,3

IV

-22

V0

8,50

XII

SV

UN

11,05

5,77

37,7

23,40

12,00

29,7

XXVII

30

XV

16,55

XXVI

UN

26,6

62,0

39,8

72,1

51,4

Classifica

V°

II°

IV°

I°

III°

19,5

30,5

26,7

19,3

20,8

Classifica

II°

V°

IV°

I°

III°

1,88

0,93

0,13

0.94

0,48

Classifica

V°

III°

I°

IV°

II°

Nei riassunti verticali primeggiano la posizione dell’Inflazione seguita da quella del Deficit, … e l’irregolarità dei distacchi del Debito e dell’Occupazione, … (mentre la deviazione standard indicherebbe Inflazione e Pil):si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Pil, Debito, … e dell’irregolarità dei distacchi di Pil, Inflazione, … (e non di Debito, Occupazione, … come direbbe la deviazione standard).

Nei riassunti orizzontali primeggiano la posizione di Paesi Bassi, Irlanda, Svezia, Danimarca… e l’irregolarità dei distacchi di Portogallo, Finlandia, Estonia, Francia… (e non la deviazione standard di Spagna e Irlanda, Austria, Finlandia…): si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Ungheria, Grecia, Malta e Belgio… e dell’irregolarità dei distacchi di Paesi Bassi e Ungheria (e non di Lettonia, Bulgaria, Malta, Italia, … come direbbe la deviazione standard).

I valori in tabella segnano la posizione relativa raggiunta da ciascun paese per ciascuna grandezza. Ad esempio l’Italia si trova al 28% del range. Dalla riga di ogni paese si ricava un ordine di intervento auspicabile; ad esempio per Italia e Belgio è opportuno intervenire principalmente su Debito, Occupazione, Pil, … nell’ordine. Le colonne μr\mu_rμr​e γr\gamma_rγr​ suggeriscono le priorità di intervento da parte dei rispettivi paesi sulla posizione raggiunta come grandezze e come importanza delle stesse, rispettivamente.)

L’informazione promessa, gamma, sta nelle irregolarità dei distacchi (precisamente nuovi distacchi), viene chiamata deviazione semplice, ed è la misura da contrapporre alla deviazione standard classica.

(Qualche sostenitore della varianza potrebbe considerare la deviazione standard dei distacchi come una misura alternativa di dispersione).

La classifica μr\mu_rμr​ attribuisce all’Italia il XXIII° posto (meglio del Belgio) mentre l’irregolarità dei distacchi, γc′\gamma'_cγc′​, assegna il XXI° (meglio del Belgio e del Lussemburgo). Si noti, in tabella B, come siano diversi i pesi da assegnare alle grandezze: ad esempio, a differenza del coefficiente di variazione sui dati iniziali e della deviazione standard σc′%\sigma'_c\%σc′​%, la deviazione semplice γc′%\gamma'_c\%γc′​% proposta, che rappresenta il nuovo contributo di ciascuna grandezza all’analisi, fa primeggiare il PIL. Lascio a voi il confronto degli altri riassunti e la verifica di questi calcoli.

Tabella B

riassunti

PIL

|DEF|

DEB

INFL

OCC

112,8

2,22

27,46

3,78

69,56

58,19

1,93

16,75

2,81

4,61

26,6

62,0

39,8

72,1

51,4

19,5

30,5

26,7

19,3

20,8

3,70

3,70

3,70

3,70

3,70

0,097

0,052

0,045

0,056

0,035

17,3

29,1

23,5

26,6

3,5

15,2

23,8

20,8

19,3

20,8

34,0

18,3

15,8

19,7

12,3

1,88

0,93

O,13

0,94

0,48

43,1

21,3

3,0

21,6

11,0

Infine un dettaglio di calcolo delle irregolarità della prima grandezza, tPil:

Paese

Distacco

Irregolarità

Bulgaria

0

0

Estonia

0,3117

0,3117

Danimarca

0,3932

0,081485

Regno Unito

0,4369

0,043687

Finlandia

0,4806

0,043687

Cipro

0,6116

0,131062

Malta

0,699

0,087374

Austria

0,699

0

Lituania

0,699

0

Svezia

0,9611

0,262123

Belgio

1,0048

0,043687

Rep Ceca

1,0922

0,087374

Ungheria

1,3543

0,262123

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Slovacchia

1,9471

0,112276

Lettonia

2,0096

0,062473

Romania

2,097

0,087374

Germania

2,4465

0,349498

Italia

2,8834

0,436872

Paesi Bassi

3,1018

0,218436

Portogallo

3,5824

0,480559

Slovenia

3,9318

0,349498

Polonia

4,893

0,961118

Irlanda

8,4316

3,538663

Lussemburgo

50,6772

42,24552

Si accettano proposte alternative o aggiustamenti all’informazione lineare suggerita. La metrica qui proposta è una insinuazione irriverente nei confronti della Scienza dei Dati: Si tratta di una piccola breccia aperta in una muraglia antica. È solo un inizio, sto cercando sostituti per covarianza, correlazione, coefficiente di determinazione, tanto per citare qualche misura. Si vedrà. Speriamo prossimamente.

μr\mu_rμr​
μr\mu_rμr​
σr\sigma_rσr​
σr\sigma_rσr​
γr\gamma_rγr​
γr\gamma_rγr​
μr′\mu'_rμr′​
μc′\mu'_cμc′​
σc′%\sigma'_c\%σc′​%
σc′%\sigma'_c\%σc′​%
γc′\gamma'_cγc′​
γc′\gamma'_cγc′​
μc′(X)\mu'_c(X)μc′​(X)
σc′(X)\sigma'_c(X)σc′​(X)
μc′(tX)\mu'_c(tX)μc′​(tX)
σc′(tX)\sigma'_c(tX)σc′​(tX)
μc′(dtX)\mu'_c(dtX)μc′​(dtX)
σc′(dtX)\sigma'_c(dtX)σc′​(dtX)
CVc′(X)%CV'_c(X)\%CVc′​(X)%
σc′(tX)%\sigma'_c(tX)\%σc′​(tX)%
σc′(dtX)%\sigma'_c(dtX)\%σc′​(dtX)%
γc′\gamma'_cγc′​
γc′%\gamma'_c\%γc′​%

Un aggiustamento preferibile

Informazione di variabilità singola

L’informazione di ciascuna serie di dati, che possiamo chiamare informazione di variabilità singola (peso di ciascun parametro), è stata valutata attraverso il coefficiente di variabilità (%C.V.). Il limite di questa misura consiste nel fatto di essere unidimensionale. Una alternativa, che chiameremo informazione di variabilità congiunta, %I^2, perché tiene conto degli altri parametri in gioco, è fornita dalla quota di variabilità NON SPIEGATA dalle altre grandezze (Tesi Bertò, Università di Trento, 2012). La cinquina risulta nell’ordine: 18,7; 26,1; 18,4; 15,5; 21,4. Nella scelta unidimensionale dominava sPIL, in questa predomina s|DEF|.

Confronto

Il confronto orizzontale

Bruxelles può ricavare i coefficienti di variazione per le cinque grandezze osservate, nell’ordine:

45,4 76,2 61,6 69,7 9,1

ciò equivale ad assegnare ai cinque parametri i seguenti pesi (a somma uno):

17,3 29,1 23,5 26,6 3,5

Pesi che consideriamo inattesi in quanto era ragionevole prevedere valori dello stesso ordine di grandezza. I coefficienti di variazione per le grandezze situazionate risultano:

73,2 49,2 44,3 34,2 51,8

In termini di pesi (a somma uno) si ottiene: 31,3 19,5 17,5 13,5 20,5.

Questi ultimi appaiono più consoni alle attese. Riassumiamo la situazione austriaca (sulle 5 grandezze) per mettere in evidenza quanto sia più comprensibile la serie situazionata:

La cinquina austriaca osservata è:

Pil    |Deficit|  Debito  Inflaz.  Occup.
123,8  0,4        59,5    2,2      71,4

La cinquina austriaca situazionata è: 

37,8% 94,2% 44% 84% 74,7%

La cinquina austriaca situazionata è:

Pil    |Deficit|  Debito  Inflaz.  Occup.
37,8%  94,2%      44%     84%      74,7%

A questo punto abbiamo, servito su un piatto d’argento, un confronto orizzontale (tra grandezze rispetto a una singola unità) perfettamente valido (le grandezze situazionate sono comparabili per costruzione). Questo permette di capire su quali grandezze l’Austria ha conseguito risultati apprezzabili (Deficit e Inflazione) e quali parametri meritino, eventualmente, interventi prioritari (Pil e Debito). Naturalmente tutto questo lo possiamo estendere a tutti i 27 paesi. ​ Questo Blog può essere considerato come un corso introduttivo all’Analisi dei Dati. Riassumendo, abbiamo scoperto il ruolo delle grandezze informative. Abbiamo capito che a una informazione di variabilità si può associare anche una informazione di posizione. Ogni strumento di analisi che si intende adoperare va applicato sempre su grandezze situazionate. Abbiamo imparato a fare sia confronti verticali, tra unità su ciascuna grandezza, sia orizzontali, tra grandezze riferite alla stessa unità. Abbiamo visto come la normalizzazione proposta renda le grandezze direttamente informative, quindi comparabili, perché basate su distanze dal non preferibile. La mia maestra sarebbe fiera di noi e anche di Pierino. Per concludere si noti che una maggior variabilità (orizzontale) della cinquina comporta sia una maggiore informazione, sia una minor coerenza tra i cinque Ministeri coinvolti.

Quale paese presenta una variabilità intersettoriale maggiore?

Applicazione

Applicazione su cinque serie di dati europei

Consideriamo, i cinque parametri europei seguenti:

//
// Tavola 1,  I dati (Eurostat, 2007) 
//
Paese         Pil    Deficit    Debito	Inflaz.	Occup. 
Austria		123,8	-0,4	59,5	2,2	71,4
Belgio		118,1	-0,3	83,9	1,8	62
Bulgaria	37,3	0,1	18,2	7,6	61,7
Cipro		90,6	3,5	59,5	2,2	71
Danimarca	120	4,9	26,2	1,7	77,1
Estonia		67,9	2,7	3,5	6,7	69,4
Finlandia	115,8	5,3	35,1	1,6	70,3
Francia		109,1	-2,7	63,9	1,6	70,3
Germania	114,7	-0,2	65,1	2,3	69,4
Grecia		94,8	-3,5	94,8	3	61,4
Irlanda		150,2	0,2	24,8	2,9	69,1
Italia		101,4	-1,5	103,5	2	58,7
Lettonia	57,9	0,1	9,5	10,1	68,3 
Lituania	59,5	-1,2	17	5,8	64,9 
Lussemburgo	266,2	3,2	7	2,7	64,2
Malta		77,7	-1,8	62,2	0,7	54,6
Paesi Bassi	130,9	0,3	45,7	1,6	76
Polonia		53,3	-2	44,9	2,6	57
Portogallo	76,1	-2,6	63,6	2,4	67,8
Regno Unito	119,1	-2,8	44,2	2,3	71,5
Rep Ceca	80,2	-1	28,9	3	66,1
Romania		42,1	-2,6	12,9	4,9	58,8
Slovacchia	67	-1,9	29,4	1,9	60,7
Slovenia	89,2	0,5	23,4	3,8	67,8
Spagna		105,4	2,2	36,2	2,8	65,6
Svezia		122,2	3,6	40,4	1,7	74,2
Ungheria	62,6	-5	65,8	7,9	57,3

Le Condizioni richieste

  • Osservando la tabella si capisce che si tratta di un fenomeno dotato di cinque dimensioni. Si richiedono le condizioni seguenti (semplificando al massimo per evitare termini tecnici):

  • Ogni serie viene calata nel contesto dell’analisi;

  • Le serie devono essere univocamente informative rispetto alla situazione (o franche, nel senso di affidabili), cioè interpretabili univocamente come punteggi di merito o di penalità (Stoppa, 2019);

  • Le serie devono avere un addensamento centrale congiunto, almeno tendenzialmente.

  • Allora per ogni dato può essere calcolata la distanza relativa (situazionata) dal valore non preferibile, quindi in termini di percentuale del percorso stabilito dal contesto: la chiameremo trasformazione NonPreferibile-Preferibile (una variante della trasformazione mini-Max). Le condizioni garantiscono al fenomeno una complessità di tipo lineare (la più bassa possibile), la più favorevole, necessaria quando si tratta con un numero elevato di serie di dati. Questo assicura che le serie abbiano legami lineari. Allora la rete di correlazione (fatta di legami lineari) si accorda alla rete di dipendenza (fatta di relazioni che possono essere di causa-effetto come no). Ecco che saranno ammessi i confronti tra le unità osservate, cioè tra valori di una stessa serie: confronti che verranno chiamati verticali. Il risultato della trasformazione NonPreferibile-Preferibile permetterà invece il confronto tra le grandezze di una stessa unità, tra valori di serie differenti.

Ora, da un lato abbiamo cinque serie di dati (cinque grandezze) che, con la loro esibita variabilità, promettono preziosa informazione. Dall’altro abbiamo la situazione oggetto di analisi la quale, con le sue pressanti richieste, reclama grandezze informative. In mezzo ci siamo noi, con i nostri dubbi, le nostre incertezze, le nostre curiosità. Verifichiamo di che tipo di grandezze si tratta. La prima (il Pil) e la quinta (l’Occupazione) sono grandezze informative perché interpretabili come punteggi di merito, (diremo direttamente informative) La terza (il Debito) e la quarta (L’Inflazione) sono pure informative perché interpretabili come penalità (diremo inversamente informative). La seconda (il Deficit), non è informativa, ma lo diventa una sua trasformata, il |Deficit|, interpretabile ora come penalità (inversamente informativa). Dunque, al fine di confrontare le grandezze, siamo nelle condizioni di operare, chiamando in causa la situazione, proponendo una variante della normalizzazione min-max, che chiameremo normalizzazione NonPreferibile-Preferibile. Consiste nel calcolare, per ogni singolo dato, la distanza dal valore non preferibile, indicato dalla situazione, rapportata all’intero percorso che va dal non preferibile al preferibile. Lo chiameremo dato situazionato e rappresenta la misura dell’informazione (di situazione, di posizione) contenuta in ogni dato osservato. Nei due punteggi di merito il valore non preferibile coincide con il minimo osservato, mentre nelle tre penalità coincide con il massimo. Non fatevi impressionare, sto solo giocando a semplificare! I dati situazionati di ogni grandezza su unità differenti presentano una interpretazione immediata (una informatività diretta), un confronto verticale e, nello stesso tempo, divengono, per ogni singola unità, anche, confrontabili sulle cinque grandezze differenti: un confronto orizzontale. Si consiglia, a questo punto, di operare sempre su serie di dati situazionati. Si dimostra (in appendice) che, per grandezze informative, la variabilità, e quindi l’informazione dei dati situazionati, è proporzionale a quella dei dati osservati. Ora, ognuno può provare a interpretare, a dare significato, a ogni dato situazionato e scoprire come tutto sembra divenuto intellegibile. Con pochi strumenti minimali l’analisi dei dati è ora disponibile per tutti.

// 
// Tavola 2, I Dati Situazionati
//
Paese           sPil    s|Deficit|   sDeb     sInflaz    sOccup
Austria      	37,8	94,2	44	84	74
Belgio       	35,3	96,2	19,6	88,3	32,6
Bulgaria     	0	100	85,3	26,6	31,3
Cipro        	23,3	34,6	44	84	72,2
Danimarca    	36,1	7,7	77,3	89,4	99,1
Estonia      	13,4	50	100	36,2	65,2
Finlandia    	34,3	0	68,4	90,4	69,2
Francia      	31,4	50	39,6	90,4	69,2
Germania     	33,8	98,1	38,4	83	65,2
Grecia       	25,1	34,6	8,7	75,5	30
Irlanda      	49,3	98,1	78,7	76,6	63,9
Italia       	28	73,1	0	86,2	18,1
Lettonia     	9	100	94	0	60,4
Lituania     	9,7	78,8	86,5	45,7	45,4
Lussemb      	100	40,4	96,5	78,7	42,3
Malta        	17,6	67,3	41,3	100	0
Paesi Bas    	40,9	96,2	57,8	90,4	94,3
Polonia      	7	63,5	58,6	79,8	10,6
Portogal     	17	51,9	39,9	81,9	58,1
Regno Unito  	35,7	48,1	59,3	83	74,4
Rep Ceca     	18,7	82,7	74,6	75,5	50,7
Romania      	2,1	51,9	90,6	55,3	18,5
Slovaccia    	13	65,4	74,1	87,2	26,9
Slovenia     	22,7	92,3	80,1	67	58,1
Spagna       	29,8	59,6	67,3	77,7	48,5
Svezia       	37,1	32,7	63,1	89,4	86,3
Ungheria     	11,1	5,8	37,7	23,4	11,9

Vediamo solo qualche esempio. L'Austria presenta un Pil pari a 123,8. Questo è il dato osservato. Il Pil va da 37,3 (Bulgaria) a 266,2 (Lussemburgo). Si potrebbe dedurre che l’Austria abbia un Pil intermedio. Il dato situazionato vale 37,8% e non risulta affatto intermedio. Possiamo dire che, nel percorso che va dal non preferibile al preferibile, l’Austria si posiziona al 37,8%. Analogo trattamento lo riserviamo al tasso di Occupazione. L’Occupazione austriaca vale 71,4. Il tasso di Occupazione va da 54,6 a 77,1. L’Austria sembra raggiungere un tasso piuttosto elevato. Il dato situazionato si posiziona al 74,7%. Non così elevato come faceva pensare il dato osservato. Vediamo cosa succede per il Debito. L’Austria presenta un Debito pari a 59,5. Questo è il dato osservato. Il Debito, in Europa, va da 3,5 a 103,5. Questo fa capire che l’Austria ha un Debito, per così dire, intermedio. Per la precisione il dato situazionato si trova al 44%. Quindi meno che intermedio. L’Inflazione è a 2,2 punti e in Europa, va da 0,7 a 10,1. Il dato situazionato vale 84%. Il |Deficit|, per l’Austria, vale 0,4 e, in Europa, va da 0,1 a 5,3. Il dato situazionato, che vale 94,2% , permette di valutare propriamente come stanno le cose. Questi sono confronti verticali perché sono riferiti a unità differenti su ciascuna serie o grandezza (o colonna). Vedremo poi i confronti orizzontali: riferiti a una stessa unità su grandezze differenti.

A caccia dell'Informazione

A caccia dell'Informazione contenuta in una serie di dati quantitativi

Benvenuti a questa uscita invernale. Siete sicuri di voler continuare a leggere questo blog? Avverto che rischiate di perdere sonni tranquilli.

Si pretende di andare oltre la varianza, attualmente strumento cardine della Scienza dei Dati e della Ricerca Scientifica.

Mi sono deciso a raccontarvi la mia misura di variabilità, ottenuta tramite una metrica semplice, come lo può essere ad esempio una media di dati osservati, che chiamo deviazione semplice, (γ), da contrapporre alla deviazione standard. A onore del vero qualcuno può dire che esiste già una misura di deviazione semplice, la deviazione media assoluta, ma, come la deviazione standard, misura la dispersione non la variabilità.

Come esempio applicativo presento un modo di costruire una tavola riassuntiva opportunamente articolata in grado di descrivere compiutamente il fenomeno quantitativo a cinque dimensioni descritto dagli indicatori europei in un dato anno.

Kendall e Stuart (1997, vol. 1, pag. 42) assolvono la varianza pur ammettendo che possa sembrare un po’ artificiale. Qui invece la si considera imperdonabilmente del tutto artificiale perché esagera gli scarti elevati e rimpicciolisce quelli piccoli. Come se non bastasse spesso si spaccia la dispersione per variabilità quando quest’ultima può dirsi piuttosto più vicina all’idea di evoluzione. Con tutto il rispetto per Sir Ronald Fisher è tempo che questo punto venga processato a dovere.

Una Teoria dei distacchi

Con “Il crescere della serie” conviene intendere un crescere migliorativo, ragionato. Come cresce la serie? A distacchi. Per ottenere una metrica adatta questo blog intende contrapporre all’idea degli scarti, che porta alla varianza e ai suoi derivati, un’idea degli stacchi conseguiti (ovvero distacchi) rispetto alla prima unità che insegue (o, equivalentemente, degli scatti ipotetici necessari a ogni unità per raggiungere quella che precede). Dunque basterebbe riassumere i distacchi con una media, senonché:

  1. Bisogna cautelarsi in modo che tutte le grandezze siano leggibili come distacchi;

  2. Le grandezze devono essere dimensionalmente comparabili;

  3. Le grandezze devono avere la stessa direzione, cioè tutte migliorative.

Le tre condizioni sono soddisfatte da variabili assimilabili a una classifica, quelle che chiamo direttamente informative (altrimenti si possono rendere tali utilizzando la distanza dal valore preferibile).

Vediamo di che si tratta per una singola serie quantitativa X rilevata su un collettivo di N unità. Il crescere di X (non avvalorato dal contesto) è un concetto prettamente numerico. Per andare oltre è utile passare a un crescere migliorativo che permette di coinvolgere lo scopo dell’analisi. Tutto nasce da una richiesta fondamentale della ricerca:

Cosa succede al variare di ciascuna grandezza quantitativa coinvolta?

Per ora poniamo l’attenzione solo sulla seconda parte della frase: al variare di ciascuna grandezza. Siamo sicuri di aver inteso cosa significa? È davvero così scontato? Serve qualche precisazione.

Viene chiamata in causa la variabilità solitamente intesa come capacità di prendere valori differenti: un concetto definito in modo, a dir poco, generico. Questo rappresenta un aspetto cruciale dato che la variabilità ha a che fare con l’informazione che la grandezza dovrebbe apportare all’analisi. Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso. Questo succede quando viene calata nel contesto, quando riceve interpretazione tramite la situazione.

Una grandezza è da considerarsi informativa quando porta lumi all’analisi in corso.

Il variare, inteso come il percorrere la serie da un minimo a un massimo, non ha niente a che fare con il ballare attorno a un punto, come riferiscono certi strumenti, varianza compresa. Ora, piuttosto che al variare di… è più idoneo chiedersi al crescere di… Ma questa precisazione non soddisfa appieno. Infatti il crescere è un concetto ancora prettamente numerico. Come fare?

Si fa intervenire la situazione oggetto di analisi dato che ogni grandezza dovrebbe essere informativa proprio rispetto al contesto.

Così facendo si potrà parlare di:

  • Grandezze con crescita migliorativa

  • Grandezze con crescita peggiorativa

  • Grandezze con crescita indecidibile

Distinzione che risulta del tutto inesistente per la letteratura scientifica attuale. Le grandezze leggibili come distacchi presentano infatti crescita migliorativa o peggiorativa: vengono qui chiamate direttamente informative.

Quelle a crescita indecidibile possono dirsi indirettamente informative, tanto che, per queste ultime, si ritiene non abbia senso misurarne la variabilità e perciò andrebbero rese direttamente informative o separate dall’analisi.

Una grandezza viene qui definita a crescita migliorativa quando ammette una osservazione non preferibile in corrispondenza del minimo osservato; mentre si dirà a crescita peggiorativa quando tale valore corrisponde al massimo. Quelle con crescita indecidibile presentano un valore preferibile interno al range.

Si noti che mentre il crescere rimane un concetto numerico il crescere migliorativo acquista significato e valore. In altre parole, dato che tutte le grandezze vanno da un minimo a un massimo, non basta un crescere numerico per parlare di informazione. Applicando la trasformata Preferibile non Preferibile (PnP), cioè la distanza relativa dal valore non preferibile (proposta in precedenza in versione ridotta), ogni grandezza può essere letta come dotata di crescita migliorativa e perciò trattata come direttamente informativa. Così facendo tutte le grandezze si possono leggere con l’incipit al migliorare della serie. Per misurare il crescere migliorativo i passi preliminari necessari per ogni serie sono i seguenti:

  1. Si verifica se la situazione è in grado di conferire alla grandezza la connotazione di classifica;

  2. Si calcolano le distanze relative dal valore non preferibile (trasformata PnP).

Si estende il calcolo a tutte le k serie (la tabella A più avanti ne è un esempio dove si vedrà come riassumere sia le colonne, con μc,σc,γc\mu_c , \sigma_c , \gamma_cμc​,σc​,γc​ , che le righe, μr′,σr′,γr′\mu'_r , \sigma'_r , \gamma'_rμr′​,σr′​,γr′​). Si consigliata una tabella come la A nelle situazioni in cui le grandezze presentano una struttura di inter-correlazione debole o contenuta e la si raccomanda comunque come stadio intermedio di ogni analisi.

Per ora le cose stanno nei termini che seguono. Per una serie di dati esiste una misura di variabilità? Esiste sotto certe condizioni:

  1. Quando la serie è assimilabile a una classifica;

  2. Quando la classifica prende senso dalla situazione in esame.

Infatti, quando ciò si verifica, la serie genera una serie di distacchi, cioè le distanze di ciascun dato dal primo degli inseguitori. Da notare che mentre si può dimostrare che la serie di distacchi non è meno informativa della serie di provenienza non sembra esistere qualcosa di analogo tra la serie degli scarti quadratici e la serie iniziale. Questa è la prima chiave di volta che permette la chiusura dell’arco o, se preferite, del ragionamento.

Ecco che allora una media di questi distacchi è una misura di variabilità della serie. Dunque, almeno una soluzione esiste. Ma nel caso a più dimensioni funziona in maniera un po’ diversa. Infatti con più grandezze si dovrà ridimensionarle, si consiglia con PnP, in modo che tutte abbiano un crescendo favorevole e insistano sulla stessa scala, da 0 a 100. In questo modo però le medie dei distacchi si equivalgono dato che essi assommano a cento. Però, la serie di distacchi genera, a sua volta, una nuova serie di distacchi che conviene chiamare irregolarità. La media delle irregolarità fornisce la misura (γ) che cerchiamo.

Si mostra ora come riassumere k serie disponibili (esempio: tavola A) sia verticalmente che orizzontalmente.

Una tavola speciale, nuova a prescindere dalla metrica accennata, che permette sia una sintesi verticale che una orizzontale. Nuova perché necessita di:

  1. Una trasformata, che plotta i dati nel range 0-100, da chiamarsi preferibile-non-preferibile (PnP), che coinvolge la situazione oggetto di analisi;

  2. Di grandezze orientate nella direzione migliorativa;

  3. Di grandezze comparabili dimensionalmente.

Va detto che la trasformata minimax, che opera un cambiamento di scala in modo da piazzare i dati nel range 0-1, o 0-100, è soltanto numerica perché non coinvolge il contesto e non si cura dell’orientamento delle grandezze. La seconda chiave di volta è: Esistono serie che non sono immediatamente leggibili come distacchi; come dire che vi sono grandezze direttamente informative e altre che lo sono solo indirettamente. Questo fatto mette in evidenza l’esistenza di due tipi di grandezze mai rilevate nella letteratura. Se una serie non è assimilabile a una classifica lo diventa la serie delle distanze dal valore preferibile.


Nella tabella A per i 27 paesi Europei i riassunti verticali primeggiano la posizione dell’Inflazione seguita dal Deficit, … e l’irregolarità dei distacchi del Debito e dell’Occupazione, … (mentre la deviazione standard indicherebbe Inflazione e Pil):si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Pil, Debito, … e dell’irregolarità dei distacchi di Pil, Inflazione, … (e non di Debito, Occupazione, … come direbbe la deviazione standard).

Nei riassunti orizzontali primeggiano la posizione di Paesi Bassi, Irlanda, Svezia, Danimarca… e l’irregolarità dei distacchi di Portogallo, Finlandia, Estonia, Francia… (e non la deviazione standard di Spagna e Irlanda, Austria, Finlandia…): si ricavano gli interventi desiderabili e consigliabili da parte dell’Europa nei confronti delle posizioni di Ungheria, Grecia, Malta e Belgio… e dell’irregolarità dei distacchi di Paesi Bassi e Ungheria (e non di Lettonia, Bulgaria, Malta, Italia, … come direbbe la deviazione standard).

I valori in tabella segnano la posizione relativa raggiunta da ciascun paese per ciascuna grandezza. Ad esempio l’Italia si trova al 28% del range. Dalla riga di ogni paese si ricava un ordine di intervento auspicabile; ad esempio per Italia e Belgio è opportuno intervenire principalmente su Debito, Occupazione, Pil, … nell’ordine.

Le colonne μr\mu_rμr​e γr\gamma_rγr​ suggeriscono le priorità di intervento da parte dei rispettivi paesi sulla posizione raggiunta come grandezze e come importanza delle stesse, rispettivamente. L’informazione promessa, gamma, sta nelle irregolarità dei distacchi (precisamente nuovi distacchi), viene chiamata deviazione semplice, ed è la misura da contrapporre alla deviazione standard classica (Qualche sostenitore della varianza potrebbe considerare la deviazione standard dei distacchi come una misura alternativa di dispersione).

La classifica μr\mu_rμr​attribuisce all’Italia il XXIII° posto (meglio del Belgio) mentre l’irregolarità dei distacchi γc′\gamma'_cγc′​, assegna il XXI° (meglio del Belgio e del Lussemburgo). Tabella A:

Paesi\PnP%

tPIL

t|DEF|

tDEB

tINFL

tOCC

Classifica

Classifica

Classifica

Paese

AU

37,79

94,23

44,0

84,04

74,67

61,6

X

19,9

III

10,08

XVIII

AU

BE

35,30

96,15

19,6

88,30

32,89

39,6

XXIV

29,3

XII

13,32

XXV

BE

BU

0

100

85,3

26,6

31,56

47,7

X

41,1

XXVI

9,71

XVII

BU

CI

23,29

34,62

44,0

84,04

72,89

44,3

XX

34,7

XXIII

7,52

VI

CI

DA

36,13

7,69

77,3

89,36

100

70

V

26,7

VIII

7,70

VII

DA

ES

13,37

50,00

100

36,17

65,78

55,4

XII

31,8

XVIII

7,40

III

ES

FI

34,29

0

68,4

90,43

69,78

62

IX

21,6

IV

7,36

II

FI

FR

31,37

50,00

39,6

90,43

69,78

47,1

XVIII

33,3

XXI

7,41

IV

FR

GE

33,81

98,08

38,4

82,98

65,78

63,7

VII

28

IX

8,74

XIV

GE

GR

25,12

34,62

8,7

75,53

30,22

38,1

XXVI

29,8

XIV

7,78

VIII

GR

IR

49,32

98,08

78,7

76,60

64,44

73,1

II

18

II

8,52

XIII

IR

IT

28,00

73,08

0

86,17

18,22

41,1

XXIII

36,9

XXIV

10,46

XXI

IT

LE

9,00

100

94,0

0

60,89

52,1

XIV

45,9

XXVII

10,38

XX

LET

LI

9,70

78,85

86,5

45,74

45,78

56,2

XI

34,2

XXII

9,35

XVI

LIT

LU

100

40,38

96,5

78,72

42,77

71,2

III

28,1

X

12,09

XXIII

LU

MA

17,65

67,31

41,3

100

0

38,4

XXV

37,8

XXV

12,02

XXII

MA

PaBa

40,89

96,15

57,8

90.45

95,11

73,3

I

28,3

XI

16,80

XXVII

PaBa

POL

6,99

63,46

58,6

79,79

10,67

49,8

XXI

24

XIX

12,95

XXIV

PO

POR

16,95

51,92

39,9

81,91

58,67

43,7

XVI

32,9

VI

7,16

I

POR

ReUn

35,74

48,08

59,3

82,98

75,11

63,1

XV

29,5

XIII

7,45

V

ReCe

ReCe

18,74

82,69

74,6

75,53

51,11

52

VIII

30,7

XVII

8,36

XI

ReUn

RO

2,10

51,92

90,6

55,32

18,67

42,9

XXII

33,1

XX

7,88

IX

RO

SLOVA

12,96

65,38

74,1

87,23

27,11

46,1

XIX

30,7

XVI

9,10

XV

SLOVA

SLOVE

22,67

92,31

80,1

67,02

58,67

63,9

VI

26,3

VII

10,34

XIX

SLOVE

SP

29,75

59,62

67,3

77,66

48,89

53,9

XIII

17,8

I

7,99

X

SP

SV

37,09

32,69

63,1

89,36

87,11

70,3

IV

-22

V0

8,50

XII

SV

UN

11,05

5,77

37,7

23,40

12,00

29,7

XXVII

30

XV

16,55

XXVI

UN

26,6

62,0

39,8

72,1

51,4

Classifica

V°

II°

IV°

I°

III°

%

19,5

30,5

26,7

19,3

20,8

Classifica %

II°

V°

IV°

I°

III°

1,88

0,93

0,67

0,87

0,44

Classifica

V°

III°

I°

IV°

II°

%

39,2

19,4

14,0

18,2

9,2

Si noti, in tabella B, come siano diversi i pesi da assegnare alle grandezze:

ad esempio, a differenza del coefficiente di variazione sui dati iniziali e della deviazione standard σc′\sigma'_cσc′​%, la deviazione semplice γc′\gamma'_cγc′​% proposta, che rappresenta il nuovo contributo di ciascuna grandezza all’analisi, fa primeggiare il PIL.

Lascio a voi il confronto degli altri riassunti e la verifica di questi calcoli.

Tabella B

Riassunti
PIL
|DEF|
DEB
INFL
OCC

112,8

2,22

27,46

3,78

69,56

58,19

1,93

16,75

2,81

4,61

26,6

62,0

39,8

72,1

51,4

19,5

30,5

26,7

19,3

20,8

3,70

3,70

3,70

3,70

3,70

0,097

0,052

0,045

0,056

0,035

Riassunti
PIL
|DEF|
DEB
INFL
OCC

17,3

29,1

23,5

26,6

3,5

15,2

23,8

20,8

19,3

20,8

34,0

18,3

15,8

19,7

12,3

1,88

0,93

O,13

0,94

0,48

43,1

21,3

3,0

21,6

11,0

Infine un dettaglio di calcolo delle irregolarità della prima grandezza, tPil:

Paese
Distacco
Irregolarità

Bulgaria

0

0

Estonia

0,3117

0,3117

Cipro

0,6116

0,131062

Malta

0,699

0,087374

Austria

0,699

0

Lituania

0,699

0

Svezia

0,9611

0,262123

Belgio

1,0048

0,043687

Rep Ceca

1,0922

0,087374

Ungheria

1,3543

0,262123

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Danimarca

0,3932

0,081485

Regno Unito

0,4369

0,043687

Finlandia

0,4806

0,043687

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Si accettano proposte alternative o aggiustamenti all’informazione lineare suggerita.

La metrica qui proposta è una insinuazione irriverente nei confronti della Scienza dei Dati: Si tratta di una piccola breccia aperta in una muraglia antica. È solo un inizio, sto cercando sostituti per covarianza, correlazione, coefficiente di determinazione, tanto per citare qualche misura.

Si vedrà. Speriamo prossimamente.

Buon Anno, Buon 2024 e seguenti!

μr\mu_rμr​
μr\mu_rμr​
σr\sigma_rσr​
σr\sigma_rσr​
γr\gamma_rγr​
\GAMMA_r
γr\gamma_rγr​
μc′\mu'_cμc′​
μc′\mu'_cμc′​
σc′\sigma'_cσc′​
σc′\sigma'_cσc′​
γc′\gamma'_cγc′​
γc′\gamma'_cγc′​
γc′\gamma'_cγc′​
μc′(X)\mu'_c(X)μc′​(X)
σc′(X)\sigma'_c(X)σc′​(X)
μc′(tX)\mu'_c(tX)μc′​(tX)
σc′(tX)\sigma'_c(tX)σc′​(tX)
μc′(dtX)\mu'_c(dtX)μc′​(dtX)
σc′(dtX)\sigma'_c(dtX)σc′​(dtX)
CVc′(X)%CV'_c(X)\%CVc′​(X)%
σc′(tX)%\sigma'_c(tX)\%σc′​(tX)%
σc′(dtX)%\sigma'_c(dtX)\%σc′​(dtX)%
γc′\gamma'_cγc′​
γc′%\gamma'_c\%γc′​%
https://gist.github.com/scrittore44/5f4c051c5d75f2149b415799617adb45gist.github.com

Una Varianza Robusta

Una varianza robusta in ambito non-campionario

La rifondazione della Scienza dei Dati dovrà fare i conti con la metrica aggiuntiva qui proposta chiamata varianza robusta. La robustezza, una proprietà degli stimatori campionari nei confronti di ipotesi attenuate, qui riferita alla metrica della quadratura degli scarti, va intesa rispetto agli effetti indesiderati già denunciati in tema di varianza. La varianza soffre del complesso di superiorità, mentre la deviazione assoluta mostra invece un complesso di inferiorità: certo è che si mostra timida e sussiegosa, mentre, in un certo senso, non prende posizione. Con questa idea in mente si propone, per una variabile X osservata su un collettivo di N unità, una famiglia di varianze robuste: , , con scarti , doveè una funzione crescente nel tratto reale negativo e decrescente in quello positivo in modo da produrre sugli scartieffetti opposti rispetto alla varianza. Ciò equivarrebbe a una rivincita degli scarti che occupano le posizioni centrali in modo da snobbare gli scarti laterali, come definiti a breve. Della famiglia preferire la varianza robusta: dove α è un parametro che modula la correzione dei difetti prodotti dalla quadratura sfruttando il rapporto tra l’inverso della deviazione assoluta dei reciproci,e la deviazione assoluta degli scarti,. Vediamo innanzitutto come si comportano due tipi di scarti differenti: standardizzati, , e normalizzati, tX, con la trasformata PnP (dal non-preferibile al preferibile) in percentuale, relativi ai cinque parametri forniti da Bruxelles già trattati in precedenza.

zX

min≤max

%||<1

zPil

1

0,695

V

-1,4≤3,8

74

0,461

II

0,47

zDeficit

1

0,782

III

-1,9≤2,0

67

0,455

III

0,41

zDebito

1

0,816

II

-1,5≤2,3

67

0,446

II

0,31

zInflazione

1

0,752

IV

-1,2≤3,0

70

0,497

I

0,76

zOccupazione

1

0,830

I

-2,0≤1,9

63

0,334

V

0,18

Si possono chiamare centrali gli scarti il cui valore assoluto è minore dell’unità: in media costituiscono il 66%; gli scarti laterali, aventi un valore assoluto maggiore di uno, arrivano al 34%. Gli scarti centrali vengono fortemente ridimensionati dalla quadratura operata dalla varianza mentre quelli laterali vengono esagerati. Tale è l’impatto della varianza come metrica. Perciò si potrà preferire la varianza robusta proposta come alternativa o, se si preferisce, come completamento. Si noti cheα, mediamente (0,43), quasi dimezza la correzione dei difetti suddetti.Necessitano di interventi prioritari i parametri europei con maggior variabilità robusta, Inflazione e Debito, piuttosto che Occupazione e Debito, come indicati dalla deviazione assoluta. Infatti, la deviazione robusta,, non concorda con la deviazione assoluta, δ.L’effetto sovrastima si può riassumere nel modo seguente: la deviazione standard, σ, in media, vale 1,29 volte la deviazione assoluta, δ, e 2,28 volte la deviazione robusta, , mentreδ è, in media, 1,77 volte . Le cose stanno diversamente per gli scarti , ovvero PnP su scala percentuale, su variabili leggibili come graduatorie (scala che va dal non preferibile al preferibile):

min≤max

%|x|<|1|

tPil

19,50

13,57

V

-27≤74

0

9,01

IV

0,47

tDeficitD*

30,46

25,06

I

-62≤38

0

13,87

I

0,41

tDebito

26,66

21,76

III

-60≤40

3,7

11,90

III

0,31

tInflazione

24,65

18,53

IV

-72≤28

0

12,82

II

0,76

tOccupazione

26,65

22,13

II

-52≤49

3,7

8,93

V

0,18

* tDeficitD = distanza di tDeficit da zero

In questo secondo caso si può verificare che l’effettoquadratico contrae gli scarti centrali dell’1,5%, in media, mentre dilata il 98,5% di quelli laterali. La deviazione robusta, non concorda con la deviazione assoluta, δ, come nel caso precedente. L’effetto sovrastima equivale al precedente.Il caso Pnp robusto indica come prioritari gli interventi su Deficit e Inflazione (non su Inflazione e Pil come nel caso standardizzato).

Puntata n.3 del 2024

Una Deviazione Armonica Assoluta e una Retta Armonica Interpolante

Oggi propongo due novità importanti per me. Se qualche lettore si aspetta sofisticatezze sappia che ha sbagliato puntata.

Questo Blog ha dimostrato principalmente il risultato seguente:

In un insieme di k variabili quantitative, {Xi;1≤i≤k}\{X_i; 1 \le i \le k\}{Xi​;1≤i≤k} , queste sono comparabili, nel senso che ammettono sia una misura di locazione/posizione relativa che una di dispersione pure relativa, se e solo se, alla luce della situazione oggetto di studio, sono univocamente uni-direzionate, cioè leggibili come graduatorie, diciamo in chiave migliorativa. Solo così il crescere di ogni grandezza non risulta ambiguo.

Si consideri che a tutt’oggi si pretende di classificare un insieme di variabili secondo la loro dispersione relativa (C.V.) quando, lo sanno tutti, dovrebbe avere la precedenza la loro locazione relativa, che però, a mia memoria, non risulta disponibile. Serve a questo scopo la trasformata dal non preferibile al preferibile (PnP; da 0 a 100) che assegna alle {Xi}\{X_i\}{Xi​} la notazione {tXi}\{tX_i\}{tXi​}.

Nell’esempio EU27 le cinque grandezze sono da leggere rispettivamente come:

  • Miglior Produzione (tPIL)

  • Miglior Deficit, (t|DEF|)

  • Miglior Indebitamento, (tDEB)

  • Miglior Inflazione, (tINF)

  • Miglior Occupazione, (tOCC).

La dispersione standard semi-armonica, σs\sigma_sσs​ , media la dispersione standard σ=E(x2)\sigma = \sqrt{E(x^2)}σ=E(x2)​, e la contro - dispersione standard , σc=Eh(x2)\sigma_c = \sqrt{E_h(x^2)}σc​=Eh​(x2)​, (sta per media armonica). La contro-varianza, σc2\sigma_c^2σc2​ , che si può definire come media armonica dei quadrati degli scarti, va dichiarata altrettanto artificiosa (per non dire sbagliata), quanto la varianza, σ2\sigma^2σ2, ma nella direzione opposta, risultando sottodimensionata la prima e sovradimensionata la seconda.

A breve verrà illustrato il tutto, poi seguiranno le proposte di oggi:

Una deviazione armonica assoluta, δh\delta_h δh​ , e una retta armonica interpolante, bh(y∣x)b_{h(y|x)}bh(y∣x)​.

Osservazione di Pierino:

  • Se la varianza σ2\sigma^2σ2 è così artificiosa perché usare la dispersione standard semi-armonica, σs\sigma_sσs​ , quando si dispone già di una valida deviazione media assoluta, δ\deltaδ ?

  • Dipende, signor Pierino, δ\deltaδ tratta gli scarti alla pari, ma in certi casi la situazione consiglia di contenere quelli in valore assoluto più elevati a vantaggio degli altri.

Notare che, se δ(x)\delta(x)δ(x) è, per definizione, la deviazione media assoluta degli scarti di xxx dalla media E(x)E(x)E(x), si può scrivere δ(x)=δ(x)=E(∣x∣),perx≠0.\delta(x) = \delta(x) = E(|x|), per x \ne 0. δ(x)=δ(x)=E(∣x∣),perx=0. Ora, se è definita la media degli scarti assoluti E(∣x∣)E(|x|)E(∣x∣) , allora è definibile anche la deviazione armonica assoluta di tali scarti, Eh(∣x∣)E_h(|x|)Eh​(∣x∣) del tutto trascurata nella letteratura esistente.

Perciò δh(x)=Eh(∣x∣)=E−1(1∣x∣)\delta_h(x) = E_h(|x|) = E^{-1}\Big(\frac 1{|x|}\Big)δh​(x)=Eh​(∣x∣)=E−1(∣x∣1​) serve essenzialmente come misura di deviazione assoluta da affiancare a δ(x)\delta(x)δ(x) : indispensabile quando non si vuole privilegiare gli scarti elevati in valore assoluto e irrinunciabile quando si tratta di rapporti.

È opportuno indicare la media degli scarti positivi con E(x+)E(x^+)E(x+) e la media di scarti negativi, dovendo ripristinare il segno che le spetta, con (−1)E(−x−)=E−(−x−)=E−(∣x−∣)(-1)E(-x^-) = E^-(-x^-) = E^-(|x^-|)(−1)E(−x−)=E−(−x−)=E−(∣x−∣); analogamente per le medie armoniche Eh(x+)E_h(x^+)Eh​(x+) e En−(x−)E_n^-(x^-)En−​(x−).

Nella tavola che segue è possibile apprezzare il confronto tra i vari riassunti riferiti all’esempio EU-27 (i simboli Er,σr,δrE_r , \sigma_r , \delta_rEr​,σr​,δr​ indicano misure relative):

tX

(tX)

(tX)

(tX)

tPIL

26,6

19,1

13,6

4,3

11,7

6,5

t|DEF|

62,0

29,9

25,1

5,7

17,8

10,3

tDEB

60,2

26,2

21,8

3,7

14,9

6,8

tINF

68,4

27,1

21,7

5,2

16,1

12,2

tOCC

51,4

26,1

22,1

4,7

15,4

9,4

In particolare, il PIL si assesta al 26,6% del tragitto che va dal paese fanalino di coda a quello invidiabile più dotato. Buona la locazione relativa dei 5 parametri che si piazza al 53,7%, con una dispersione, secondo σr\sigma_rσr​, di 25,7 punti percentuali. La locazione relativa migliore, (ErE_rEr​ = 68,4%), spetta all’Inflazione che riceve anche una tra le dispersioni relative peggiori, (σr\sigma_rσr​ = 27,1), assieme al Deficit, (29,9); ciò è confermato sia dalla dispersione standard semi-armonica, (σs\sigma_s σs​ = 16,1), che dalla deviazione armonica assoluta, (δh\delta_hδh​ = 12,2). Il Pil assume la locazione relativa di gran lunga peggiore (ErE_rEr​ = 26,6) pur con una dispersione relativa migliore, (σr\sigma_rσr​ = 19,1), quest’ultima confermata sia dalla dispersione standard semi-armonica (σs\sigma_sσs​ = 11,7), che dalla deviazione armonica assoluta (δh\delta_hδh​ = 6,5).

Secondo Er,σr,σs,δE_r , \sigma_r , \sigma_s, \deltaEr​,σr​,σs​,δ l’Europa dovrebbe mettere mano alla locazione relativa del Pil e alle disparità più marcate, iniziando dal Deficit, quando invece, secondo la deviazione armonica assoluta, δh\delta_hδh​, dovrebbe privilegiare l’Inflazione

Ora, al fine di presentare la retta armonica interpolante, si valuta in dettaglio l’eventuale effetto di xi=x_i =xi​= zINF su yiy_iyi​=zPIL. Operando sugli scarti (la sigla indica che si tratta di punti zeta) la retta interpolante armonica verrà individuata da un solo parametro: il coefficiente di regressione, bh(y∣x)b_{h(y|x)}bh(y∣x)​ .

Si consideri che ogni paese viene rappresentato da un punto del piano cartesiano tramite le coordinate (xi,yi;1≤i≤27)(x_i, y_i; 1 \leq i \leq 27)(xi​,yi​;1≤i≤27). Ciascun punto suggerisce una retta interpolante mediante il rapporto yixi;xi≠0\frac {y_i} {x_i} ; x_i \ne 0xi​yi​​;xi​=0.

È possibile riassumere opportunamente tali rapporti osservati che individuano un fascio di rette del piano centrato sull’origine. Basterà una sintesi delle 27 quantità per ricavare una retta interpolante da preferire a quella dei minimi quadrati. Quale sintesi calcolare? Vediamo di interpretare tale suggerimento alla luce della situazione europea.

Ora, ogni paese può essere rappresentato dalla quantità Qi=yixiQ_i = \frac {y_i} {x_i}Qi​=xi​yi​​ dato che yiy_iyi​ rappresenta la somma disponibile (il pil pro-capite del paese i; si pensi a uno stipendio medio), mentre xix_ixi​ può essere inteso come il prezzo, cioè la penalità che quel paese paga sul mercato in termini di inflazione. Allora i rapporti {Q1=y1x1;Q2=y2x2;...;QN=yNxN}\{Q_1 = \frac {y_1} {x_1} ; Q_2 = \frac {y_2} {x_2}; ... ; Q_N = \frac {y_N} {x_N}\}{Q1​=x1​y1​​;Q2​=x2​y2​​;...;QN​=xN​yN​​} rappresentano proprio le quantità QiQ_iQi​ di un dato bene acquistabili nel paese i, con la somma yiy_iyi​ , al prezzo xix_ixi​ .

Si può pensare al numero di mesi di affitto necessari per un alloggio standard. Per coprire i costi dell’affitto ogni mensilità necessita di quote del Pil pari a {1Q1;1Q2;...;1QN}\{ \frac 1 Q_1 ; \frac 1 Q_2 ; ... ; \frac 1 Q_N\}{Q1​1​;Q1​2​;...;Q1​N​} . Per intenderci: se, ad esempio, con uno stipendio si riesce a saldare 4 mensilità significa che 14\frac 1 441​ dello stipendio viene speso nell’affitto. Dunque il costo europeo mensile, al netto dell’inflazione, risulta pari a {x1y1+x2y2+...+xNyN}\{\frac {x_1} {y_1} + \frac {x_2} {y_2} + ... + \frac {x_N} {y_N}\}{y1​x1​​+y2​x2​​+...+yN​xN​​}. Se gli N paesi pagassero la stessa cifra w affinché il costo europeo rimanga invariato, il costo mensile di ciascun paese dovrà essere 1w\frac 1 ww1​e quello complessivo. Perciò si ha:

Nw=x1y1+x2y2+...+xNyN\frac N w = \frac {x_1} {y_1} + \frac {x_2} {y_2} + ... + \frac {x_N} {y_N}wN​=y1​x1​​+y2​x2​​+...+yN​xN​​
wN=1x1y1+x2y2+...+xNyN\frac w N = \frac 1 {\frac {x_1} {y_1} + \frac {x_2} {y_2} + ... + \frac {x_N} {y_N}}Nw​=y1​x1​​+y2​x2​​+...+yN​xN​​1​
w=Nx1y1+x2y2+...+xNyNw = \frac N {\frac {x_1} {y_1} + \frac {x_2} {y_2} + ... + \frac {x_N} {y_N}}w=y1​x1​​+y2​x2​​+...+yN​xN​​N​

Date rette osservate la sintesi preferibile del fascio è quella che rispetta la situazione complessiva cioè: la media armonica delle quantità acquistabili (Chisini, 1929). Nel caso presente, fatto N1N_1N1​ di rapporti positivi ed N2N_2N2​ negativi (dato che la media armonica è definita solo per quantità positive) si può calcolare la somma armonica delle quantità positive Q+Q^+Q+, e quella delle quantità negative Q−Q^-Q− si può dimostrare che il coefficiente della retta armonica interpolante:

bh(y∣x)=1N(Q+N1−Q−N2);N=N1+N2b_{h(y|x)} = \frac 1 N (Q^+N_1 -Q^-N_2) ; N= N_1+N_2bh(y∣x)​=N1​(Q+N1​−Q−N2​);N=N1​+N2​

Perciò, mentre la soluzione dei minimi quadrati dà la retta, by∣x=−0,12(Q=0,643;R2=21%)b_{y|x} = -0,12 (Q = 0,643; R^2 =21\%)by∣x​=−0,12(Q=0,643;R2=21%) la retta armonica interpolante vale bh(y∣x)=−0,59(R2=7,2%)b_{h(y|x)} = -0,59 (R^2 = 7,2\%)bh(y∣x)​=−0,59(R2=7,2%) (calcoli eseguiti con Statgraphics, 2024).

In sostanza la relazione risulta trascurabile rispetto a quella indicata dai minimi quadrati. Il che significa che ogni settore richiede un intervento specifico senza contare su eventuali effetti collaterali o complementari. La retta armonica interpolante si presenta come qualcosa di più di una semplice alternativa alla retta dei minimi quadrati dato che questa minimizzando la somma dei divari verticali tra valori osservati e previsti esagera gli scarti in valore assoluto più elevati.

ErE_rEr​
σr\sigma_rσr​
δr\delta_rδr​
σc\sigma_cσc​
σs\sigma_sσs​
δh\delta_hδh​

Dispersione

La misura di posizione relativa, le misure di dispersione, deviazione standard, , deviazione assoluta, e quella di variabilità

Abbiamo chiuso il 2023 un po’ precipitosamente trattando anzitempo una situazione pluridimensionale a rischio di perdere gran parte di voi lettori. Ripartiamo con i piedi per terra, un passo alla volta, cercando di limitare al massimo le formule. In precedenza abbiamo criticato aspramente la misura classica di variabilità in uso, la varianza, essenzialmente per un difetto imperdonabile (se permettete la sfrontatezza): Esagera gli scarti estremi e comprime quelli più centrali con il risultato di sovrastimare la variabilità: di quanto lo vedremo in seguito. Non vi allarmate anzitempo la varianza è in grado di risorgere come l’uccello mitico, l’Araba Fenice, simbolo della rinascita. Possiamo continuare ad usare σ dichiarandone la sovrastima. Come? Confrontando la deviazione standard, σ, con la deviazione assoluta, δ, fermo restando che si tratta di misure di dispersione, non esattamente di variabilità. Qui viene aggiunta una misura di variabilità, ϒ, media delle irregolarità dei distacchi.

Come esempio consideriamo la misura di posizione relativa, E(X), le misure di dispersione, deviazione standard, , deviazione assoluta, e quella di variabilità γ, riferite alle cinque serie relative ai parametri europei (trasformati secondo PnP):

E(X)

σ

%

δ

%

sovrastima

ϒ

%

tPIL

26,6 I

19,5

15,2 V

13,6

13,5 V

43,4

2,012

39,0 I

t|DEF|

61,9 IV

30,5

23,8 I

25,1

24,9 I

21,5

1,042

20,2 II

tDEB

60,2 III

26,7

20,8 III

21,8

21,5 III

23,0

0,742

14,4 IV

tINF

72,1 V

24,7

19,3 IV

18,5

18,3 IV

33,5

0,900

17,4 III

tOCC

51,4 II

26,7

20,8 II

22,1

21,9 II

20,8

0,462

9,0 V

La graduatoria di posizione, (E(X)), è innovativa, le altre due indicano concordanza sulle scelte di eventuali interventi prioritari presumibilmente consigliati a suo tempo. La posizione relativa, E(X), valuta il margine di miglioramento dell’Europa nell’anno di riferimento su ciascuna grandezza suggerendo le priorità di eventuali interventi. Precisamente: Pil, Occupazione, Debito, Deficit, e Inflazione, nell’ordine.

Per quanto riguarda la dispersione, σ e δ informano sulla disparità presente tra un paese e l’altro. Le priorità rilevate derivano dalla successione: Deficit, Occupazione, Debito, Inflazione e Pil, nell’ordine, che risulta concordante con quella presumibilmente consigliata a suo tempo a livello europeo. Le sopra-valutazioni tramite le deviazioni standard, σ, sulla capacità informativa dei cinque parametri non sembrano affatto trascurabili rispetto alle deviazioni assolute, δ. Si noti come la misura di variabilità γ proponga invece una successione differente rispetto alle priorità di intervento, precisamente: PIL, Deficit, Inflazione, Debito e Occupazione. Ciò dovrebbe far pensare.

The Hunt for Information

The hunt for information contained in a series of quantitative data.

Welcome to this winter edition! Are you sure you want to continue reading this blog? Be warned that you are at risk of losing your peace of mind!

This blog aims to go beyond variance, currently a key tool of Data Science and Scientific Research.

I have opted to tell you about my measurement of variability, obtained through a simple metric, as for example, an average of observed data can be, which I call simple deviation, (γ), to be contrasted with standard deviation. To be fair, some may say that a measurement of simple deviation already exists, the mean absolute deviation, but, like standard deviation, it measures dispersion not variability. As an applicative example, I put forward a way of constructing an appropriately structured summary table capable of comprehensively describing the five-dimensional quantitative phenomenon described by the European indicators in a given year.

Kendall and Stuart (1997, vol. 1, p. 42) absolve the variance while admitting that it may seem a little artificial. Here, however, it is unforgivably considered completely artificial because it exaggerates the large differences and reduces the small ones. As if that weren't enough, dispersion is often passed off as variability when the latter can be said to be rather closer to the idea of ​​evolution. With all due respect to Sir Ronald Fisher it is time this point was properly put to the test.

A Gap Theory

With “The growth of the series” it is appropriate to interpret it improving growth. In what way is the series growing? In gaps. To obtain an appropriate metric, this blog intends to contrast the idea of gaps, which lead to variance and its derivatives, with an idea of ​​the gaps achieved (i.e. gaps) compared to the first unit that will follow (or, equivalently, of the hypothetical shots necessary to each unit to reach the one which preceeds it). Therefore it would be sufficient to summarize the gaps with an average, except:

  1. We must make sure that all the quantities are readable as gaps;

  2. The quantities must be dimensionally comparable;

  3. The quantities must have the same direction, i.e. all improving.

The three conditions are fulfilled by variables similar to a ranking, those that I call directly informative (otherwise they can be made informative by using the distance from the preferable value). Let's see what a single quantitative series X, detected on a collective of N units, involves.

The growth of X (not supported by the context) is a purely numerical concept. To go further it is useful to move on to an improving growth that allows us to involve the purpose of the analysis. It all stems from a fundamental research request:

What happens when each quantitative quantity involved varies?

For now let's focus only on the second part of the statement: as each quantity varies. Are we sure we understand what it means? Is it really that obvious? Some clarification is needed. Variability is called into question, usually understood as the ability to assume different values: a concept defined in a generic way, to say the least. This represents the given crucial aspect that variability is included in the information that the quantity should bring to the analysis.

A quantity is to be considered informative when it sheds light on the ongoing analysis.

This happens when it is placed in context, when it is interpreted using the situation. Varying, understood as moving through the series from a minimum to a maximum, has nothing to do with dancing, being scattered around a point, as certain instruments report, including variance. Now, rather than the variation of... it is more appropriate to ask about the increase in... But this clarification is not fully satisfactory. In fact, growth is still a purely numerical concept. What can be done?

The situation being analyzed is brought into play, given that each quantity should be informative with respect to the context.

By doing so, we will be able to talk about

  • Quantities with improving growth

  • Quantities with worsening growth

  • Quantities with undecidable growth

a distinction which is completely non-existent in current scientific literature. The quantities that are readable as gaps in fact show improving or worsening growth: here we call them directly informative. Those with undecidable growth can be said to be indirectly informative, so much so that, for the latter it is believed that it makes no sense to measure their variability and therefore they should be made directly informative or separated from the analysis.

A quantity is defined here as having improving growth when it acknowledges a non-preferable observation in correspondence with the observed minimum; it will be said to have worsening growth when this value corresponds to the maximum. Those with undecidable growth have a preferable value within the range. Note that while growth remains a numerical concept, improving growth acquires meaning and value. In other words, given that all quantities go from a minimum to a maximum, numerical growth is not enough to be able to talk of information.

By applying the transformed Preferable Non-Preferable (PnP), i.e. the relative distance from the non-preferable value (previously proposed in a reduced version), each quantity can be read as having an improving growth and therefore treated as directly informative. By doing this all the quantities can be read as the beginning of an improving series. To measure the improving growth the preliminary steps necessary for each series are the following:

  1. Verification as to whether the situation is capable of attributing the connotation of ranking to the quantity;

  2. The relative distances from the non-preferable value are calculated (PnP transformed).

The calculation is extended to the whole k series (table A below is an example of this where we will see how to summarize both the columns μc,σc,γc\mu_c , \sigma_c , \gamma_cμc​,σc​,γc​ , and rows, μr′,σr′,γr′\mu'_r , \sigma'_r , \gamma'_rμr′​,σr′​,γr′​). A table like A is recommended in situations in which the quantities present a weak or limited inter-correlation structure and is recommended in any case as an intermediate stage of each analysis.

For now, things are as follows. Is there a measure of variability for a data series? It exists under certain conditions:

  1. When the series is similar to a ranking;

  2. When the ranking makes sense from the situation under scrutiny.

In fact, when this occurs, the series generates a series of gaps, that is, the distances of each datum from the first of its pursuers. It should be noted that while it can be demonstrated that the series of gaps is no less informative than the series of provenance, there does not appear to be anything analogous between the series of quadratic deviations and the initial series. This is the first keystone that allows the closing of the arc or, if you prefer, of the reasoning process.

This explains how an average of these gaps is a measure of variability of the series. So, at least one solution exists. But in the multi-dimensional case it works a little differently. In fact, multiple quantities will have to be resized, preferably with PnP, so that they all have a favorable swell/surge and insist on the same scale, from 0 to 100. In this way, however, the averages of the gaps are equivalent given that they add up to one hundred. However, the series of gaps generates in turn a new series of gaps which can be called, for the sake of simplicity, irregularities. The average of the irregularities provides the measure (γ) we are looking for.

We will now demonstrate how to summarize the k series (example: table A) available both vertically and horizontally. A special table, a new one irrespective of the metric mentioned, allows both a vertical and a horizontal synthesis. New because it requires:

  1. A transform, which plots the data in the 0-100 range, to be called preferable-non-preferable (PnP), which involves the situation being analyzed;

  2. Quantities oriented in the improving direction;

  3. Dimensionally comparable quantities.

Note that the minimax transform, which makes a change in scale in order to place the data in the 0-1 or 0-100 range, is only numerical because it does not involve the context and fails to take into consideration the quantities’ orientation. The second keystone is: Some series, such as gaps, are not immediately readable; which is to say that there are quantities that are directly informative and others that are only indirectly informative. This fact highlights the existence of two types of quantities not previously detected in the literature. If a series is not comparable to a ranking, the series of distances with a preferable value becomes one.


Table A takes into consideration the 27 European countries where the vertical summaries highlight the position of Inflation followed by the Deficit, ... and the irregularity of the gaps in Debt and Employment, ... (while the standard deviation would indicate Inflation and GDP): The desirable and advisable interventions by Europe are obtained regarding the positions of GDP, Debt, ... and the irregularity of the gaps in GDP, Inflation, ... (and not in Debt, Employment, ... as the standard deviation would say).

In the horizontal summaries, the position of the Netherlands, Ireland, Sweden, Denmark... and the irregularity of the gaps for Portugal, Finland, Estonia, France... stand out (and not the standard deviation seen in Spain and Ireland, Austria, Finland...): here Europe’s desirable and advisable interventions regarding the positions of Hungary, Greece, Malta and Belgium... are obtained, as well as the irregularity of the gaps for the Netherlands and Hungary (and not of Latvia, Bulgaria, Malta, Italy, ... as the standard deviation would state).The values ​​in the table mark the relative position reached by each country for each quantity. For example, Italy is at 28% of the range. A desirable intervention order is obtained from the row for each country; for example, for Italy and Belgium it is appropriate to intervene mainly on Debt, Employment, GDP, ... in that order. The columns μ and γ suggest the intervention priorities by the respective countries on the position achieved in terms of quantities and importance of the same, respectively. The promised information, gamma, lies in the gap irregularities (to be specific: new gaps), and is called simple deviation, and is the measure to be contrasted with classical standard deviation (Some supporters of variance could consider the standard deviation of the gaps as an alternative measure of dispersion).

The ranking μr\mu_rμr​ places Italy in XXIIIth place (better than Belgium) while the irregularity of the gaps, γc′\gamma'_cγc′​, places Italy in XXIst place (better than Belgium and Luxembourg). Tabella A:

Country\PnP%

tGDP

t|DEF|

tDEB

tINFL

tOCC

Ranking

Ranking

Ranking

Country

AU

37,79

94,23

44,0

84,04

74,67

61,6

X

19,9

III

10,08

XVIII

AU

BE

35,30

96,15

19,6

88,30

32,89

39,6

XXIV

29,3

XII

13,32

XXV

BE

BU

0

100

85,3

26,6

31,56

47,7

X

41,1

XXVI

9,71

XVII

BU

CI

23,29

34,62

44,0

84,04

72,89

44,3

XX

34,7

XXIII

7,52

VI

CI

DA

36,13

7,69

77,3

89,36

100

70

V

26,7

VIII

7,70

VII

DA

ES

13,37

50,00

100

36,17

65,78

55,4

XII

31,8

XVIII

7,40

III

ES

FI

34,29

0

68,4

90,43

69,78

62

IX

21,6

IV

7,36

II

FI

FR

31,37

50,00

39,6

90,43

69,78

47,1

XVIII

33,3

XXI

7,41

IV

FR

GE

33,81

98,08

38,4

82,98

65,78

63,7

VII

28

IX

8,74

XIV

GE

GR

25,12

34,62

8,7

75,53

30,22

38,1

XXVI

29,8

XIV

7,78

VIII

GR

IR

49,32

98,08

78,7

76,60

64,44

73,1

II

18

II

8,52

XIII

IR

IT

28,00

73,08

0

86,17

18,22

41,1

XXIII

36,9

XXIV

10,46

XXI

IT

LE

9,00

100

94,0

0

60,89

52,1

XIV

45,9

XXVII

10,38

XX

LET

LI

9,70

78,85

86,5

45,74

45,78

56,2

XI

34,2

XXII

9,35

XVI

LIT

LU

100

40,38

96,5

78,72

42,77

71,2

III

28,1

X

12,09

XXIII

LU

MA

17,65

67,31

41,3

100

0

38,4

XXV

37,8

XXV

12,02

XXII

MA

PaBa

40,89

96,15

57,8

90.45

95,11

73,3

I

28,3

XI

16,80

XXVII

PaBa

POL

6,99

63,46

58,6

79,79

10,67

49,8

XXI

24

XIX

12,95

XXIV

PO

POR

16,95

51,92

39,9

81,91

58,67

43,7

XVI

32,9

VI

7,16

I

POR

ReUn

35,74

48,08

59,3

82,98

75,11

63,1

XV

29,5

XIII

7,45

V

ReCe

ReCe

18,74

82,69

74,6

75,53

51,11

52

VIII

30,7

XVII

8,36

XI

ReUn

RO

2,10

51,92

90,6

55,32

18,67

42,9

XXII

33,1

XX

7,88

IX

RO

SLOVA

12,96

65,38

74,1

87,23

27,11

46,1

XIX

30,7

XVI

9,10

XV

SLOVA

SLOVE

22,67

92,31

80,1

67,02

58,67

63,9

VI

26,3

VII

10,34

XIX

SLOVE

SP

29,75

59,62

67,3

77,66

48,89

53,9

XIII

17,8

I

7,99

X

SP

SV

37,09

32,69

63,1

89,36

87,11

70,3

IV

-22

V0

8,50

XII

SV

UN

11,05

5,77

37,7

23,40

12,00

29,7

XXVII

30

XV

16,55

XXVI

UN

26,6

62,0

39,8

72,1

51,4

Ranking

V°

II°

IV°

I°

III°

%

19,5

30,5

26,7

19,3

20,8

Ranking %

II°

V°

IV°

I°

III°

1,88

0,93

0,67

0,87

0,44

Ranking

V°

III°

I°

IV°

II°

%

39,2

19,4

14,0

18,2

9,2

Note in Table B how different the weights are that are to be attributed to the quantities: for example, unlike the coefficient of variation on initial data and from the standard deviation σc′%\sigma'_c\%σc′​%, the simple deviation γc′\gamma'_cγc′​% proposed, which represents the new contribution of each quantity to the analysis, makes the GDP stand out.

I leave it to you to compare the other summaries and verify these calculations

Tabella B

Summary
GDP
|DEF|
DEB
INFL
OCC

112,8

2,22

27,46

3,78

69,56

58,19

1,93

16,75

2,81

4,61

26,6

62,0

39,8

72,1

51,4

19,5

30,5

26,7

19,3

20,8

3,70

3,70

3,70

3,70

3,70

0,097

0,052

0,045

0,056

0,035

Summary
GDP
|DEF|
DEB
INFL
OCC

17,3

29,1

23,5

26,6

3,5

15,2

23,8

20,8

19,3

20,8

34,0

18,3

15,8

19,7

12,3

1,88

0,93

O,13

0,94

0,48

43,1

21,3

3,0

21,6

11,0

Finally, a detail of the calculation of the irregularities of the first quantity, tGDP

Country
Gap
Irregularity

Bulgaria

0

0

Estonia

0,3117

0,3117

Cipro

0,6116

0,131062

Malta

0,699

0,087374

Austria

0,699

0

Lituania

0,699

0

Svezia

0,9611

0,262123

Belgio

1,0048

0,043687

Rep Ceca

1,0922

0,087374

Ungheria

1,3543

0,262123

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Danimarca

0,3932

0,081485

Regno Unito

0,4369

0,043687

Finlandia

0,4806

0,043687

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Grecia

1,8349

0,087374

Francia

1,6164

0,262123

Spagna

1,7475

0,131062

Alternative proposals or adjustments to the suggested linear information are accepted. The metric proposed here is an irreverent insinuation for Data Science: It is a small breach cracking open in an old wall. It's just a start, I'm looking for substitutes for covariance, correlation, coefficient of determination, to name a few measures.

We will see. Hopefully soon.

Buon Anno, Buon 2024 e seguenti!

μr\mu_rμr​
μr\mu_rμr​
σr\sigma_rσr​
σr\sigma_rσr​
γr\gamma_rγr​
γr\gamma_rγr​
μc′\mu'_cμc′​
μc′\mu'_cμc′​
σc′\sigma'_cσc′​
σc′\sigma'_cσc′​
γc′\gamma'_cγc′​
γc′\gamma'_cγc′​
γc′\gamma'_cγc′​
μc′(X)\mu'_c(X)μc′​(X)
σc′(X)\sigma'_c(X)σc′​(X)
μc′(tX)\mu'_c(tX)μc′​(tX)
σc′(tX)\sigma'_c(tX)σc′​(tX)
μc′(dtX)\mu'_c(dtX)μc′​(dtX)
σc′(dtX)\sigma'_c(dtX)σc′​(dtX)
CVc′(X)%CV'_c(X)\%CVc′​(X)%
σc′(tX)%\sigma'_c(tX)\%σc′​(tX)%
σc′(dtX)%\sigma'_c(dtX)\%σc′​(dtX)%
γc′\gamma'_cγc′​
γc′%\gamma'_c\%γc′​%