Il Paradosso della Scienza dei Dati
Paradosso della Scienza dei Dati
Last updated
Paradosso della Scienza dei Dati
Last updated
Copiright © 2024 Gabriele Stoppa | blog.gabriele.pro | Tutti i diritti riservati.
Un paradosso è una frase, un’affermazione, che sembra accettabile, ma che non lo è, perciò sorprende il lettore. Il termine paradosso deriva da para=contro e doxa=opinione. Dunque: contro l’opinione comune, contro l’evidenza, contro l’intuito. Tale paradosso ha a che fare con il concetto di variabilità al quale si propone di affiancare quello di crescita, un tipo di variabilità speciale, con il quale un quantum (di variabilità) viene riempito anche da un sensum, un significato rispetto al contesto.
Mentre la variabilità classica riguarda il ballare di una serie attorno al suo baricentro (senza badare agli obiettivi dell’analisi né a ciò che succede alle altre grandezze in gioco) la crescita esprime come si muove la serie nel suo andare dal minimo al massimo e questo permette di coinvolgere il contesto, di valutare il contributo qualitativo della serie all’analisi in modo da poter valutare gli effetti sulle altre grandezze coinvolte, cose che la variabilità classica non è in grado di fare.
Il Paradosso della Scienza dei Dati è il seguente:
"Una serie di dati quantitativi riferita a una grandezza scelta con cura e rilevata correttamente ha le carte in regola per entrare di diritto nell’analisi".
Si consideri, come esempio, l’età delle piante di un certo tipo in un contesto di produzione. L’età rispetto alla produzione, è una grandezza che merita di entrare di diritto nell’analisi perché è una scelta ragionevole e può essere rilevata correttamente su un collettivo di piante. Lo sanno tutti! È matematico! Invece può essere un paradosso! Infatti a decidere se una serie di dati, e quindi una grandezza, ha diritto di far parte dell’analisi è il contesto, gli obiettivi dello studio.
Cosa si intende con "Entrare di diritto nell’analisi"? Ché poi non si dica che vi stanno imbrogliando le carte o tendendo una trappola! Significa rendere conto automaticamente del fenomeno osservato, si dirà cioè che la serie è franca (adatta, affidabile, utile) rispetto alla situazione e perciò ha diritto di entrare nell’analisi.
Davvero una serie con le caratteristiche suddette è in grado di servire, di esprimersi nell’analisi? Di certo la serie fornisce i momenti, dei quantum importanti, dai quali ricavare, ad esempio, la deviazione standard e il coefficiente di variazione: quantum di variabilità della serie, assoluto e relativo rispettivamente. Ma il variare necessita, oltre che di un quantum, anche di un sensum, di un significato qualitativo e questo lo può dare solo il contesto. Ora la variabilità misura quanto balla la serie attorno al baricentro: lo fa in modo autoreferenziale, cioè senza tener conto della situazione né delle altre serie in gioco. Esiste un altro modo di considerare la variabilità, del tutto trascurato in letteratura: il muovere della serie dal minimo al massimo.
Più precisamente il crescere della serie ordinata che è dato dal muovere, dal passaggio, da un valore al successivo più grande. Si consideri che il crescere è anche il riferimento base per valutare il comportamento delle altre serie coinvolte . A differenza della variabilità classica la crescita fornisce il modo per coinvolgere il contesto e ciò rende lecito il valutare gli effetti sulle altre grandezze presenti.
La variabilità non è in grado di chiarire quale sia il rapporto con il contesto né quale sia il contributo qualitativo della serie all’analisi. Lo può fare la crescita, vediamo come. La serie ordinata entra di diritto quando è franca (adatta, affidabile) rispetto alla situazione: avviene quando la valutazione qualitativa, rispetto alle aspettative, dei passaggi (del muovere) da un valore all’altro, purché differenti, risulta univoca, cioè quando li classifica come tutti favorevoli (promettenti), rispetto alle aspettative, oppure come tutti sfavorevoli (non promettenti).
Come esempio, si consideri l’età delle piante di faggio ai fini della produzione di legno. Siccome ci si aspetta che al crescere dell’età il peso della pianta, mediamente, aumenti, i passaggi di età, da un valore all’altro più elevato, hanno tutti un significato, e uno soltanto, nel senso che sono tutti interpretabili (agli effetti della produzione di legno) come promettenti (favorevoli) in modo univoco, inequivocabile. Dunque l’età delle piante di faggio è franca (univoca, non ambigua) rispetto alla situazione.
Invece l’età delle piante di melo di varietà Golden, in un contesto di produzione di mele, presenta passaggi di età, da un valore all’altro più elevato, inizialmente, fino ai 12/15 anni, interpretabili come promettenti (in questo primo periodo la pianta produce mediamente via via sempre di più), successivamente risultano non promettenti (nel secondo periodo la pianta produce mediamente via via sempre di meno). L’età delle piante di melo non è franca rispetto alla situazione. In questo caso l’età delle piante di melo non è valida per l’analisi in corso, non è in grado di mettere la sua variabilità al servizio dell’analisi. Solo una grandezza franca può apportare la propria variabilità all’analisi.
Nell’esempio UE27 (I conti di Bruxelles), rispetto a una politica di ragionevole equilibrio del Disavanzo, punto di riferimento di ogni politica seria, i passaggi del Disavanzo nel primo tratto della serie ordinata, quello negativo, sono favorevoli (si riduce il disavanzo negativo, l’equilibrio si avvicina), nel secondo tratto, quello positivo, risultano sfavorevoli (aumenta il disavanzo positivo, l’equilibrio si allontana). Dunque i passaggi del Disavanzo non sono tutti promettenti e perciò la serie non è franca. Le grandezze Pil e Occupazione sono franche perché presentano passaggi tutti favorevoli (univocamente favorevoli/promettenti) rispetto al contesto di benessere socio-economico-finanziario. La grandezza Debito presenta passaggi tutti sfavorevoli (univocamente sfavorevoli/non promettenti): perciò anche il Debito è una grandezza franca. Per il tasso di Inflazione, a volte, si decide di tollerare la presenza di una soglia, ad esempio pari all’1%, entro la quale il tasso può ritenersi accettabile. In questo caso i passaggi del tasso di Inflazione sono favorevoli soltanto per valori inferiori all’unità, per valori sopra l’unità diventano sfavorevoli.
Volendo riassumere, in questa comunicazione si sostiene che:
In sostanza:
Una serie (e la grandezza corrispondente) è franca (affidabile, cioè che serve all’analisi) quando, e solo quando, tutti i passaggi da un valore al successivo più grande sono migliorativi rispetto alle aspettative dell’analisi, oppure quando sono tutti peggiorativi.
Ricapitolando, il variare è la capacità di prendere valori differenti. Si considerino i valori ordinati dal più piccolo al più grande (in senso non decrescente). I valori ordinati esprimono il crescere della serie. Con quale significato? I passaggi da un valore al successivo più elevato possono essere promettenti o meno rispetto alle aspettative dell’analisi: possono assumere due modalità opposte. Quando tali passaggi sono o tutti promettenti o tutti non promettenti, rispetto alle aspettative, si è in grado di cogliere il significato complessivo del comportamento della serie. In questo caso si dirà che il significato è univoco. Perciò la serie e la grandezza di riferimento possono dirsi franche e in caso contrario ambigue.
Si può trovare facilmente una trasformata tale da rendere franca una serie che non lo è (basta prendere la distanza dal punto di riferimento: nell’esempio delle mele è dato dall’età critica). Si può dimostrare che la franchezza garantisce la presenza di effetti di primo grado e quindi la possibilità di stimare correttamente la struttura di inter-correlazione tra le grandezze.
Con tutto ciò si conclude che non è vero che una grandezza, per quanto scelta e osservata con cura, automaticamente, entri di diritto nell’analisi! Ecco il paradosso! L’affermazione iniziale vale solo in presenza di grandezze franche.
L’importanza del concetto di crescere sta nel fatto che esso, non la variabilità classica, coinvolge l’analisi e le altre grandezze in gioco. È il caso di sottolineare che la metodologia insegna come valutare il comportamento delle altre grandezze presenti proprio "al crescere di ". Perciò "al crescere di " deve essere chiarito in tutti i suoi aspetti, in particolare se è dotato di significato univoco rispetto all’analisi, perciò franco (affidabile). Allora si dirà franca la serie e franca la grandezza. In caso contrario la grandezza va separata dall’analisi perché confondente, risultando ambiguo il suo significato. Naturalmente il ragionamento va esteso a tutte le k grandezze oggetto di studio. In sostanza è a partire dalla crescita di una grandezza ordinata, e non dalla variabilità, che si può rendere conto degli effetti sulle altre grandezze in gioco.
Una serie di dati è adatta all’analisi (si dirà che è franca) se, e solo se, nel percorrere la serie ordinata il muovere da un valore a quello immediatamente più elevato, risulta sempre promettente rispetto alle attese (concorde con gli obiettivi) oppure sempre non promettente (discorde rispetto agli obiettivi).
La morale di questo argomentare è la seguente: si può studiare il comportamento di altre grandezze al variare della serie in questione se, e solo se, il suo crescere è interpretabile univocamente, quando cioè la serie è franca, affidabile. In pratica si deve essere molto severi, molto esigenti. Non basta guardare ‘come balla’ la serie, serve capire ‘come muove’, anzi, più precisamente, ‘come cresce’.
Va osservato infine che le altezze dei gradini della scala, associati alla serie ordinata, , hanno come baricentro della crescita , dove e che rappresenta una misura di variabilità alternativa alla deviazione standard; mentre il coefficiente di crescita relativa, , è una misura alternativa al coefficiente di variazione.