Misure e qualità

Nel corso delle discussioni sul tema del valore e qualità delle università italiane avviato a valle degli articoli sulle “lauree utili”, alcuni colleghi e commentatori hanno mosso forti critiche all’articolo di ROARS che proponeva una “controclassifica” rispetto a quella proposta da ARWU (nota come classifica di Shanghai). La critica è stata ben espressa da un collega economista secondo il quale “ è assurdo pensare che l’Università di Ferrara possa essere meglio di Princeton”.

Pur non facendo parte di ROARS, mi pare di poter dire che questa interpretazione del lavoro fatto da ROARS sia forzata, sbagliata e anche un po’ paradossale. Provo ad argomentare affrontando il tema da due punti di vista: tecnico e “politico/strategico”.

1. Aspetti tecnici

1.1 Significatività

La critica di molti colleghi è che l’indicatore usato da ROARS – Expense per ARWU point = Operating Expenses / Total ARWU score (cioè costo complessivo diviso punteggio ARWU) – sia sbagliato e fuorviante, come spiega, per esempio, l’amico Thomas Manfredi in questo articolo.

L’output di una università non sono i punti di una classifica, ma la conoscenza trasmessa agli studenti, che si traduce in salari futuri in grado di giustificare l’investimento intrapreso.

Ma questo è esattamente il punto di ROARS! L’articolo di ROARS, in modi per certi versi paradossali (ma non troppo …), voleva stigmatizzare il vizio italiano (e non solo) di banalizzare o semplificare in modo eccessivo i problemi. Non è ROARS ad aver stabilito una classifica di qualità sulla base del punteggio ARWU: l’ha fatto ARWU! E non è certo ROARS che sulla base di tale punteggio ha per l’ennesima volta criticato e giudicato negativamente le università italiane.

Il punto è proprio questo: ARWU ha arbitrariamente definito una metrica di qualità di un ateneo e sulla base di quella metrica ha stabilito un ordinamento. È un metodo usato anche in altri campi ed è un metodo che presenta vantaggi e svantaggi. Ci tornerò con calma in un altro post anche se ne avevo già brevemente parlato qui e qui a proposito della “classifica dei blog”, sollevando proprio il tema rilanciato da Thomas: cosa si intende per output e quale è la metrica che lo misura?

Con questo, ovviamente, non voglio certo dire che Ferrara sia meglio di Princeton: è ovvio quale siano i rapporti tra le due. Ma un primo punto del ragionamento di ROARS era mettere in discussione queste classifiche che di scientifico hanno poco e che invece nel nostro paese vengono acriticamente assunte come valutazioni indiscutibili e “assolute” per dire che “il sistema universitario (tutto!) fa un po’ schifo”.

1.2 La valutazione di efficienza

Un’altra critica –– o meglio, una variante della stessa critica –– dice che la classifica di ROARS premia chi spende poco rispetto a chi produce alta qualità. A parte il fatto che ROARS non voleva fare classifiche (anzi, voleva criticarle!)  e voleva invece ragionare “per assurdo” (e l’ha scritto nel suo articolo ripetendo questo concetto diverse volte), devo dire che rimango un po’ sorpreso dal ragionamento dei colleghi.

Nessuno si sogna di dire che una Prius sia in generale “migliore” di una Ferrari. È ovvio che se guardo prestazioni, prestigio e attrattività, una Ferrari sia “meglio” di una Prius (peraltro, per alcuni così non è …). Ma è indubbio che dal punto di vista dei consumi e del costo di esercizio (km per litro di carburante o costo totale per km o km percorsi per costo unitario, scegliete voi) la Prius sia migliore di una Ferrari. Abbiamo dubbi in proposito?

Allo stesso modo, nel mondo del trasporto aereo un indicatore di efficienza è il costo per “available seat mile” o CASM:

Measure of unit cost in the airline industry. CASM is calculated by taking all of an airline’s operating expenses and dividing it by the total number of available seat miles produced.

Una compagnia aerea commerciale ha certamente un CASM minore (e quindi migliore) rispetto a chi affitta aerei executive da 10 posti. Questo vuol dire che viaggiare in economica su un affollato volo per Tokio su un 747 sia una esperienza migliore del viaggio su una lussuosa poltrona in pelle di un jet executive? Ovviamente no, ma è certamente più efficiente dal punto di vista dell’allocazione delle risorse e della accessibilità da parte di tutte le fasce della popolazione.

ROARS ha preso quello che altri hanno definito essere l’output, e cioè il punteggio ARWU, e ha valutato una semplice misura di efficienza. Vuol dire che dal punto di vista accademico Ferrara è meglio di Princeton? No, ovviamente. Ma quanto meno ci deve venire il sospetto che a parità di unità prodotta (per come l’ha definita ARWU, non ROARS!) alla società l’università di Ferrara costi meno di Princeton.

Si dirà “ma il punteggio ARWU è su una scala ordinale e non a intervalli né tantomeno a rapporti” (vedi qui oppure qui) e quindi non si possono misurare distanze relative o fare rapporti (si veda in appendice al termine di questo post una breve introduzione al tema per chi lo non conoscesse). In realtà,  per come è stata definita da ARWU, la metrica ha non solo una scala di misura ad intervalli, ma a rapporti (ha lo zero assoluto). Per capirci, se raddoppio gli articoli scientifici prodotti, raddoppia il relativo contributo al punteggio ARWU; se non ho articoli scientifici, il contributo è zero. Quindi, perché mai non si potrebbe fare una misura di efficienza data da un rapporto tra investimento e punteggio ARWU ottenuto?

In altre parole, è ovvio, come scrivono in prima battuta i colleghi di ROARS, che il loro esercizio è volutamente provocatorio. Ma ha una sua motivazione e ragionevolezza. E forse i critici dovrebbero tenere tutto questo in considerazione prima di o nel criticare le provocazioni di ROARS.

Peraltro, meccanismi di questo tipo sono stati utilizzati nel report prodotto per il governo inglese dove si vede che se dal punto di vista dei valori assoluti il nostro paese fa fatica, sul fronte dell’efficienza le nostre università nel loro complesso non vanno per nulla male: esattamente quello che dice ROARS. E quel report non l’ha scritto ROARS …

2. Aspetti politico/strategici

L’altra principale critica rivolta a ROARS è che questo tipo di argomenti giustifica e difende l’operato di università inefficienti e gli atteggiamenti clientelari e baronali così frequentemente riportati dalle nostre cronache. Quanto fa ROARS sarebbe una difesa strumentale di inefficienze e interessi localistici che non aiutano il sistema universitario italiano a crescere. Sarebbe solo una richiesta di maggiori fondi che, a parità di sistema, costituirebbero un altro spreco di risorse pubbliche.

A queste critiche vorrei contrapporre le seguenti osservazioni:

  • In Italia esistono tante realtà di ricerca eccellenti che sono quotidianamente ignorate o assimilate alle pratiche di mala-università. Per primo chiedo una valutazione seria e per primo chiedo che le realtà serie che lavorano e cercano di competere siano distinte da chi invece spreca in modo inaccettabile le risorse pubbliche. Perché dobbiamo ignorare gli sforzi e i risultati che stanno ottenendo, per fare solo qualche esempio, i colleghi di Pisa sul fronte delle tecnologie di trasmissione dati ad altissima velocità, o i colleghi del polo milanese sulle biotecnologie e le scienze della vita, o i colleghi di Trento sul fronte dell’internazionalizzazione e attrazione di investimenti? È giusto, equo, accettabile e, soprattutto, utile al paese?
  • Vogliamo forse dire che le risorse economiche sono ininfluenti rispetto alla qualità e quantità degli output? Possiamo continuare a ignorare diagrammi come quello che segue, e chiedere le prestazioni di una Ferrari al costo di una Prius? Dicevo in questi giorni, che io come informatico posso lavorare (spesso) anche solo con un PC. Ma un fisico come attrezza un laboratorio? Con quali risorse?

IMG 0123

Sono io il primo a chiedere una forte azione politica e vorrei dire sociale che cerchi in tutti i modi di valorizzare merito, qualità, competizione. Ma è funzionale a questo obiettivo continuare a mettere nello stesso calderone chi si dà da fare e chi no? Ha senso continuare a svilire e disprezzare i tanti colleghi che lavorano e si impegnano seriamente? Questo atteggiamento aiuta a premiare il merito e a valorizzare chi cerca di competere?

Su questo tutti –– esperti, politici, commentatori –– dovremmo impegnarci se veramente vogliamo il bene del nostro Paese.


 

Piccola appendice sulle scale di misura

Ogni misura, per come è definita, può essere caratterizzata da una scala o livello di misura, che sostanzialmente dice “quanto è potente” quella misura e quali operazioni si possono fare su di essa.

Esistono (almeno) quattro scale di misura, caratterizzate da una crescente capacità espressiva:

  1. Scala Nominale: caratterizza misure che costituiscono classificazioni “pure” come Sesso o Nazionalità. Caratterizzano l’entità misurata, ma non permettono di fare alcuna operazione se non l’uguaglianza (e disuguaglianza). Posso dire “queste due entità sono dello stesso sesso o della stessa nazionalità”, ma non posso dire per esempio che una sia “maggiore” dell’altra (a meno che non sia razzista o misogino).
  2. Scala Ordinale: caratterizza misure che definiscono solo un ordinamento parziale, cioè “cosa viene prima e cosa viene dopo”, senza poter dire nulla sulle distanze relative. Se per una gara di corsa do il solo ordine di arrivo senza dire i tempi di percorrenza, non posso in alcun modo dire quanto il secondo sia stato più lento del primo: posso solo dire che è arrivato dopo.
  3. Scala a Intervalli: caratterizza misure nelle quali posso definire le distanze relative. Per esempio, le misure di temperatura in gradi Celsius permettono di dire che tra 10° e 20° c’è la stessa differenza che esiste tra 25° e 35°. Siccome però manca uno zero assoluto (quello della scala Celsius è relativo!) non posso dire, per esempio, che una temperatura sia “doppia” di un’altra.
  4. Scala a Rapporti: sono misure per le quali esiste lo zero assoluto e quindi posso effettuare rapporti. È il caso della misura della temperatura in gradi Kelvin (che ha lo zero assoluto!) o della misura di lunghezza in metri.

Le implicazioni di queste definizioni sono molto importanti. Per esempio, nel caso di scala nominale non posso calcolare la media, ma solo la “moda”, cioè è il valore che ha la frequenza maggiore. Allo stesso modo, nel caso di di scala ordinale posso solo calcolare la “mediana”, cioè il valore che “spezza” a metà il gruppo di valori osservato. È solo a partire dalla scala a intervalli che posso calcolare la media.

One Comment

  1. Alessandro Veneziani said:

    Articolo eccellente che ha il grandissimo merito di chiarire gli aspetti spinosi della vicenda, ma soprattutto di sottolineare la necessita’ di una valutazione seria e talvolta impopolare delle realta’ accademiche italiane. Il passaggio dalla protesta alla proposta e’ faticosissimo, ma necessario. Questo articolo lo indica molto bene. Complimenti.

    22/08/2015
    Reply

Rispondi