Correttezza e significatività

Ritorno sulla questione classifica dei blog perchè mi sono reso conto che quanto dicevo è stato considerato una specie di mia insinuazione sulla buonafede di chi ha fatto la classifica. Io non li conosco e non mi passa per l’anticamera del cervello di esprimere giudizi su persone che non conosco.

Il problema è tecnico, non etico. Si dice su blogbabel.com:

Il calcolo è puramente matematico, e sinceramente fatico ad interpretare il tono vagamente sospettoso che traspare. […] L’algoritmo in se stesso non può essere giudicato attendibile o meno. Se mai si può (e si deve) discutere sui pesi (quelli sì arbitrari) attribuiti ai diversi fattori.

Non può essere giudicato attendibile o meno? Ma manco per sogno! Si confonde correttezza (matematica) con significatività e attendibilità, appunto. Ovviamente assumevo che avessero fatto le operazioni correttamente (in senso matematico). Ma questo non dice nulla sulla significatività delle conclusioni. Faccio un esempio volutamente banale.

La classifica dei campionati in Italia si fa assegnando punti a chi vince o pareggia. Nel calcio, 3,1 e 0. Nel basket, che è lo sport che preferisco 2 e 0. La classifica si fa così perchè le gare si giocano sostanzialmente tutte insieme e quindi "a fine giornata" i punti dicono effettivamente come stanno andando le cose. Nel calcio, con anticipi e posticipi non è proprio più così, ma l’arco temporale è ancora ragionevolmente contenuto.

Nel basket NBA non è così. Si usa, come valore per costruire il ranking, la percentuale di vinte. Perchè? Perchè siccome le partite si giocano in continuazione e le squadre in un certo momento hanno fatto un numero di partite sempre diverso, dare i "due punti" e calcolare la somma non mi dice niente. Ovviamente posso fare un conteggio "corretto" anche sommando i due punti, ma non sarebbe significativo perchè il contesto non dà alcun senso ai "due punti".

Anche la percentuale di vinte è soggetta a rischi e approssimazioni. All’inizio, quando hanno giocato poche gare, basta una vittoria o una sconfitta per sconbussolare il ranking. Così come il ranking sarebbe "poco significativo" se il numero di partite giocate dalle diverse squadre fosse significativamente diverso (vincerne due su tre non è come vincerne venti su trenta). Ma per come sono messi, il ranking "dice quello che deve dire" a chi vuol sapere "chi è in testa".

Non basta dire il conteggio è pubblicato e noi garantiamo che sia stato fatto "correttamente". Questo non implica necessariamente che sia "significativo".  E non c’entra niente la buonafede che do per scontata.

7 Comments

  1. Ubik said:

    Gli autori della classifica lo sanno bene che la correttezza del numero non implica la significatività. Tanto è vero che hanno avuto il buon senso di inserire un alert (il tringolino giallo accanto ad alcuni blog) che avverte quando il risultato numerico è inficiato da una causa esterna, come l’alto numero di link fittizi in un network.

    Il problema è quello non è l’unico problema che toglie significatività al numero.

    19/01/2007
    Reply
  2. Marco B. Rossi said:

    Si vede che gli autori della classifica non hanno fatto Metodi per il Trattamento dell’Informazione a differenza di noi (io, con Bertone)…

    19/01/2007
    Reply
  3. A me sembra che ci sia un problema più radicale. (metodologico, se non suona come una parolaccia)

    Cosa giudica la classifica? Se vuole essere un’indicazione della popolarità “tra gli altri blogger” va bene. Se invece vuole essere un’indicazione della popolarità fra tutti i lettori, allora il metodo non va bene.

    Questo perchè la maggior parte degli indicatori presi in considerazione, si basa sul numero di link e affini a un determinato blog. Non sui visitatori, che per altro sarebbe molto più difficile rilevare.

    Per cui ai fini della classifica vale di più essere letto da due blogger, che ti linkano, che da cento lettori ‘passivi’ che non ti possono linkare da nessuna parte.

    E’ così per technorati, per l’algoritmo dietro PageRank etc. E’ una questione abbastanza generale, però forse dovrebbe essere in maggiore evidenza nelle faq e simili.

    21/01/2007
    Reply
  4. …oppure hanno scarse conoscenze nel contesto delle scienze statistiche.

    21/01/2007
    Reply
  5. Luca said:

    Mi capita spesso, in un ambito diverso da questo, di discutere della differenza tra correttezza e significatività.
    Mi occupo di comportamenti organizzativi.
    Non avete idea di quanti confondano il “fare le cose bene” con il “fare le cose giuste”.

    21/01/2007
    Reply
  6. […] avevo notato dei blog/siti che si autocitavano. Non avevo pensato che uno dei motivi potesse essere la famosa classifica (e qui mi autocito io ). Roberto Dadda: Tumblelog, continuano a non piacermi e finalmente so anche […]

    21/01/2008
    Reply
  7. […] vantaggi e svantaggi. Ci tornerò con calma in un altro post anche se ne avevo già brevemente parlato qui e qui a proposito della “classifica dei blog”, sollevando proprio il tema rilanciato da […]

    21/08/2015
    Reply

Rispondi