La correlazione è un concetto statistico che viene molto spesso frainteso e mal interpretato, sia sui giornali che (per dire) nel settore SEO; questo sia per la mania di semplificare le cose – esigenza dettata dal marketing, in effetti – che per un’effettivo fraintendimento o peggio totale ignoranza in fatto di statistica. La correlazione e la sua cattiva interpretazione è forse uno dei casi più eclatanti di misleading graph, ovvero quegli scenari in cui si usano grafici in modo errato, tendenzioso, prevenuto, per giustificare una propria idea o peggio per provare ad avvalorarla anche se, in effetti, in assoluta carenza di metodo.

Attenzione: in questo articolo si parla dei problemi della correlazione legati allo scenario SEO (Search Engine Optimization). Qualsiasi altra considerazione su altri ambiti verrà fatta solo se davvero necessario a capire di cosa parliamo.

Nella SEO succede questo, più o meno: si individua un fattore accattivante (l’uso della keyword nel titolo, un backlink da un sito autorevole e via dicendo, a giro) e si tende – sulla base di un’analisi statistica (un campione di X siti) – ad attribuire a quel fattore (ranking factor) un’importanza più o meno “forte”: della serie, se fai questo arrivi primo su Google. Il che, alla prova dei fatti, diventa poco più di un trend vuoto e senza spessore, semplicemente da imitare in massa – il misleading graph, in effetti, è un modo elegante per riferirsi alla nota teoria della montagna di m.

SeedingUp | Digital Content Marketing

In termini pratici, le correlazioni tendono a creare cattivi esempi oltre che indicare direzioni fuorvianti, oltre a mettere in ombra l’aspetto legato alla consulenza stessa: esempi di correlazioni molto abusati derivano, senza che io li linki a vuoto, da “studi” del tutto inattendibili (anche se, va detto, non per forza maliziosi) sui cosiddetti ranking factor.

A chi obietta che l’abuso del concetto di correlazione in ambito SEO sia tutto sommato innocuo (molti del settore lo pensano) rispondo da sempre, per inciso, che il danno più grosso lo si fa a livello di false aspettative, esempio: il cliente si aspetta che ad un’azione anche minima corrisponda per forza una reazione solo perchè nel “blog autorevole A il guru B ha scritto C supportandosi col grafico D“.

Uno schema che si ripete alla nausea ormai da anni, e che crea almeno due ordini di problemi:

  1. crea aspettative difficili da soddisfare, complicando inutilmente la vita a tutti;
  2. crea potenziali pretesti perchè le consulenze SEO non vengano pagate (certo bisogna essere cattivelli per farlo, ma i presupposti non sono banali da smentire e spero che questo articolo possa essere utile a farlo)

Ecco il vero danno della correlazione: far passare una correlazione tra due fattori come causalità rischia di mettere in discussione, di punto in bianco, mesi di duro lavoro. Ecco perchè ho scritto questo articolo nella speranza che, un giorno non lontanissimo, questa triste tendenza acchiappa-click possa trovare la parola “fine”.

Vana speranza, fino ad oggi.

Non voglio perdermi nelle spiegazioni dei problemi annessi alla correlazione fraintesa come causalità, anche perchè basta Wikipedia per capirlo da soli: vorrei piuttosto concentrarmi su un esempio pratico – per quanto ipotetico – che, ciclicamente, si ripropone in diverse varianti sulla piazza.

Per capirci, immaginiamo di fissare l’attenzione su un argomento (ad esempio la query di ricerca: “corsi per webmaster“), e facciamo questo ipotetico esperimento. Troviamo un criterio per estrarre tutti post del nostro blog che siano pertinenti all’argomento “corsi per webmaster”, e poniamo di ripetere la procedura su tutti i più importanti siti e blog dei nostri concorrenti. A questo punto potremmo – in PHP e Open Graph di Facebook è possibile farlo facilmente, peraltro – calcolare il numero di condivisioni di ognuno degli articoli che parlano di “corsi per webmaster”, ottenendo così una lista del genere (titolo, URL, numero condivisioni):

  1. Come diventare webmaster col miglior corso online (sito1.it), 500 condivisioni
  2. Corsi online per webmaster a soli 1500 € (sito2.it), 400 condivisioni
  3. Corsi di formazione per webmaster – Iscriviti ora (sito3.it), 200 condivisioni
  4. Corsi formazione 2016 webmaster (sito4.it), 50 condivisioni

Quello che verrà fuori, insomma, è una classifica in cui, ad esempio, su una colonna metteremo l’URL o il titolo dell’articolo,  e sull’altra il numero di like in ordine decrescente (dal più grande al più piccolo). Proviamo ora a cercare su Google “corsi per webmaster”, e prendiamo nota dei primi 4 risultati.

Per lo scopo del nostro esempio, poniamo che l’ordine dell’uno e dell’altro coincidano: stiamo simulando il processo di inganno della correlazione, ed è questo il punto cruciale da considerare. A questo punto, infatti, saremmo tentati dal trarre una conclusione dall’esperimento: Google ordina i risultati di ricerca in base al numero di condivisioni!

Conclusione che non deve portarci fuori strada, tuttavia: il fatto che l’ordine di share decrescenti corrisponda con l’ordinamento che Google fornisce per quei risultati non vuol dire affatto che Google abbia ordinato in base al numero di share! Questo perchè esiste certo una correlazione inversa molto forte tra le due misure (ovvero il numero di share da un lato, e la posizione su Google dall’altro), ma questo non vuol dire che una sia influenzata in alcun modo dall’altra.

Del resto una delle correlazioni spurie più famose è riportata dal fisico americano Bobby Henderson, e lega apparentemente – in una sua brillante provocazione di qualche anno fa – l’aumento della temperatura media della terra con la diminuzione del numero di pirati.

piratesarecool4

Il senso del tutto è ancora più chiaro consultando le correlazioni spurie che sono state trovate sul sito Tylervigen: con diverse gradazioni percentuali, si tratta di correlazioni superiori al 60% (si noti come quelle davvero interessanti siano prossime al 100%, e come in molti blog SEO si riportino come “significative” correlazioni del 10 o del 20% tra titolo e posizione su Google della pagina).

  • Spese annuali USA per scienza, spazio e tecnologia correlato fortemente con Numero annuale di suicidi per impiccagione, strangolamento e soffocamento
  • Numero annuale di persone morte annegate in piscina correlato con Numero di film per anno in cui è comparso Nicolas Cage
  • Consumo mensile di formaggio correlato con Numero di persone morte impigliate nelle proprie lenzuola
  • Numero di divorzi annuali nel Maine correlato con Consumo di margarina pro capite

Attenzione, quindi, a non farci portare fuori strada da analisi che, di fatto, periodicamente vengono riproposte anche (purtroppo) su blog autorevoli del settore.

Nota: questo post deve molto, tra l’altro, alle mie letture su argomenti scientifici (Dawkins, Odifreddi e molti altri), a Bobby Henderson ( fonte ) a tutti i pastafariani e – non ultimo come importanza – all’impostazione fornita dal blog LowLevel.it. Il minimo che possa fare, senza perdermi in altri inutili ricami, è dire loro “grazie”.

…ogni volta che si usano dei fatti per supportare una conclusione precostituita si è disonesti. La scienza non è affatto immune: è estremamente facile sostituire «correlazioni» con «cause» per provare qualsiasi cosa uno voglia, come per esempio che la diminuzione dei pirati causa il surriscaldamento globale (B. Henderson).


Correlazione non implica causalità, cosa vuol dire?
Ah, bravo Figaro! Bravo, bravissimo
computer-searches-1172405_1920
Valutazione degli utenti: 5.00/5 sulla bellezza di 6 votanti