Goochelen met cijfers – Anscombe’s quartet

Vrijwel iedereen kent de uitdrukking: een beeld zegt meer dan 1000 woorden. In 1973 schreef Francis Anscombe zijn artikel “Graphs in Statistical Analysis” waarmee hij aantoont dat ook binnen de statistiek een visualisatie meer zegt dan 1000 datapunten.

Anscombe heeft 4 datareeksen geformuleerd met gelijke statistische eigenschappen.

Gemiddelde X-waarde = 9 (exact)
X-variatie = 11 (exact)
Gemiddelde Y-waarde = 7,50 (2 decimalen nauwkeurig)
Y-variatie = 4,12 tot 4,127 (3 decimalen nauwkeurig)

Anscombe’s quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

 

 

 

 

 

 

 

 

 

 

 

 

Als de reeksen echter worden gevisualiseerd blijken de overeenkomsten minder groot dan wordt verwacht op basis van hun statistische eigenschappen (Anscombe op wikipedia).

Anscombe's Quartet

Nou merk ik al jaren dat visualisaties verhelderend kunnen werken, maar deze wetenschappelijke onderbouwing (van 40 jaar oud) was mij nog niet bekend. Zeer verhelderend in ieder geval!

 

Dit bericht is geplaatst in Business Intelligence. Bookmark de permalink.
  • Over Willem-Jan

  • Over Willem-Jan Swiebel

     

    Ik ben Willem-Jan Swiebel. Als adviseur help ik organisaties op verschillende aspecten van datagedreven werken:

    • technisch: wat heb ik nodig aan infrastructuur, architectuur, software
    • inhoudelijk: welke data is relevant, hoe kan ik dat duiden
    • organisationeel: hoe krijg ik informatie beschikbaar en wat heeft mijn personeel nodig?

     

    ⊗ 06 – 38307081