Goochelen met cijfers – Anscombe’s quartet

Vrijwel iedereen kent de uitdrukking: een beeld zegt meer dan 1000 woorden. In 1973 schreef Francis Anscombe zijn artikel “Graphs in Statistical Analysis” waarmee hij aantoont dat ook binnen de statistiek een visualisatie meer zegt dan 1000 datapunten.

Anscombe heeft 4 datareeksen geformuleerd met gelijke statistische eigenschappen.

Gemiddelde X-waarde = 9 (exact)
X-variatie = 11 (exact)
Gemiddelde Y-waarde = 7,50 (2 decimalen nauwkeurig)
Y-variatie = 4,12 tot 4,127 (3 decimalen nauwkeurig)

Anscombe’s quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

 

 

 

 

 

 

 

 

 

 

 

 

Als de reeksen echter worden gevisualiseerd blijken de overeenkomsten minder groot dan wordt verwacht op basis van hun statistische eigenschappen (Anscombe op wikipedia).

Anscombe's Quartet

Nou merk ik al jaren dat visualisaties verhelderend kunnen werken, maar deze wetenschappelijke onderbouwing (van 40 jaar oud) was mij nog niet bekend. Zeer verhelderend in ieder geval!

 

Dit bericht is geplaatst in Business Intelligence. Bookmark de permalink.
  • Over Willem-Jan

  • Over Willem-Jan Swiebel

    EnProfil

    Ik ben Willem-Jan Swiebel. Via deze website kom je te weten wat ik doe, hoe ik dat aanpak en veel belangrijker waarom ik dat doe. Ik help organisaties met de inzet van informatie en technologie en ik probeer ook nog eens zelf te ontdekken waar de wereld heen gaat.

    ⊗ 06 – 38307081