Vrijwel iedereen kent de uitdrukking: een beeld zegt meer dan 1000 woorden. In 1973 schreef Francis Anscombe zijn artikel “Graphs in Statistical Analysis” waarmee hij aantoont dat ook binnen de statistiek een visualisatie meer zegt dan 1000 datapunten.
Anscombe heeft 4 datareeksen geformuleerd met gelijke statistische eigenschappen.
Gemiddelde X-waarde = 9 (exact)
X-variatie = 11 (exact)
Gemiddelde Y-waarde = 7,50 (2 decimalen nauwkeurig)
Y-variatie = 4,12 tot 4,127 (3 decimalen nauwkeurig)
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Als de reeksen echter worden gevisualiseerd blijken de overeenkomsten minder groot dan wordt verwacht op basis van hun statistische eigenschappen (Anscombe op wikipedia).
Nou merk ik al jaren dat visualisaties verhelderend kunnen werken, maar deze wetenschappelijke onderbouwing (van 40 jaar oud) was mij nog niet bekend. Zeer verhelderend in ieder geval!