En 10 ans, combien de pages web sont déjà inaccessibles ? (indice : c'est énorme)
Par Laurence - Publié le
Le Pew Research Center vient de mener une enquête visant à examiner le vieillissement d'internet, ou plus exactement la fréquence à laquelle un contenu en ligne devient inaccessible au fil des années.
Selon cette étude, un quart de toutes les pages Web -qui existaient entre 2013 et 2023- n'était plus accessibles en octobre 2023. Environ 38 % des pages Web créées en 2013- ne sont plus disponibles aujourd’hui, contre 8 % de celles créées en 2023. Pour les pages datant de 2021, environ une sur cinq n’était plus accessible à peine deux ans plus tard.
De même, 25 % de toutes les pages collectées de 2013 à 2023 ne sont plus accessibles en octobre 2023 : 16 % des pages sont inaccessibles mais proviennent d'un site toujours fonctionnel (mais le lien est mort), 9 % restants sont inaccessibles car l’intégralité du site n’est plus fonctionnel.
Pour obtenir les résultats, précisons que les chercheurs ont utilisé une méthode par échantillonnage aléatoire, se basant sur un peu moins d'un million de pages Web provenant des archives de Common Crawl (soit environ 90 000 pages par an).
Dans le détail, 23 % des pages Web d’actualités contiennent au moins un lien brisé, tout comme 21 % des pages Web de sites gouvernementaux. À noter que la taille des sites d’information -avec un niveau de trafic élevé- n’a que peu d’incidence sur la conservation ou non des pages web. Du côté de l’encyclopédie en ligne Wikipédia, 54% des pages contiennent au moins un lien mort dans la section
De plus, l’étude s’est également penchée sur les réseaux sociaux -et sur X plus particulièrement- depuis le printemps 2023. Il ressort que près d’un tweet sur cinq n’est plus visible publiquement quelques mois seulement après sa publication. Dans 60 % de ces cas, le compte qui avait initialement publié le tweet a été rendu privé, suspendu ou entièrement supprimé. Dans les 40 % restants, le titulaire du compte a supprimé le tweet, mais le compte lui-même existe toujours.
38% des pages créées il y a 10 ans sont mortes...
Selon cette étude, un quart de toutes les pages Web -qui existaient entre 2013 et 2023- n'était plus accessibles en octobre 2023. Environ 38 % des pages Web créées en 2013- ne sont plus disponibles aujourd’hui, contre 8 % de celles créées en 2023. Pour les pages datant de 2021, environ une sur cinq n’était plus accessible à peine deux ans plus tard.
De même, 25 % de toutes les pages collectées de 2013 à 2023 ne sont plus accessibles en octobre 2023 : 16 % des pages sont inaccessibles mais proviennent d'un site toujours fonctionnel (mais le lien est mort), 9 % restants sont inaccessibles car l’intégralité du site n’est plus fonctionnel.
Pour obtenir les résultats, précisons que les chercheurs ont utilisé une méthode par échantillonnage aléatoire, se basant sur un peu moins d'un million de pages Web provenant des archives de Common Crawl (soit environ 90 000 pages par an).
Dans le détail, 23 % des pages Web d’actualités contiennent au moins un lien brisé, tout comme 21 % des pages Web de sites gouvernementaux. À noter que la taille des sites d’information -avec un niveau de trafic élevé- n’a que peu d’incidence sur la conservation ou non des pages web. Du côté de l’encyclopédie en ligne Wikipédia, 54% des pages contiennent au moins un lien mort dans la section
Références!
De plus, l’étude s’est également penchée sur les réseaux sociaux -et sur X plus particulièrement- depuis le printemps 2023. Il ressort que près d’un tweet sur cinq n’est plus visible publiquement quelques mois seulement après sa publication. Dans 60 % de ces cas, le compte qui avait initialement publié le tweet a été rendu privé, suspendu ou entièrement supprimé. Dans les 40 % restants, le titulaire du compte a supprimé le tweet, mais le compte lui-même existe toujours.