Encore confidentiel en 2004 pour ne prendre son essor qu’en 2011 environ, le terme « Big Data » trouve ses premières références académiques chez Weiss et Indurkhya en 1998 pour la partie informatique et chez Francis X. Diebold en 2000 pour la partie statistiques et économétrie.
Des travaux non publiés, notamment une présentation préparée le 25 avril 1998 par John Mashey Chief Scientist à Silicon Graphics/Cray Research, y faisaient toutefois aussi référence. La popularisation de ce concept provient de son appropriation originelle par les géants du web – Facebook, Google et Yahoo – qui, confrontés à la progression exponentielle des données, leur hétérogénéité croissante et la multiplication de leurs sources, imaginèrent une solution permettant de contourner les limitations des bases de données classiques et offrant à chacun l’accessibilité en temps réel à des bases de données géantes.
La révolution Big Data s’est appuyée sur l’évolution des technologies de stockage, notamment le Cloud Computing, des technologies de traitement ajustées, en particulier pour les données non structurées – Hadoop – ainsi que sur l’émergence de nouveaux modes de calcul à haute performance – MapReduce -.
Classiquement un système Big Data est défini par Gartner comme possédant trois caractéristiques fondamentales du point de vue des données :