Ori de câte ori dorim să observăm sau să investigăm un fenomen sau o variabilă, există două tipuri fundamentale de surse de date pe care ar trebui să le utilizăm. În primul rând, ar trebui să avem acces la întreaga populaţie (colectivitate definită în sens statistic). Înţelegem prin aceasta să avem acces la toate observaţiile posibile, trecute, prezente şi viitoare, cu privire la variabila de interes. De exemplu, dacă variabila noastră ar fi câştigurile din luna martie 2005 realizate de un muncitor din industria siderurgică şi am avea acces la un studiu complet referitor la aceste câştiguri, am putea să emitem ipoteze privind populaţia ce face obiectul observaţiilor referitoare la această variabilă.
Din păcate, nu avem acces la populaţie. Am avea nevoie de un studiu complet cu privire la câştigurile din industria siderurgică dar nici acesta nu există.
Eşantionul reprezintă cel de al doilea tip de surse de date de care am putea dispune. Pe baza unui eşantion, trebuie să deducem fapte în legătură cu populaţia din care s-a prelevat acesta. Procesul de extragere a datelor calculate pe baza eşationării la întreaga populaţie este cunoscut sub denumirea de inferenţă statistică.
Cu acelaşi tipic de inferenţă statistică: să presupunem că în 2004, câştigurile în industria siderurgică au fost complet monitorizate, astfel încât ştim că media acestora a fost de 600 RON. Acum suntem în luna martie 2005 şi dorim să stabilim dacă media câştigurilor a crescut faţă de anul precedent. Nu avem acces la studiul pentru martie dar avem timp să intervievăm numai 100 de muncitori. Din calcule rezultă că acest eşantion de 100 de muncitori a înregistrat câştiguri medii lunare de 650 RON. Putem oare deduce, în baza dovezii dată de acest eşantion, că media câştigurilor lunare a crescut pentru întreaga industrie, în ansamblu ?