W kontekście danych wykorzystywanych na potrzeby trenowania i stosowania algorytmów i modeli uczenia maszynowego czy głębokiego powiedziano i napisano wiele. Mimo to dość często pokutuje przekonanie, że im więcej danych na potrzeby trenowania, walidacji i testowania – tym lepiej. I częściowo to prawda, bo im więcej dobrych jakościowo danych, tym lepiej dla trenowanego modelu. Sama ilość danych nie będzie jednak samoistnym wyznacznikiem skuteczności czy dokładności danego modelu, a już na pewno znacząca ilość danych o złej jakości nie przyczyni się do poprawy tych wskaźników. Ważniejsza, szczególnie w tych obszarach, które „dotykają” różnych sfer człowieka, jest ich jakość, która jednak jest trudna do jednoznacznego zdefiniowania, bowiem JAKOŚĆ zależy od tego do czego chcemy wykorzystać mechanizmy uczenia maszynowego czy głębokie, a nawet „zwykłą” statystykę, pisze Michał Nowakowski.