Aller au contenu principal

Jeux de données

Datasets librement téléchargeables pour l'IA (entraînement et évaluation de modèles)


MNIST (Handwritten Digits)

MNIST est le dataset le plus connu pour débuter en vision par ordinateur et réseaux de neurones.

70 000 images en niveaux de gris 28×28 pixels représentant des chiffres manuscrits (0 à 9), divisées en 60 000 images d’entraînement et 10 000 de test. Idéal pour tester la classification d’images.

MNIST

http://yann.lecun.com/exdb/mnist/

Téléchargement (4 fichiers au format idx/gzip :


UCI Machine Learning Repository

UCI Machine Learning Repository est un site de référence qui propose des jeux de données (datasets) pour l’apprentissage automatique et la recherche en data science.

Dans son catalogue, on peut trouver des datasets pour classifier des e-mails en “spam” ou “non-spam” à partir de variables qui décrivent le contenu des messages (fréquence de certains mots, de caractères, longueur de séquences de majuscules, etc.).

UCIhttps://archive.ics.uci.edu/

https://archive.ics.uci.edu/

Téléchargement :


CIFAR-10 / CIFAR-100

CIFAR-10 est un classique pour la classification d’images en couleur.

60 000 images 32×32 pixels en couleur réparties en 10 classes (avion, automobile, oiseau, chat, cerf, chien, grenouille, cheval, bateau, camion) pour CIFAR-10. CIFAR-100 monte à 100 classes. Très utilisé pour comparer les architectures de réseaux convolutifs.

CIFAR-10 exemples

https://www.cs.toronto.edu/~kriz/cifar.html

Téléchargement :


ImageNet

ImageNet est la référence historique pour la vision par ordinateur moderne.

Plus de 14 millions d’images annotées sur ~21 000 classes (version complète) ou ~1 000 classes pour le challenge ILSVRC (souvent appelé simplement ImageNet). C’est sur ce dataset que sont nés AlexNet, VGG, ResNet, etc.

ImageNet

https://www.image-net.org/ - https://www.image-net.org/update-mar-11-2021.php

Téléchargement :

astuce

Le téléchargement nécessite une inscription gratuite.

attention

La version complète est très volumineuse (plusieurs centaines de Go). On utilise donc souvent des sous-ensembles ou des versions prétraitées sur Hugging Face ou Kaggle.


Common Objects in Context (COCO)

MS COCO est le standard pour la détection d’objets, la segmentation et le captioning d’images.

Environ 330 000 images avec plus de 1,5 million d’objets annotés (bounding boxes, masques de segmentation, légendes en langage naturel).

MS COCO est très utilisé pour entraîner des modèles comme YOLO, Mask R-CNN, BLIP, etc.

COCO

https://cocodataset.org/

Téléchargement :


Open Images Dataset (Google)

Open Images est une très grande base de données ouverte proposée par Google.

Plus de 9 millions d’images annotées avec ~600 classes, bounding boxes, masques de segmentation et relations visuelles. Une excellente alternative moderne et massive à ImageNet.

Open Images

https://storage.googleapis.com/openimages/web/index.html

Téléchargement :


Hugging Face Datasets

Hugging Face Datasets est la plateforme communautaire la plus utilisée en 2026 pour charger des datasets en une ligne de code.

Des milliers de datasets prêts à l’emploi (texte, images, audio, multimodal) : GLUE/SuperGLUE (NLP), Common Voice (parole), LAION-Aesthetics (images esthétiques), etc.

C’est devenu l’endroit central pour les chercheurs et développeurs IA grâce à son intégration avec les modèles Transformers.

Hugging Face Datasets

https://huggingface.co/datasets

Téléchargement :


Kaggle

Pourquoi utiliser Kaggle pour ces datasets ?

  • Téléchargement simple et rapide via une interface conviviale.
  • Accès à des notebooks et exemples de code pour démarrer rapidement.
  • Communauté active pour partager conseils et solutions.

Ces datasets sont parfaits pour entraîner des modèles d’intelligence artificielle dans le domaine de la vision par ordinateur, avec des images variées et annotées.

Kaggle

https://www.kaggle.com/datasets

Téléchargement :

  • Fruit Images Dataset
    Ce dataset contient des milliers d’images de fruits variés, parfait pour des projets de classification ou de reconnaissance d’images. Les fruits sont photographiés sous différents angles et conditions d’éclairage, ce qui permet d’entraîner des modèles robustes.

    • Exemples de fruits : pommes, bananes, oranges, fraises, raisins, etc.
    • Utilisation : classification, détection d’objets, segmentation.

    Lien de téléchargement :
    https://www.kaggle.com/datasets/moltean/fruits

  • Animal Images Dataset
    Ce dataset propose une grande variété d’images d’animaux dans leur habitat naturel ou en studio, couvrant plusieurs espèces. Idéal pour des tâches de classification multi-classes ou d’identification d’espèces.

    • Exemples d’animaux : chiens, chats, oiseaux, chevaux, lions, éléphants, etc.
    • Utilisation : reconnaissance d’espèces, classification, apprentissage profond.

    Lien de téléchargement :
    https://www.kaggle.com/datasets/alessiocorrado99/animals10


Autres jeux de données populaires

  • Fashion-MNIST : version “plus dure” de MNIST avec 10 catégories de vêtements (remplace souvent MNIST pour benchmarker)

https://github.com/zalandoresearch/fashion-mnist Téléchargement dans le README ou via Hugging Face : https://huggingface.co/datasets/zalando/fashion-mnist

  • IMDb Reviews : 50 000 critiques de films pour la classification de sentiment (positif/négatif)

https://huggingface.co/datasets/imdb Téléchargement : https://huggingface.co/datasets/imdb (ou version brute : http://ai.stanford.edu/~amaas/data/sentiment/)

  • SQuAD : questions-réponses sur Wikipédia (très utilisé en NLP extractif)

https://rajpurkar.github.io/SQuAD-explorer/

Téléchargement :