Jeux de données

Datasets librement téléchargeables pour l'IA (entraînement et évaluation de modèles)

MNIST (Handwritten Digits)

MNIST est le dataset le plus connu pour débuter en vision par ordinateur et réseaux de neurones.

70 000 images en niveaux de gris 28×28 pixels représentant des chiffres manuscrits (0 à 9), divisées en 60 000 images d’entraînement et 10 000 de test. Idéal pour tester la classification d’images.

MNIST

http://yann.lecun.com/exdb/mnist/

Téléchargement (4 fichiers au format idx/gzip :

Images d’entraînement : http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Étiquettes d’entraînement : http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Images de test : http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Étiquettes de test : http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz

UCI Machine Learning Repository

UCI Machine Learning Repository est un site de référence qui propose des jeux de données (datasets) pour l’apprentissage automatique et la recherche en data science.

Dans son catalogue, on peut trouver des datasets pour classifier des e-mails en “spam” ou “non-spam” à partir de variables qui décrivent le contenu des messages (fréquence de certains mots, de caractères, longueur de séquences de majuscules, etc.).

UCI https://archive.ics.uci.edu/

https://archive.ics.uci.edu/

Téléchargement :

Page principale du catalogue : https://archive.ics.uci.edu/
Exemple Spambase (spam/non-spam) : https://archive.ics.uci.edu/dataset/94/spambase
→ Téléchargement direct du fichier de données : https://archive.ics.uci.edu/static/public/94/data.csv

CIFAR-10 / CIFAR-100

CIFAR-10 est un classique pour la classification d’images en couleur.

60 000 images 32×32 pixels en couleur réparties en 10 classes (avion, automobile, oiseau, chat, cerf, chien, grenouille, cheval, bateau, camion) pour CIFAR-10. CIFAR-100 monte à 100 classes. Très utilisé pour comparer les architectures de réseaux convolutifs.

CIFAR-10 exemples

https://www.cs.toronto.edu/~kriz/cifar.html

Téléchargement :

CIFAR-10 : https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
CIFAR-100 (version plus difficile) : https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz

ImageNet

ImageNet est la référence historique pour la vision par ordinateur moderne.

Plus de 14 millions d’images annotées sur ~21 000 classes (version complète) ou ~1 000 classes pour le challenge ILSVRC (souvent appelé simplement ImageNet). C’est sur ce dataset que sont nés AlexNet, VGG, ResNet, etc.

ImageNet

https://www.image-net.org/ - https://www.image-net.org/update-mar-11-2021.php

Téléchargement :

Images ILSVRC 2012 (train + val) : https://image-net.org/download-images
Les liens exacts apparaissent après connexion sur https://www.image-net.org/download.php
Versions plus légères et prêtes à l’emploi (ILSVRC 2012 subset ou versions prétraitées) : https://huggingface.co/datasets/imagenet-1k

astuce

Le téléchargement nécessite une inscription gratuite.

attention

La version complète est très volumineuse (plusieurs centaines de Go). On utilise donc souvent des sous-ensembles ou des versions prétraitées sur Hugging Face ou Kaggle.

Common Objects in Context (COCO)

MS COCO est le standard pour la détection d’objets, la segmentation et le captioning d’images.

Environ 330 000 images avec plus de 1,5 million d’objets annotés (bounding boxes, masques de segmentation, légendes en langage naturel).

MS COCO est très utilisé pour entraîner des modèles comme YOLO, Mask R-CNN, BLIP, etc.

COCO

https://cocodataset.org/

Téléchargement :

2017 Train images : http://images.cocodataset.org/zips/train2017.zip
2017 Val images : http://images.cocodataset.org/zips/val2017.zip
2017 Test images : http://images.cocodataset.org/zips/test2017.zip
Annotations (train/val) : http://images.cocodataset.org/annotations/annotations_trainval2017.zip

Open Images Dataset (Google)

Open Images est une très grande base de données ouverte proposée par Google.

Plus de 9 millions d’images annotées avec ~600 classes, bounding boxes, masques de segmentation et relations visuelles. Une excellente alternative moderne et massive à ImageNet.

Open Images

https://storage.googleapis.com/openimages/web/index.html

Téléchargement :

Images + annotations (plusieurs variantes) : https://storage.googleapis.com/openimages/web/download.html

Hugging Face Datasets

Hugging Face Datasets est la plateforme communautaire la plus utilisée en 2026 pour charger des datasets en une ligne de code.

Des milliers de datasets prêts à l’emploi (texte, images, audio, multimodal) : GLUE/SuperGLUE (NLP), Common Voice (parole), LAION-Aesthetics (images esthétiques), etc.

C’est devenu l’endroit central pour les chercheurs et développeurs IA grâce à son intégration avec les modèles Transformers.

Hugging Face Datasets

https://huggingface.co/datasets

Téléchargement :

MNIST : https://huggingface.co/datasets/mnist
Fashion-MNIST : https://huggingface.co/datasets/zalando/fashion-mnist
IMDb Reviews : https://huggingface.co/datasets/imdb
COCO (captions) : https://huggingface.co/datasets/HuggingFaceM4/COCO
ImageNet-1k : https://huggingface.co/datasets/imagenet-1k

Kaggle

Pourquoi utiliser Kaggle pour ces datasets ?

Téléchargement simple et rapide via une interface conviviale.
Accès à des notebooks et exemples de code pour démarrer rapidement.
Communauté active pour partager conseils et solutions.

Ces datasets sont parfaits pour entraîner des modèles d’intelligence artificielle dans le domaine de la vision par ordinateur, avec des images variées et annotées.

Kaggle

https://www.kaggle.com/datasets

Téléchargement :

Fruit Images Dataset
Ce dataset contient des milliers d’images de fruits variés, parfait pour des projets de classification ou de reconnaissance d’images. Les fruits sont photographiés sous différents angles et conditions d’éclairage, ce qui permet d’entraîner des modèles robustes.
- Exemples de fruits : pommes, bananes, oranges, fraises, raisins, etc.
- Utilisation : classification, détection d’objets, segmentation.
Lien de téléchargement :
https://www.kaggle.com/datasets/moltean/fruits
Animal Images Dataset
Ce dataset propose une grande variété d’images d’animaux dans leur habitat naturel ou en studio, couvrant plusieurs espèces. Idéal pour des tâches de classification multi-classes ou d’identification d’espèces.
- Exemples d’animaux : chiens, chats, oiseaux, chevaux, lions, éléphants, etc.
- Utilisation : reconnaissance d’espèces, classification, apprentissage profond.
Lien de téléchargement :
https://www.kaggle.com/datasets/alessiocorrado99/animals10

Autres jeux de données populaires

Fashion-MNIST : version “plus dure” de MNIST avec 10 catégories de vêtements (remplace souvent MNIST pour benchmarker)

https://github.com/zalandoresearch/fashion-mnist Téléchargement dans le README ou via Hugging Face : https://huggingface.co/datasets/zalando/fashion-mnist

IMDb Reviews : 50 000 critiques de films pour la classification de sentiment (positif/négatif)

https://huggingface.co/datasets/imdb Téléchargement : https://huggingface.co/datasets/imdb (ou version brute : http://ai.stanford.edu/~amaas/data/sentiment/)

SQuAD : questions-réponses sur Wikipédia (très utilisé en NLP extractif)

https://rajpurkar.github.io/SQuAD-explorer/

Téléchargement :

MNIST (Handwritten Digits)​

UCI Machine Learning Repository​

CIFAR-10 / CIFAR-100​

ImageNet​

Common Objects in Context (COCO)​

Open Images Dataset (Google)​

Hugging Face Datasets​

Kaggle​

Autres jeux de données populaires​

MNIST (Handwritten Digits)

UCI Machine Learning Repository

CIFAR-10 / CIFAR-100

ImageNet

Common Objects in Context (COCO)

Open Images Dataset (Google)

Hugging Face Datasets

Kaggle

Autres jeux de données populaires