Gestion de datasets

Vos datasets méritent un contrôle de version

Git pour vos données de vision par ordinateur. Suivez les modifications, comparez les versions et assurez la reproductibilité de chaque expérience.

Démarrer l'essai gratuit Lire la documentation

Version actuelle

+2,340 images

Datasets

Tous versionnés

100%

Reproductibilité

Perte de données

Itérations plus rapides

∞

Historique des versions

Utilisé par les équipes de

Contrôle de version

Suivez chaque changement, reproduisez n'importe quel résultat

Vos datasets évoluent constamment — nouvelles images, labels corrigés, échantillons filtrés. Sans contrôle de version, vous naviguez à l'aveugle.

Snapshots immuables

Chaque version de dataset est un snapshot permanent. Référencez des états de données exacts dans vos expériences.

Gestion des labels

Créez, renommez et fusionnez les labels à travers votre dataset. Gardez votre taxonomie propre et cohérente.

Fork pour les expériences

Forkez des versions de dataset pour tester des hypothèses sans affecter les données de production.

Historique prêt pour l'audit

Journal complet de qui a changé quoi, quand et pourquoi. Parfait pour la conformité.

Chronologie des versions

Interactif

v2.0

Dataset: defect-detection

Dernière modification Feb 28

Images

2,100

Annotations

8,400

Changement

+650

Capacités

Tout ce qu'il faut pour gérer vos datasets

Versionnez, organisez et partagez vos datasets. Tout se connecte à vos expériences.

Ne perdez plus jamais vos données

Contrôle de version type Git

Suivez chaque changement de vos datasets. Comparez les versions, annulez les erreurs et créez des branches pour les expériences. Traçabilité complète des données brutes aux modèles entraînés.

Piste d'audit complète incluse

100%

Reproductibilité

Découverte plus rapide

De la structure sans le chaos

Organisation intelligente des données

Taguez, filtrez et découpez vos données en quelques secondes. Créez des vues personnalisées, sauvegardez des requêtes et partagez des collections. Fini la chasse dans les dossiers.

60%

Moins de coordination

Travaillez ensemble, pas en silos

Collaboration d'équipe

Partagez les datasets entre équipes avec des permissions granulaires. Suivez qui a changé quoi, quand et pourquoi. Commentaires et revues intégrés.

100%

Conformité d'audit

Sachez d'où viennent vos données

Traçabilité complète des données

Tracez n'importe quelle prédiction jusqu'à ses données d'entraînement. Traçabilité prête pour l'audit. Comprenez le comportement du modèle à travers les données.

Expérience développeur

Gestion programmatique des datasets

SDK Python complet avec type hints, auto-complétion et documentation exhaustive. Intégrez les datasets directement dans vos pipelines ML.

dataset_management.py

from picsellia import Client

client = Client()
datalake = client.get_datalake()

# Get or create dataset
dataset = client.get_dataset("defect-detection")

# Create a new version
version = dataset.create_version(
  version="v3",
  description="Added edge cases"
)

# Add data from datalake
data = datalake.list_data(
  tags=["edge-case", "validated"]
)
version.add_data(data)

Python SDK

create_version()

labels_export.py

# Label manipulation
labels = version.list_labels()
version.create_label("scratch")

# Rename a label
label = version.get_label("defect")
label.update(name="surface_defect")

# Export annotations in COCO format
version.export_annotation_file(
  AnnotationFileType.COCO,
  "./training_data"
)

Supporte COCO, YOLO, Pascal VOC

label.update()

COCO

Détection d'objets et segmentation

YOLO

Format YOLOv5/v8

Pascal VOC

Annotations XML

Custom

Exports JSON/CSV

Navigateur de datasets

train

8,40070%

validation

1,80015%

test

1,80015%

12K

Total images

48K

Annotations

Équilibré

Dist. classes

Organisation des données

Structurez vos données correctement

Un bon découpage des données est crucial pour la performance du modèle. Créez des splits train/val/test reproductibles, stratifiez par classe et évitez les fuites de données.

Splits stratifiés automatiques par distribution de classes

Ratios de split personnalisés avec seeds reproductibles

Garantie de non-chevauchement entre les splits

Re-split sans perdre les annotations

Intégration workflow