Gestion de datasets

Vos datasets méritent un contrôle de version

Git pour vos données de vision par ordinateur. Suivez les modifications, comparez les versions et assurez la reproductibilité de chaque expérience.

100%
Reproductibilité
0
Perte de données
5x
Itérations plus rapides
Historique des versions

Utilisé par les équipes de

SGS
RTE
Pellenc
Skillcorner
Contrôle de version

Suivez chaque changement, reproduisez n'importe quel résultat

Vos datasets évoluent constamment — nouvelles images, labels corrigés, échantillons filtrés. Sans contrôle de version, vous naviguez à l'aveugle.

Snapshots immuables

Chaque version de dataset est un snapshot permanent. Référencez des états de données exacts dans vos expériences.

Gestion des labels

Créez, renommez et fusionnez les labels à travers votre dataset. Gardez votre taxonomie propre et cohérente.

Fork pour les expériences

Forkez des versions de dataset pour tester des hypothèses sans affecter les données de production.

Historique prêt pour l'audit

Journal complet de qui a changé quoi, quand et pourquoi. Parfait pour la conformité.

Chronologie des versions

Interactif
v2.0
Dataset: defect-detection
Dernière modification Feb 28
Images
2,100
Annotations
8,400
Changement
+650
Capacités

Tout ce qu'il faut pour gérer vos datasets

Versionnez, organisez et partagez vos datasets. Tout se connecte à vos expériences.

Ne perdez plus jamais vos données

Contrôle de version type Git

Suivez chaque changement de vos datasets. Comparez les versions, annulez les erreurs et créez des branches pour les expériences. Traçabilité complète des données brutes aux modèles entraînés.

Piste d'audit complète incluse
100%
Reproductibilité
5x
Découverte plus rapide
De la structure sans le chaos

Organisation intelligente des données

Taguez, filtrez et découpez vos données en quelques secondes. Créez des vues personnalisées, sauvegardez des requêtes et partagez des collections. Fini la chasse dans les dossiers.

60%
Moins de coordination
Travaillez ensemble, pas en silos

Collaboration d'équipe

Partagez les datasets entre équipes avec des permissions granulaires. Suivez qui a changé quoi, quand et pourquoi. Commentaires et revues intégrés.

100%
Conformité d'audit
Sachez d'où viennent vos données

Traçabilité complète des données

Tracez n'importe quelle prédiction jusqu'à ses données d'entraînement. Traçabilité prête pour l'audit. Comprenez le comportement du modèle à travers les données.

Expérience développeur

Gestion programmatique des datasets

SDK Python complet avec type hints, auto-complétion et documentation exhaustive. Intégrez les datasets directement dans vos pipelines ML.

dataset_management.py
from picsellia import Client

client = Client()
datalake = client.get_datalake()

# Get or create dataset
dataset = client.get_dataset("defect-detection")

# Create a new version
version = dataset.create_version(
  version="v3",
  description="Added edge cases"
)

# Add data from datalake
data = datalake.list_data(
  tags=["edge-case", "validated"]
)
version.add_data(data)
Python SDK
create_version()
labels_export.py
# Label manipulation
labels = version.list_labels()
version.create_label("scratch")

# Rename a label
label = version.get_label("defect")
label.update(name="surface_defect")

# Export annotations in COCO format
version.export_annotation_file(
  AnnotationFileType.COCO,
  "./training_data"
)
Supporte COCO, YOLO, Pascal VOC
label.update()
COCO
Détection d'objets et segmentation
YOLO
Format YOLOv5/v8
Pascal VOC
Annotations XML
Custom
Exports JSON/CSV

Navigateur de datasets

train
8,40070%
validation
1,80015%
test
1,80015%
12K
Total images
48K
Annotations
Équilibré
Dist. classes
Organisation des données

Structurez vos données correctement

Un bon découpage des données est crucial pour la performance du modèle. Créez des splits train/val/test reproductibles, stratifiez par classe et évitez les fuites de données.

Splits stratifiés automatiques par distribution de classes
Ratios de split personnalisés avec seeds reproductibles
Garantie de non-chevauchement entre les splits
Re-split sans perdre les annotations
Intégration workflow

S'intègre à votre workflow existant

Les datasets se connectent directement aux annotations, expériences et déploiements. Aucun transfert manuel.

Auto-sync
Depuis le datalake
Version
Chaque changement
Référence
Dans les expériences
VERSION_CONTROL

Prêt à versionner vos datasets ?

Essai gratuit, sans carte bancaire. Commencez à versionner vos datasets dès aujourd'hui.

Sans carte bancaire
Essai gratuit de 14 jours
Versions illimitées
50M+
Images versionnées
Historique des versions
100%
Reproductibilité
0
Perte de données