Data Patch

De Resilience Territoire


Data Patch est logiciel libre, décentralisé et indépendant pour publier des données, les éditer, les valoriser

💼 Porté par Co-demos


Description : Data Patch est un logiciel open source en cours de développement proposant une solution indépendante et libre au problème de partage de données et de contribution ouverte, problème lui-même à tiroirs posant les questions suivantes :

  • Comment garder la maîtrise de ses données, savoir où elles se trouvent et qui y a accès ?
  • Comment permettre à chacun de partager des données d'intérêt général ?
  • Comment améliorer des jeux de données en simplifiant la contribution de chacun, sans capter les informations personnelles ?
  • Comment éviter la centralisation à outrance des plateformes de partage de données, privées ou publiques (Google, Airtable, Open Data Soft, data.gouv.fr...), tout en garantissant l'interopérabilité des données ?

En tant que projet de logiciel libre l'ensemble du code source est librement réutilisable, et toutes les données hébergées sur les différentes instances du logiciel peuvent être ouvertes par les utilisateurs à plusieurs niveaux (ouvrir en lecture, en collaboration, en modification directe...).


Vision portée par le commun numérique et définition considérée de la résilience

Data Patch a pour but que  :

  • des internautes puissent proposer librement des améliorations (corrections, ajouts, suppressions) à des données ouvertes par des producteurs de données ;
  • les producteurs de données puissent modérer ces propositions (accepter, corriger, refuser) tout en gardant la main sur l'hébergement et la gouvernance de leurs données (gestion des droits en lecture / écriture).
  • les données publiées puissent circuler et être valorisées, partagées, avec des services autres, par exemple des cartographies ou des listings interactifs.
page d'accueil / catalogues de jeux de données
DataPatch - édition d'un jeu de données.png

Data Patch a pour ambition de permettre à chacun d'éditer et de publier des jeux de données, que ce soit pour un usage particulier, public ou citoyen. Le cas typique serait celui d'une structure (collectivité, association, entreprise) ou d'une personne créant un jeu de données et qui souhaiterait mobiliser sa communauté pour l'améliorer. Par exemple il pourrait s'agir de données recensant des lieux d'accompagnement sur un territoire, des listes de produits dangereux, des listes de références bibliographiques, des listes de résultats électoraux....

Data Patch a pour ambition de permettre à chacun d'éditer et de publier des jeux de données, que ce soit pour un usage commercial ou citoyen. Le cas typique serait celui d'une structure ou d'une personne créant un jeu de données et qui souhaiterait mobiliser sa communauté pour l'améliorer. Par exemple il pourrait s'agir de données recensant des lieux d'accompagnement sur un territoire, des listes de produits dangereux, des listes de références bibliographiques, des listes de résultats électoraux....

C'est en ce sens ce projet peut être considéré comme participant à une meilleure résilience numérique des territoires :

  • Une meilleure maîtrise de l'open data territorial : en allégeant la dépendance à des outils et des infrastructures propriétaires, fermés, et opaques : maîtriser l'outil de publication de données publiques, les droits des utilisateurs en lecture / écriture / contribution...
  • Une mise à jour des données collaborative et modérée : en simplifiant le parcours de contribution / modération sur des jeux de données, en rendant intuitif le parcours de contribution (sans inscription), avec un parcours de deux clics pour modérer les contributions par le ou les administrateurs du jeu de données, le tout permettant
  • Une mise en valeur des citoyens contributeurs : la contribution des communautés, au-delà de l'aspect purement technique/data, sera mise en valeur que ce soit graphiquement (heatmap des contributions, historique des versions) ou en terme de communication (par l'envoi facilité d'emails de remerciements et de commentaires entre producteurs/modérateurs et contributeurs).


Fonctionnalités

Les fonctionnalités de base de Data Patch sont multiples afin de rendre son utilisation la plus simple et ouverte possible :

  • Identification sécurisée oauth2, validation du compte par email, récupération de son mot de passe par email ;
  • Import et export de jeux de données sous divers formats (csv, xls, gsheet, github...) ;
  • Système de notifications à la fois par mail et dans le back office permet aux modérateurs de valider ou non les propositions, le tout en un parcours de deux clics ;
  • Drag & drop des objets manipulables (espace de travail, jeux de données, lignes, colonnes...) pour un usage intuitif ;
  • API requêtable par des sites tiers (CORS) et sécurisée pour des usages et une valorisation sur des services tiers ;
  • Multilingue, pour un usage au-delà des frontières de l'hexagone ;
  • Publication sur des services tiers ;

Organisations utilisatrice ou intéressée par utiliser la ressource : Co-demos

Contributeurs :

Défi auquel répond la ressource : 1- Connaissances - Ressources, 3- Mieux décider ensemble

Autre commun proche :

Richesse recherchée : Cas d'usages, Financement, Expérimentation, Contributeur - Communauté

Compétences recherchée : Général/Approches, Général/Enjeux, Facteurs de résilience/Gouvernance, Facteurs de résilience/Infrastructure, Facteurs de résilience/Instruments

Communauté d'intérêt :

Type de licence ? GNU Affero General Public License, ODC Open Database License (ODbL)

Niveau de développement : Preuve Concept & 1er client

Cloud / Fichiers : https://github.com/co-demos/fastapi-boilerplate, https://github.com/co-demos/datapatch-front

Capture d’écran 2021-05-19 à 17.12.11.png

Tags : Base de données, Contribution, Modération

Catégories : Logiciel, Données, Connaissance

Thème : Général/Enjeux, Facteurs de résilience/Gouvernance, Facteurs de résilience/Infrastructure

Candidat Appel à Communs : candidat 18 Juin

Référent ADEME :

Référent du commun : Jpy


Les 5 parties ci dessous sont à remplir obligatoirement pour analyser le commun et vous conseiller

Candidat Appel à Communs : candidat 18 Juin

Montant Aide souhaitée (en Euro) à l'Appel à Communs Résilience : 63700

1.Détails du Financement :

Plan de financement, chronogramme

Fichier:DATA PATCH - budget.pdf

Fichier:DATA PATCH - récapitulatif.pdf

Fichier:DATA PATCH - chronogramme.pdf


Justification de l'éligibilité


'Justification du mode de financement

Un logiciel libre - qui plus est qui vise à proposer une facilité d'utilisation proche de services tels que GSheet ou airtable - ne peut être développé et amélioré qu'en faisant appel à des compétences spécifiques et demande d'être développé à temps plein, seul ou en équipe.

Idéalement Data Patch nécessiterait a minima 3 temps pleins : un.e développeu.r.se full-stack / frontend, un.e devops / data engineer, un.e designer UI/UX... Dans l'industrie cela représenterait aujourd'hui un budget de 15 000 €/mois (chargés) minimum, ou à la louche 150 000 €/an. Un tel objectif est peu envisageable dans l'immédiat, et une grande partie du développement initial a été fait bénévolement. Mais une telle situation de bénévolat n'est pas tenable sur la durée.

Data Patch n'étant philosophiquement pas destiné à capter/monétiser les données des utilisateurs, il est vital que son financement soit indépendant de toute injonction commerciale, ou publicitaire.

Le financement via des subventions publiques est aussi un aspect qu'il s'agit de soigneusement étudier, mais qui - en dehors du présent appel à communs - ne se pose que très rarement lorsqu'il s'agit de développer un outil numérique d'intérêt général à la fois générique, ouvert, et "from scratch". En effet les efforts (réels) de l'administration envers le logiciel libre et l'ouverture de code ne se concrétisent aujourd'hui que dans deux cas spécifiques :

  • soit il s'agit d'un besoin très circonscrit d'une administration, réduisant alors le champ d'usage à un public très restreint et spécialiste. Bien que cité comme réussite l'exemple du cas de data.gouv.fr est de cet ordre, ou encore des solutions issues de l'éco-sytème betagouv : cette plateforme gérée par les services du Premier Ministre accentue un mouvement de centralisation des données, et la complexité des systèmes historiquement mis en place freine grandement la réutilisation du logiciel par d'autres acteurs ;
  • soit il s'agit de la réutilisation d'une solution libre déjà existante portée par une structure privée, privant ainsi la puissance publique d'un de R&D d'intérêt général

L'Etat est encore le mieux loti en termes de moyens pour développer des outils numériques innovants car au niveau régional ou départemental financer le développement "from scratch" de solutions numériques innovantes et libres reste l'exception et le privilège d'agglomérations importantes comme à Lyon ou Paris. Dans le reste des territoires - et pour le reste de la société civile (associations, fondations, entreprises) - ne subsistent que l'offre d'acteurs privés en capacité de mobiliser des capitaux à la mesure de ces défis techniques : Open Data Soft, microsoft, Google, etc... Les coûts de ces services propriétaires sont très variables mais il est très compliqué d'en estimer le poids réel : un service "gratuit" comme Google Sheet se paie par un hébergement de données sur des serveurs appartenant à Google et par la récupération des données personnelles par cette société, et des services par abonnement comme Open Data Soft ou Airtable se paient soit par une sur-facturation dépendant de l'usage plus ou moins intense de l'outil (facturation à l'usage de l'API) ou par la limitation de certaines fonctionnalités majeures (limitation du nombre de personnes dans un groupes par exemple).;;

Bref, que ce soit par manque d'outils libres, de compétences en propre, d'une forte centralisation, ou encore du peu de financements dédiés, la puissance publique en France dispose de peu de solutions libres immédiatement utilisables pour que les territoires se mettent en conformité avec la loi sur l'ouverture des données publiques. Nous peinons ainsi à se donner les moyens de développer les outils numériques essentiels d'une réelle infrastructure numérique démocratique, décentralisée, citoyenne : que chacun puisse partager des données sur des outils libres, les améliorer, le tout de façon décentralisée mais inter-opérable...


Justification du statut de commun numérique

Le projet Data Patch se revendique un statut de commun numérique à plusieurs niveaux :

  • Le code source en tant que tel, ouvert intégralement, fait de l'outil lui-même un commun numérique. N'importe qui peut ainsi participer à l'amélioration du code source, selon les règles d'usage en matière de contribution sur des logiciels ouverts (sur Github ou Gitlab) : création ouverte de "tickets" ou "issues" pour relever des bugs ou proposer de nouvelles fonctionnalités, gestion collaborative de la roadmap, système de relectures croisées des améliorations du code par l'équipe maintenant le logiciel (pull request), etc ...
  • La philosophie générale de l'outil et ses fonctionnalités liées aux données publiées font de Data Patch un instrument permettant à des communautés de créer de communs de données. En mettant à disposition un outil libre et gratuit pour manipuler collaborativement des données, celles-ci sont appelées à être entièrement gérées par les communautés elles-mêmes, c'est-à-dire que chaque communauté puisse inventer des règles propres pour déterminer qui a le droit de les lire, de les modifier, de proposer des modifications, comment ces données sont valorisées et visualisées...


Financement post Appel à communs

(en cours de rédaction)

2.Détails Résilience et Territoire :

Contenu sur la résilience territoriale

(en cours de rédaction)


Lien et ancrage territorial

(en cours de rédaction)


Description de la communauté Territoire

(en cours de rédaction)


Justification du défi choisi : Connaissances et Ressources

Le projet Data Patch vise à la fois à contribuer à créer des nouvelles connaissances numériques mises en communs (des jeux de données ouverts, collaboratifs et contributifs ), et à proposer une ressource / outil numérique ouvert précis, libre, permettant cette création de bases de données collaboratives.


Impact du commun sur la résilience

Une partie de la capacité de la résilience des territoires tient à leur capacité à produire, échanger, et valoriser des informations relatives à une géographie ou une thématique particulière. Cette capacité est déterminée à la fois par la compétence technique des individus, par les moyens financiers des structures, par la relation de confiance entre citoyens et représentants de la puissance publique, mais aussi par les outils à leur disposition.

Une grande majorité des services techniques des collectivités mais aussi des structures para-publiques qui produisent des données d'intérêt public utilisent au quotidien des outils de type tableur, en ligne ou installés sur leur ordinateur (excel, GSheet, Airtable) qui ne répondent qu'à une partie des contraintes d'une approche open data :

  • produire des jeux de données : en saisie directe, ou en important des fichiers ;
  • mettre à jour et améliorer des jeux de données : corriger des inexactitudes, ajouter ou supprimer des entrées, ajouter ou supprimer des colonnes, ... ;
  • publier des données : les rendre accessibles à des services tiers, les exporter sous divers formats ... ;
  • valoriser des jeux de données : cartographie, listes, filtres, exports... ;

De plus les services en ligne sont pour l'ensemble des outils propriétaires, dont le code source est fermé, dont les serveurs sont invisibilisés (le "cloud"), et dont les coûts peuvent se révéler prohibitifs à long terme. Les coûts d'abonnement sont parfois calculés en fonction du nombre de requêtes, du nombre de collaborateurs au sein d'un groupe, en fonction du nombre de jeux de données mis en ligne... Des coûts qui paraissaient modiques au départ peuvent augmenter exponentiellement au fur et à mesure que s'ajoutent données et nouveaux utilisateurs.

Une réelle résilience des acteurs des territoires en termes de systèmes d'information et de bases de données implique que ces acteurs puissent avoir une maîtrise complète de leurs outils : qu'il s'agisse a maxima d'une maîtrise de leurs outils numériques (codes sources) et des bases de données, ou a minima d'avoir voix au chapitre dans la gouvernance de ces outils : de la manière dont ils sont développés, de leur coût, des fonctionnalités à ajouter, etc...

Le projet Data Patch se propose comme une solution à cette problématique : par la transparence qu'un projet open source permet sur le code source, et par son architecture décentralisée. D'autre part et en raison d'une des fonctionnalités nodales de l'outil - la contribution et la modération - l'outil proposé permet de consolider des liens avec une communauté autour de thématiques particulière. Cette fonctionnalité apparaît centrale pour à la fois permettre d'améliorer des données de manière non invasive, et d'installer une relation de confiance entre les usagers/citoyens et les producteurs de données.

3.Détails Impacts environnementaux :

Estimation des Impacts et Gains Environnementaux à court et moyen termes

(en cours de rédaction)


Publication de certaines données environnementales en open data

Le logiciel Data Patch a pour principale fonctionnalité de faciliter la publication en open data de tout type de jeu de données. En fonction des nouvelles communautés et acteurs qu'il sera possible de mobiliser dans le cadre de cet appel à communs, et des données à caractère environnemental que ces communautés chercheront


Lien avec la communauté Open Data

Les différents partenaires porteurs et co-porteurs du projet Data Patch sont actifs dans la communauté Open Data sous divers aspects : Les membres

4.Synthèse du projet de Commun :

Expérience du porteur de Commun dans le domaine

  • Julien Paris : après une formation initiale d'architecte DPLG puis dans la recherche je me suis reconverti dans le numérique en tant que développeur fullstack. Je développe uniquement des logiciels ouverts et je milite ainsi à ma manière pour soutenir le mouvement de l'open data et du logiciel libre. Ces dernières années j'ai principalement travaillé pour des institutions ministérielles (Bercy, CGET, Agence Bio), inter-ministérielles (DINUM), des associations et think tanks acteurs de l'intérêt général (PiNG, Ternum, Rhinocc, Décider Ensemble), ainsi que des structures publiques comme des bibliothèques près de Nantes. J'ai aussi participé au programme "Entrepreneur d'Intérêt Général" d'Etalab en 2018. J'ai produit des outils numériques libres permettant la publication et la visualisation de données : Apiviz, baromètre des résultats des politiques publiques, tableau de bord des aides aux entreprises, Synapse...


Informations liées au Commun et au problème identifié

(en cours de rédaction)


Description des actions, livrables et planning associé en proposant des points de passage (communauté/commun à tel niveau d'ici 3, 6, 9, 12 mois)

Comme vous pourrez le voir dans le chronogramme téléchargeable plus haut le chantier budgété dans le cadre de cet appel à communs est planifié sur 6 mois, ce qui ne nous empêche pas d'anticiper des actions au-delà de cette période (indiquées ci-après comme "hors périmètre chiffré").

La raison de ce phasage à 6 mois est que dans le cas d'un projet d'innovation numérique un aspect essentiel réside dans la preuve de concept fonctionnelle de l'outil développé, ou "MVP" (Minimum Viable Product) : au terme de cette phase il doit être vérifié que l'outil fonctionne techniquement, que sa conception et son architecture permettent d'en faire un véritable logiciel libre (simple à installer / instancier), et que la communauté des premiers utilisateurs puissent apporter des retours en continu lors de cycles courts de développement.

Ce n'est qu'au terme de cette phase primordiale qu'est la validation du MVP en étroite relation avec les premiers utilisateurs (en l'occurrence les hubs numériques) que des actions ultérieures pourront être possibles, et c'est uniquement à ce moment qu'il sera pertinent de leur trouver des modes de financement propres.

À 3 mois - dans le périmètre chiffré

  • Code source intégralement ouvert (déjà en place) ;
  • Développement et mise en production de la version beta de l'outil, comprenant les fonctionnalités de base : import, export, édition, authentification, gestion des droits, module de contribution
  • Tests utilisateurs auprès de la communauté des hubs numériques ;

À 6 mois - dans le périmètre chiffré

  • Intégration des retours utilisateurs issus de la première phase ;
  • Documentation d'installation et tutoriels d'utilisation ;
  • Amélioration des fonctionnalités de collaboration en temps réel ;
  • Interopérabilité avec des solutions existantes de data-visualisation et de valorisation de données : Open Street Map, Apiviz....
  • Dockerisation des codes sources pour une instanciation / réutilisation simplifiée ;

À 9 mois - hors périmètre chiffré

  • Ajout de modules de visualisation : fiches, tableur, kanban, calendrier .... ;
  • Développement des fonctionnalités permettant une décentralisation et une industrialisation de la solution : Activity pub ;
  • Cycles/sprints d'amélioration continue ;
  • Elargissement du premier cercle d'utilisateurs à des

À 12 mois - hors périmètre chiffré

  • Industrialisation de la solution : appel à intérêt auprès de structures régionales et départementales en France métropolitaine et DOM/TOM


Taille de la communauté de contributeurs et d'utilisateurs impliquée

A titre d'exemple chacun des hubs numériques du groupement communique régulièrement avec une communauté oscillant entre 200 et 600 représentants de lieux. Chaque hub comprend en général 2 à 3 personnes responsables d'un ou plusieurs jeux de données, mais à eux seuls les 3 hubs membres du groupement initial (Occitanie, Pays de la Loire, Bourgogne Franche Comté) couvrent une communauté d'environ 1200 lieux.


Estimation du Rapport Coût / Impact du Commun dans le domaine de la résilience

(en cours de rédaction)

5.Autodiagnostic :

Le problème est-il défini ? seul ou par plusieurs personnes ?

Le problème central est que le "cloud" c'est l'ordinateur de quelqu'un d'autre. Les données personnelles ou produites par des institutions publiques font rarement exception.

Qu'on ait besoin de cartes interactives, de listes des fiches, des filtres de sélection, bref dès qu'on a besoin d'un site vivant et agréable il faut bien stocker des données quelque part, les rendre accessibles mais protégées du piratage, et être certain de comprendre leur gouvernance.

Que vous utilisiez Google Sheet ou Airtable vos données (tableurs, listings, textes...) sont stockées sur des serveurs et par des sociétés (GAFAM) sur lesquelles nous - citoyens, internautes lambda, petites structures, associations, parfois administrations - n'avons aucun que très peu voire aucun levier pour vérifier ce qu'il en est fait. A une époque où l'échange d'informations fiables est devenu un sujet critique il est semble dangereux qu'une poignée sociétés privées, souvent extra-européennes, soient de fait en situation de monopole sur les infrastructures de partage de données.

Au-delà du problème technique et monopolistique il existe un autre angle mort, celui de la contribution ouverte et de la modération. Le temps de la donnée produite d'"en haut" est en passe d'être révolu, et les citoyens et utilisateurs sont de plus en plus demandeurs de ne plus être considérés comme de simples consommateurs d'information mais bien comme des participants, des contributeurs.

Le souci est que ce soit sur les réseaux sociaux ou les plateformes de contenus ou d'open data, la contribution ouverte bute souvent sur le problème de mise à jour ou de modération. Pour que les informations gagnent en qualité il est nécessaire qu'elles puissent être relues par des pairs, modifiées, validées, avant d'être re-publiées... Et la plupart du temps une personne seule ne suffit pas pour modérer, il est toujours nécessaire et préférable de mobiliser une intelligence collective.

A l'heure de l'économie de l'attention les GAFAM n'ont aucun intérêt économique à faire des efforts qui iraient dans le sens d'une meilleure qualité de l'information, mais qui causerait un "ralentissement" des flux permanent de données sur leurs plateformes. Ce n'est pas un hasard que seuls des services ouverts et libres comme Wikipédia ou Framasoft se soient emparés de ce problème, car économiquement les startups traditionnelles n'ont aucun intérêt à laisser des internautes contribuer sur une plateforme sans qu'ils y troquent des informations personnelles (email, âge, préférences, etc...).

Dans ce contexte il apparaît vital que


Y a-t-il d’autres contributeurs prêts à travailler sur ce Commun ? (en cours de rédaction)


Préciser la compréhension du contexte, la définition considérée de la résilience et l'impact du Commun sur le défi considéré (en cours de rédaction)


Est-ce que les contributeurs sont structurés via une association, entreprise pour recevoir des financements ? (en cours de rédaction)


Est ce que les besoins sont exprimables pour développer le commun ? oui/non OUI


Le projet de commun s’attachera à développer un ancrage territorial (en France ou dans le monde francophone), en lien si possible avec une collectivité La première communauté immédiatement demandeuse et première utilisatrice de ce projet de commun numérique est celle des référents régionaux Hubs Numériques. Pour l'instant les régions des Pays de la Loire (PiNG), d'Occitanie


Le projet de commun sera collaboratif, avec des consortiums non seulement interdisciplinaires, mais ouverts aux acteurs et aux parties prenantes des sphères économiques, associatives ou publiques, lorsque cela sera pertinent OUI

(en cours de rédaction)


Quels sont les besoins à ce jour pour passer à l'étape suivante  :

  • conseils
  • sur le sujet des communs
  • conseils sur le sujet de la résilience
  • mentorat
  • accès à des données
  • accès à des cas d’usages
  • besoin d’expérimenter en situation “réelle” (usager, infrastructures)
  • des contributeurs et d’autres parties prenantes
  • accès à des financement


Liste des CR d'atelier en lien avec ce Commun Data Patch: aucun pour le moment


Suivi des actions

Search actions Add an action See this page for more information
Open
+ A faire0
+ En cours0
+ Fait0