#+COLUMNS: %40ITEM %10BEAMER_env(Env) %9BEAMER_envargs(Env Args) %4BEAMER_col(Col) %10BEAMER_extra(Extra) * Comité de pilotage :noexport: ** Composition **** Membres - Jean-François Abramatic (Président) - Céline Acharian - Roberto Di Cosmo (SWH CEO) - Pascal Guitton - Eric Horlait **** Invités permanents - Serge Abiteboul - Gerard Berry ** Mission * conseil + strategie + feuille de route * partenariats + definition de la typologie + identification des candidats + plan de visite + participation active dans la mise en place * finance + validation du budget 2015 + participation a l'elaboration du budget 2016 * gouvernance + integration du projet dans l'organisation Inria * communication + vers l'exterieur + en interne avec les chercheurs * Introduction ** Le projet Software Heritage *** Our mission :noexport: :PROPERTIES: :BEAMER_act: +- :END: Collect, organise, preserve and share all the software that lies at the heart of our culture and our society. Archive all software artifacts \emph{in the long term}, track their evolution over time, and make them readily accessible, referenceable, and reusable to the benefit of present and future generations. *** Contexte: le logiciel est pervasif :PROPERTIES: :BEAMER_act: +- :END: - au coeur de notre societe numerique - contient notre connaissance technique et scientifique - mediateur pour toute l'information numerique - il est notre patrimoine - pas d'initiative pour préserver le logiciel en tant que tel *** Mission :PROPERTIES: :BEAMER_act: +- :END: collecter, organiser, documenter, préserver et rendre accessible le patrimoine logiciel de l'humanité, pour les générations présentes et futures ** Software Heritage: quelques cas d'usage *** enseignement - referentiel stable : matériel pour les cours - sourcebook : trouver des exemples de code # - sourcebook : find occurrences of programming patterns # - learning platform : code browsing (extensions "à la js_of_ocaml") *** industrie - referentiel unique - analyse de code, vulnerabilité - traçabilité, licences # - licence and attribution metadata # - use and trends *** science - reference unique (publications, reproducibilité) - infrastructure de recherche big data - objet scientifique - défis scientifiques ** Une infrastructure unique aux usages multiples #+ATTR_LATEX: :width \extblockscale{\linewidth} [[file:swh-as-infra.png]] *** une pluralité de facettes - préservation à long terme (typiquement offline) - base de données exhaustive (doit être online!) - socle pour analyses et annotation (besoin d'une communauté) ** Historique *** Origine :BMCOL:B_block: :PROPERTIES: :BEAMER_col: 0.6 :BEAMER_ENV: block :END: # - discussion entre Roberto et Antelink début 2014 - idée née en mai 2014 # - première proposition en Septembre 2014, elaborée avec DebSources et Antepedia - passage en DG en janvier 2015 - passage en ComDir en février 2015 - décision de lancement en mars 2015 - début du travail en mai 2015, sur budget DGD-T *** Assets :BMCOL:B_block: :PROPERTIES: :BEAMER_col: 0.4 :BEAMER_ENV: block :END: - Antelink: 2M de projets - DebSources: toutes les sources des releases Debian - Irill: cadre fédérateur *** Pourquoi Inria (COP 2015-2019, extrait) /Inria est le seul organisme de recherche français dédié spécifiquement au numérique./ Cette position le rend légitime pour initier des réflexions ou monter des actions d’investigation dans l’ensemble des domaines liés aux sciences du numérique. ** Quelques projets et initiatives connexes *** Archive.org (San Francisco) Brewster Kahle : \emph{Internet Archive is a non-profit library of millions of free books, movies, software, music, and more.}\\ Contenu: 110.000 logiciels variés, focalisé sur l'éxécution du logiciel, pas ses sources *** RunMyCode.org Accueille des dépôts de code associés à des articles; créé en 2012; adoubé par le CNRS; contient quelques centaines de dépôts # 3 professeurs, Orleans, HEC, Columbia, http://www.runmycode.org/about.html *** ArXiv (Library of Cornell) Repertoire Open Access pour la publication scientifique (la base de HAL), piloté par Cornell *** Zenodo (CERN) Soutenu par grants EU Infrastructure \emph{Open data repository} pour les données scientifiques. ** Quelques projets et initiatives connexes *** [[http://news.rice.edu/2014/11/05/next-for-darpa-autocomplete-for-programmers-2/][NEXT, (11M project DARPA)]] Autocomplete for programmers *** et encore... - NSRL (forensic) - Musée de l'Informatique - etc.. *** Nous ne sommes pas seuls, mais notre positionnement est unique: - exhaustivité - focus sur le /code source/ - référentiel unique - préservation à long terme: open source, miroirs - fait par des informaticiens ** Plan :noexport: *** Amorçage dévéloppement d'un prototype, image web, roadmap, premiers parténariats, annonce publique *** Consolidation fonctionnalités plus avancées, replication, partenariats industriels et académiques *** Globalisation montage de la structure de consortium internationale, autonomisation de l'initiative ** Rappel du plan opérationnel *** lancement par Inria - financement initial - hébérgement de l'initiative *** réunion des parténaires 1. mecènes, fondations 2. sponsors industriels 3. membres institutions et industries *** globalisation - structure internationale - governance - réseau de miroirs ** Action items du dernier CoPil |---------------------------------+------------+--------------+-----------| | Action | Assignée à | Timing | Status | |---------------------------------+------------+--------------+-----------| | Finalisation devis matériel | Zacchiroli | 10 juin max | fait | | Signature MOU | Horlait | Urgent | fait | | Finaliser Plaquette | Di Cosmo | Urgent | fait | | Place pour SWH à Gare de Lyon | Horlait | Urgent | | | Budget 2015 pour SWH | Horlait | Urgent | | | Relancer GT reproductibilité | Guitton | Rentrée | | | Slot Journée Scientifiques 2016 | Guitton | 2016 | | | Prise de contact partenaires | Abramatic | juin/juillet | ? | | | Di Cosmo | juin/juillet | plusieurs | | | Horlait | juin/juillet | ? | |---------------------------------+------------+--------------+-----------| | | | | | * Point d'étape ** Compétences *** Equipe [4/4] :PROPERTIES: :BEAMER_act: +- :END: - [X] Roberto Di Cosmo (CEO), Inria depuis le 1/9/2015 - [X] Stefano Zacchiroli (CTO), dél. Inria depuis le 1/9/2015 - [X] Antoine Dumont (Dev) depuis le 1/5/2015 - [X] Nicolas Dandrimont (Ops) depuis le 1/9/2015 #+ATTR_LATEX: :width \extblockscale{.8\linewidth} [[file:swh-the-team.png]] ** Parténariat, identité *** Contractualisation Antelink [1/1] - [X] NDA/MOU (envoyé Eric Horlait [2015-05-05 Tue], signé fin Août) *** Marque Software Heritage [2/2] - [X] dépôt effectué le 2015-04-30 - [X] [[https://bases-marques.inpi.fr/Typo3_INPI_Marques/marques_fiche_resultats.html?index%3D1&refId%3D4171255_201531_fmark&y%3D0][validée sur INPI depuis 2015-07-31]] ** Communication #+ATTR_LATEX: :width \extblockscale{.7\linewidth} [[file:SWH.png]] *** Realisé (merci à la DirCom) - [X] logo (thème Inria dans la couleur) - [X] plaquette FR (livrée en Juillet) # # needs some more love # # \animategraphics[loop,autoplay]{12}{SWH-logoanim-}{0}{30} # \animategraphics[scale=.1,autoplay,loop]{12}{SWH-logoanim-}{0}{31} *** Realisé en interne :BMCOL:B_block: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :END: - [X] hierarchie du site web - [X] choix de la technologie - [X] choix hebergement (Gandi) - [X] deploiement plateforme *** En cours :BMCOL:B_block: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :END: - [ ] plaquette EN - [ ] charte graphique - [ ] contenu du site web - [ ] intégration avec le prototype ** Infrastructure matérielle **** Fait [2/2] :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.4 :BEAMER_ENV: block :BEAMER_act: +- :END: - [X] serveur et disques prototype (~350T, merci DGD-T) - [X] installation et configuration # - [ ] reprise des données Antepedia #+ATTR_LATEX: :width \extblockscale{.9\linewidth} [[file:server-swh.jpg]] **** A faire :BMCOL:B_block: :PROPERTIES: :BEAMER_COL: 0.56 :BEAMER_ENV: block :BEAMER_act: +- :END: - backup des données et replication off site * options institutionnelles - cloud (OVH, Google...) - partenariats (CNRS, CEA, CINES) * options techniques - stoquage traditionnel - FS distribue - peer to peer - certificats SSL ** Modélisation - choix des clés crypto (longueur, sha1, sha256 et futur sha3) - validé avec D. Pointcheval - étude des sources [5/6] - [X] Debian sources (~23K projets, 11M fichiers, 1Md lignes de code) - [X] Antepedia (~2M de projets) - [X] Github (~12M de projets) - [X] Debian Snapshot (10 ans ) - [X] Archive GNU - [ ] SourceForge, gForge, Maven etc. - modélisation [2/3] - [X] v0.1 (soustraitance PG-SQL en cours) - [X] test use cases - [ ] test production ** Schéma de la base #+ATTR_LATEX: :height .95\textheight [[file:db-schema-swh.pdf]] ** Logiciel (sur forge SWH: sera reproductible, documenté) *** prototype [2/4] - [X] github lister - [X] github dumper - [ ] loader (en cours) - [ ] web backend *** fonctionnalités avancées - [ ] browse - [ ] on demand upload (connexion avec Open Access) - [ ] distributed replication *** fonctionnalités avec un défi scientifique - [ ] code search (déjà limité sur Debian Sources) - [ ] big data analysis ** Decollage (technique)! *** recolte des données (Juillet/Août 2015) :PROPERTIES: :BEAMER_act: +- :END: \begin{center}\huge\bf 12 millions de depôts \emph{github}\\ 10 ans d'historique Debian\\ tout \url{gnu.org}\\ données Antelink \end{center} # - [X] toutes les sources du projet GNU *** prochaînes étapes :PROPERTIES: :BEAMER_act: +- :END: - [ ] Maven - [ ] Sourceforge ** Partenariats *** Premiers Soutiens d'associations (fait) - Eclipse foundation - Free Software foundation - Open Source initiative *** A faire - financeurs, mécènes - institutions - entreprises - académiques (ACM, IEEE, et plus large) * Communication et partenariats ** La question du lancement *** Typologie de partenaires - co-fondateurs (avec nous sur l'annonce) - sponsors (après l'annonce) - membres (à régime) *** Créneaux pour annonce publique - première possibilitée: POSS (15/11/2015) + techniquement faisable + si partenaires fondateurs *** Question: jusqu'à quand attendre les co-fondateurs? ** Manifestations de soutien *** Académiques, informatique - [[http://www.informatics-europe.org/about-informatics-europe/ieu_board.html][Informatics Europe]] - ACM (SIGSOFT en cours) - IEEE (SOFTWARE en cours) # -action-> Antoine et Gerard sont dans Informatics Europe *** Académiques, autres - Académie des Sciences - [[http://www.scienceeurope.org][Science Europe]] # -action-> Gerard et Serge sont dans l'Academie des Sciences, et aussi Gerard Berry *** Non académiques - ... ** Recherche de partenaires *** Fondations - France: Bettencourt, Airbus, AXA, ... - US: Simons, Sloan, Mellon, Carnegie, ... *** Mécènes - France: Xavier Niel - US: ... *** Entreprises - IBM, HP, Google, Amazon, CISCO, Intel, Microsoft ... *** Institutions - CNRS, CEA, CERN, ... *** Autres # -action-> on cherche des contacts ** Action *** Contacts - discussion - ... *** Matériel - la plaquette (photo) - belles histoires - elevator pitch - argumentaire ciblé - séléction de soutiens ** Story telling *** Perte de code - bug Y2K : 40\% of source code missing in 1998 - bit rot (Vinton Cerf) *** Fermeture de forges - [[http://code.google.com]] - [[http://www.gitorious.org]] *** Reproductibilité Analyse de Christian Collberg (2014) - 8 ACM conferences: ASPLOS’12, CCS’12, OOPSLA’12, OSDI’12, PLDI’12, SIGMOD’12, SOSP’11, VLDB’12 - 5 journals: TACO’9, TISSEC’15, TOCS’30, TODS’37, TOPLAS’34 - 81\% \alert{non reproductible}! # -action-> input du board ** Discours général *** Our mission is to collect, organise, preserve \emph{in the long term} and share all the software artifact that lies at the heart of our culture and our society. # We will archive all software artifacts , track their evolution over time, and # make them readily accessible, referenceable, and reusable to the benefit of # present and future generations. *** arguments + Software is everywhere: mobile devices, mainframes, everyday objects, ... our bodies; our lives depend on software + Software is fragile bits can be lost, be deleted, or get corrupted + Software is an asset contains our knowledge and must be collected and protected *** mini pitches - Alexandria's Library of Software - ISBN of Software - the Library of Congress of Software (US centric) ** Cultural heritage - society *** Writing software is a highly creative act, similar to Mathematics. *** A large corpus of Software has been amassed in the last 60 years. *** Software is Knowledge, and Knowledge depends on Software. *** Preserving Software is preserving the technological and scientific knowledge enbodied into software. *** By preserving software, we help keeping accessible the body of knowledge currently available in digital form. *** Cultural heritage: "the legacy of artifacts that are inherited from past generations, maintained in the present, and bestowed for the benefit of future generations" ** Cultural heritage - society *** arguments - collective knowledge increasingly digitalised + software is the key to exploit it - software /in itself/ is part of our heritage + software development is a highly creative human activity + huge corpus of source code accumulated since the 1950s - a rapidly increasing part of /our collective knowledge is embodied in, or dependent on, a wealth of software artifacts/ This knowledge represents a /cultural heritage/ that needs to be preserved and passed over to future generations. *** mini pitches - (connection with) museum of Software - (foundation of) Wikipedia of Software - (foundation of) the History of Software and Technology ** Industry *** Software Heritage is the /Universal reference repository of Software/ *** Software Heritage allows traceability of components *** With Software Heritage, you only need a Bill of Materials *** *** mini pitches - Software Part Number - Worldwide Catalog of Software - Worldwide Software Warehouse - Universal reference repository of Software ** Industry *** arguments - supply chain --> reference repository - code analysis - vulnerabilities - traceability - referentiel unique - escrow - licence and attribution metadata - use and trends ** Science :ATTACH: :PROPERTIES: :Attachments: sciencemag-2012 :ID: b763712d-2616-4c8c-bcb2-a9dd40db6c01 :END: *** for computer scientists - software studies - our DNA *** for all fields ([[http://www.sciencemag.org/content/336/6078/159][All of science relies on Software]]) The magic triangle for scientific reproducibility #+LATEX: \begin{center} #+ATTR_LATEX: :width \extblockscale{.5\linewidth} [[file:PreservationTriangle.png]] #+LATEX: \end{center} It is a /research infrastructure/ -- see EU workprogramme 2016-2017 # Software Studies ( + big data) ** Science :ATTACH: *** mini pitches - CERN of Software - Software SourceBook / HandBook - ISBN of Software - foundation for reproducibility - the universal, persistent repository of scientific software # ** education - sourcebook * Discussion: le volet scientifique ** La science *** défis scientifiques - big data - search - provenance - resilient distributed infrastructure - replicability ** La science *** organisation d'une conférence internationale - fin 2016 à Paris *** étapes préliminaires - groupe de travail /reproductibilité/ Inria (décembre 2014) - keynote sur /la préservation et la reproductibilité/ au Scilabtec 2015 (mai 2015) - seminaire Dagstuhl sur /artefact evaluation/ (novembre 2015) - workshop reproductibilité R4 (decembre 2015) - keynote EvoLille (decembre 2015) - journées scientifiques Inria - support des collègues # -action-> idées de contacts, en plus de Laurent Romary et Remy Gribonval * Communication :noexport: ** Éléments de rayonnement ** Plaquette **** TODO Gerard, Serge, Jean-Francois, acceptent-ils d'avoir leur photo sur la plaquette? ** Communication **** Externe (Reproductibilité, software preservation) journaliste scientifique pour + Communications of the ACM <2016-01-01 Fri> + Nature <2016-06-01 Wed> - connexion avec les financeurs, a mentionner dans l'article N.B.: porosité des media - mieux commencer par CACM/Nature **** Interne (attention à préserver l'externe) - Groupe reproductibilité <2015-10-01 Thu> + focus group sur le dépôt d'artefacts logiciels - Impliquer le réseau des ADS - Journées scientifiques 2016 **** Web site - vitrine avec contenu bilingue <2015-10-01 Thu> * Finances :noexport: ** Validation budget 2015 #+ATTR_LATEX: width=\linewidth [[file:budget-2015-crop.pdf]] *** Points salients - + infrastructure matérielle - + acquisition des données sur Amazon - - ingénieurs sur une partie de l'année - - locaux + partie des missions Irill ** Budget préliminaire pour 2016 #+ATTR_LATEX: width=\linewidth [[file:budget-2016-crop.pdf]] *** Points salients - + ingénieurs en année pleine - + filtrage des contenus déposés - + conférence internationale - - legacy Amazon storage ** Les grandes lignes Pour la recherche de sponsoring on peut indiquer comme coûts **** Lancement - 1Me / an sur deux ans **** Régime - 2 à 3 Me / an * Partenariats :noexport: ** Financeurs à forte capacité d'engagement **** Fondations :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: # (Godefroy Beauvallet) - Axa - Bettencourt - EADS - Simons - Sloan - ... **** Entreprises :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: - Cap Gemini - Google - IBM - HP - Microsoft - ... **** Pouvoirs publics :PROPERTIES: :BEAMER_act: +- :END: + Exemples - Ministères - Region(s) - Commission Européenne ** Membres (nombreux, petite cotisation) *** Universités et centres de recherche :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :END: - cotisation sur la base de l'usage (modèle ArXiV) - à terme 100 à 300 membres *** Entreprises du logiciel :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :END: - cotisation sur la base de l'usage (software escrow) - à terme 100 à 200 membres ** Partenaires **** Institutions :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: - BNF - Caisse des dépôts - CEA - CNRS - CERN - ... **** Non profit :B_block:BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: - [X] Eclipse - [X] FSF - [X] OSI - [ ] Wikipedia - [ ] Web Archive - [ ] Software Museums - ... ** Package components **** Offre - image - board members - preview/preliminary access - sponsor status in the conference **** Demande - financement - in kind contributions - image / support **** Conditions spéciales - engagement pluriannuel (3/5 ans) ** Exemples **** Founding partner = 200Ke / an + 400Ke matching grant :PROPERTIES: :BEAMER_act: +- :END: - permanent mention as founding partner on all communications - /gold/ sponsor status at the conference - preliminary access to all preview features - /seat/ on the advisory board **** Partner = 100Ke+ / an :PROPERTIES: :BEAMER_act: +- :END: - mention as partner on all /online/ communications - /silver/ sponsor status at the conference **** Gold sponsor = 50Ke+ / an :BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: - logo on the website **** Silver sponsor = 25Ke+ / an :BMCOL: :PROPERTIES: :BEAMER_COL: 0.48 :BEAMER_ENV: block :BEAMER_act: +- :END: - /smaller/ logo on the website * Organisation :noexport: ** Structure Proposition **** localisation + bureaux: Paris (Irill/CR PR) + machines: DSI **** gestion Irill + ligne budgetaire spécifique de la DG **** stratégie Irill est important comme "chapeau" de Software Heritage + image pour la communauté Logiciel Libre + permet de donner une partie d'image aux autres partenaires ** Synthèse * Prochaînes étapes ** Dates *** Calendrier des réunions - Décembre 2015 - Mars 2016 - Juin 2016 *** Plan de visite - liste des contacts - contributions aux visites * Ideas :noexport: ** ANSSI - fee for individual software deposit - higher fee for non open source deposit (m out of n example) * Synthèse \begin{comment} \begin{frame}{Disruption of the web of reference: our Gforge} \begin{center} \includegraphics[width=\extblockscale{.7\linewidth}]{% gforge-changed-url} \url{http://google-opensource.blogspot.fr/2015/03/farewell-to-google-code.html} \end{center} \pause \uncover<+->{\itshape\flushright Fixed, adding a redirection, by the Gforge team in {\bf 1} day!\\ Not always that lucky, though ...} \end{frame} \end{comment}