Page MenuHomeSoftware Heritage

gc.org
No OneTemporary

#+COLUMNS: %40ITEM %10BEAMER_env(Env) %9BEAMER_envargs(Env Args) %4BEAMER_col(Col) %10BEAMER_extra(Extra)
* Comité de pilotage :noexport:
** Composition
**** Membres
- Jean-François Abramatic (Président)
- Céline Acharian
- Roberto Di Cosmo (SWH CEO)
- Pascal Guitton
- Eric Horlait
**** Invités permanents
- Serge Abiteboul
- Gerard Berry
** Mission
* conseil
+ strategie
+ feuille de route
* partenariats
+ definition de la typologie
+ identification des candidats
+ plan de visite
+ participation active dans la mise en place
* finance
+ validation du budget 2015
+ participation a l'elaboration du budget 2016
* gouvernance
+ integration du projet dans l'organisation Inria
* communication
+ vers l'exterieur
+ en interne avec les chercheurs
* Introduction
** Le projet Software Heritage
*** Our mission :noexport:
:PROPERTIES:
:BEAMER_act: +-
:END:
Collect, organise, preserve and share all the software
that lies at the heart of our culture and our society.
Archive all software artifacts \emph{in the long term}, track their
evolution over time, and make them readily accessible, referenceable, and
reusable to the benefit of present and future generations.
*** Contexte: le logiciel est pervasif
:PROPERTIES:
:BEAMER_act: +-
:END:
- au coeur de notre societe numerique
- contient notre connaissance technique et scientifique
- mediateur pour toute l'information numerique
- il est notre patrimoine
- pas d'initiative pour préserver le logiciel en tant que tel
*** Mission
:PROPERTIES:
:BEAMER_act: +-
:END:
collecter, organiser, documenter, préserver et rendre accessible le
patrimoine logiciel de l'humanité, pour les générations présentes et
futures
** Software Heritage: quelques cas d'usage
*** enseignement
- referentiel stable : matériel pour les cours
- sourcebook : trouver des exemples de code
# - sourcebook : find occurrences of programming patterns
# - learning platform : code browsing (extensions "à la js_of_ocaml")
*** industrie
- referentiel unique
- analyse de code, vulnerabilité
- traçabilité, licences
# - licence and attribution metadata
# - use and trends
*** science
- reference unique (publications, reproducibilité)
- infrastructure de recherche big data
- objet scientifique
- défis scientifiques
** Une infrastructure unique aux usages multiples
#+ATTR_LATEX: :width \extblockscale{\linewidth}
[[file:swh-as-infra.png]]
*** une pluralité de facettes
- préservation à long terme (typiquement offline)
- base de données exhaustive (doit être online!)
- socle pour analyses et annotation (besoin d'une communauté)
** Historique
*** Origine :BMCOL:B_block:
:PROPERTIES:
:BEAMER_col: 0.6
:BEAMER_ENV: block
:END:
# - discussion entre Roberto et Antelink début 2014
- idée née en mai 2014
# - première proposition en Septembre 2014, elaborée avec DebSources et Antepedia
- passage en DG en janvier 2015
- passage en ComDir en février 2015
- décision de lancement en mars 2015
- début du travail en mai 2015, sur budget DGD-T
*** Assets :BMCOL:B_block:
:PROPERTIES:
:BEAMER_col: 0.4
:BEAMER_ENV: block
:END:
- Antelink: 2M de projets
- DebSources: toutes les sources des releases Debian
- Irill: cadre fédérateur
*** Pourquoi Inria (COP 2015-2019, extrait)
/Inria est le seul organisme de recherche français dédié spécifiquement au
numérique./ Cette position le rend légitime pour initier des réflexions ou monter
des actions d’investigation dans l’ensemble des domaines liés aux sciences du
numérique.
** Quelques projets et initiatives connexes
*** Archive.org (San Francisco)
Brewster Kahle :
\emph{Internet Archive is a non-profit library of millions of free books, movies, software, music, and more.}\\
Contenu: 110.000 logiciels variés, focalisé sur l'éxécution du logiciel, pas ses sources
*** RunMyCode.org
Accueille des dépôts de code associés à des articles; créé en 2012; adoubé par le CNRS; contient quelques centaines de dépôts
# 3 professeurs, Orleans, HEC, Columbia, http://www.runmycode.org/about.html
*** ArXiv (Library of Cornell)
Repertoire Open Access pour la publication scientifique (la base de HAL),
piloté par Cornell
*** Zenodo (CERN) Soutenu par grants EU Infrastructure
\emph{Open data repository} pour les données scientifiques.
** Quelques projets et initiatives connexes
*** [[http://news.rice.edu/2014/11/05/next-for-darpa-autocomplete-for-programmers-2/][NEXT, (11M project DARPA)]]
Autocomplete for programmers
*** et encore...
- NSRL (forensic)
- Musée de l'Informatique
- etc..
***
Nous ne sommes pas seuls, mais notre positionnement est unique:
- exhaustivité
- focus sur le /code source/
- référentiel unique
- préservation à long terme: open source, miroirs
- fait par des informaticiens
** Plan :noexport:
*** Amorçage
dévéloppement d'un prototype, image web, roadmap, premiers parténariats, annonce publique
*** Consolidation
fonctionnalités plus avancées, replication, partenariats industriels et académiques
*** Globalisation
montage de la structure de consortium internationale, autonomisation de l'initiative
** Rappel du plan opérationnel
*** lancement par Inria
- financement initial
- hébérgement de l'initiative
*** réunion des parténaires
1. mecènes, fondations
2. sponsors industriels
3. membres institutions et industries
*** globalisation
- structure internationale
- governance
- réseau de miroirs
** Action items du dernier CoPil
|---------------------------------+------------+--------------+-----------|
| Action | Assignée à | Timing | Status |
|---------------------------------+------------+--------------+-----------|
| Finalisation devis matériel | Zacchiroli | 10 juin max | fait |
| Signature MOU | Horlait | Urgent | fait |
| Finaliser Plaquette | Di Cosmo | Urgent | fait |
| Place pour SWH à Gare de Lyon | Horlait | Urgent | |
| Budget 2015 pour SWH | Horlait | Urgent | |
| Relancer GT reproductibilité | Guitton | Rentrée | |
| Slot Journée Scientifiques 2016 | Guitton | 2016 | |
| Prise de contact partenaires | Abramatic | juin/juillet | ? |
| | Di Cosmo | juin/juillet | plusieurs |
| | Horlait | juin/juillet | ? |
|---------------------------------+------------+--------------+-----------|
| | | | |
* Point d'étape
** Compétences
*** Equipe [4/4]
:PROPERTIES:
:BEAMER_act: +-
:END:
- [X] Roberto Di Cosmo (CEO), Inria depuis le 1/9/2015
- [X] Stefano Zacchiroli (CTO), dél. Inria depuis le 1/9/2015
- [X] Antoine Dumont (Dev) depuis le 1/5/2015
- [X] Nicolas Dandrimont (Ops) depuis le 1/9/2015
#+ATTR_LATEX: :width \extblockscale{.8\linewidth}
[[file:swh-the-team.png]]
** Parténariat, identité
*** Contractualisation Antelink [1/1]
- [X] NDA/MOU (envoyé Eric Horlait [2015-05-05 Tue], signé fin Août)
*** Marque Software Heritage [2/2]
- [X] dépôt effectué le 2015-04-30
- [X] [[https://bases-marques.inpi.fr/Typo3_INPI_Marques/marques_fiche_resultats.html?index%3D1&refId%3D4171255_201531_fmark&y%3D0][validée sur INPI depuis 2015-07-31]]
** Communication
#+ATTR_LATEX: :width \extblockscale{.7\linewidth}
[[file:SWH.png]]
*** Realisé (merci à la DirCom)
- [X] logo (thème Inria dans la couleur)
- [X] plaquette FR (livrée en Juillet)
#
# needs some more love
#
# \animategraphics[loop,autoplay]{12}{SWH-logoanim-}{0}{30}
# \animategraphics[scale=.1,autoplay,loop]{12}{SWH-logoanim-}{0}{31}
*** Realisé en interne :BMCOL:B_block:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
- [X] hierarchie du site web
- [X] choix de la technologie
- [X] choix hebergement (Gandi)
- [X] deploiement plateforme
*** En cours :BMCOL:B_block:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
- [ ] plaquette EN
- [ ] charte graphique
- [ ] contenu du site web
- [ ] intégration avec le prototype
** Infrastructure matérielle
**** Fait [2/2] :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.4
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- [X] serveur et disques prototype (~350T, merci DGD-T)
- [X] installation et configuration
# - [ ] reprise des données Antepedia
#+ATTR_LATEX: :width \extblockscale{.9\linewidth}
[[file:server-swh.jpg]]
**** A faire :BMCOL:B_block:
:PROPERTIES:
:BEAMER_COL: 0.56
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- backup des données et replication off site
* options institutionnelles
- cloud (OVH, Google...)
- partenariats (CNRS, CEA, CINES)
* options techniques
- stoquage traditionnel
- FS distribue
- peer to peer
- certificats SSL
** Modélisation
- choix des clés crypto (longueur, sha1, sha256 et futur sha3)
- validé avec D. Pointcheval
- étude des sources [5/6]
- [X] Debian sources (~23K projets, 11M fichiers, 1Md lignes de code)
- [X] Antepedia (~2M de projets)
- [X] Github (~12M de projets)
- [X] Debian Snapshot (10 ans )
- [X] Archive GNU
- [ ] SourceForge, gForge, Maven etc.
- modélisation [2/3]
- [X] v0.1 (soustraitance PG-SQL en cours)
- [X] test use cases
- [ ] test production
** Schéma de la base
#+ATTR_LATEX: :height .95\textheight
[[file:db-schema-swh.pdf]]
** Logiciel (sur forge SWH: sera reproductible, documenté)
*** prototype [2/4]
- [X] github lister
- [X] github dumper
- [ ] loader (en cours)
- [ ] web backend
*** fonctionnalités avancées
- [ ] browse
- [ ] on demand upload (connexion avec Open Access)
- [ ] distributed replication
*** fonctionnalités avec un défi scientifique
- [ ] code search (déjà limité sur Debian Sources)
- [ ] big data analysis
** Decollage (technique)!
*** recolte des données (Juillet/Août 2015)
:PROPERTIES:
:BEAMER_act: +-
:END:
\begin{center}\huge\bf
12 millions de depôts \emph{github}\\
10 ans d'historique Debian\\
tout \url{gnu.org}\\
données Antelink
\end{center}
# - [X] toutes les sources du projet GNU
*** prochaînes étapes
:PROPERTIES:
:BEAMER_act: +-
:END:
- [ ] Maven
- [ ] Sourceforge
** Partenariats
*** Premiers Soutiens d'associations (fait)
- Eclipse foundation
- Free Software foundation
- Open Source initiative
*** A faire
- financeurs, mécènes
- institutions
- entreprises
- académiques (ACM, IEEE, et plus large)
* Communication et partenariats
** La question du lancement
*** Typologie de partenaires
- co-fondateurs (avec nous sur l'annonce)
- sponsors (après l'annonce)
- membres (à régime)
*** Créneaux pour annonce publique
- première possibilitée: POSS (15/11/2015)
+ techniquement faisable
+ si partenaires fondateurs
*** Question:
jusqu'à quand attendre les co-fondateurs?
** Manifestations de soutien
*** Académiques, informatique
- [[http://www.informatics-europe.org/about-informatics-europe/ieu_board.html][Informatics Europe]]
- ACM (SIGSOFT en cours)
- IEEE (SOFTWARE en cours)
# -action-> Antoine et Gerard sont dans Informatics Europe
*** Académiques, autres
- Académie des Sciences
- [[http://www.scienceeurope.org][Science Europe]]
# -action-> Gerard et Serge sont dans l'Academie des Sciences, et aussi Gerard Berry
*** Non académiques
- ...
** Recherche de partenaires
*** Fondations
- France: Bettencourt, Airbus, AXA, ...
- US: Simons, Sloan, Mellon, Carnegie, ...
*** Mécènes
- France: Xavier Niel
- US: ...
*** Entreprises
- IBM, HP, Google, Amazon, CISCO, Intel, Microsoft ...
*** Institutions
- CNRS, CEA, CERN, ...
***
Autres
# -action-> on cherche des contacts
** Action
*** Contacts
- discussion
- ...
*** Matériel
- la plaquette (photo)
- belles histoires
- elevator pitch
- argumentaire ciblé
- séléction de soutiens
** Story telling
*** Perte de code
- bug Y2K : 40\% of source code missing in 1998
- bit rot (Vinton Cerf)
*** Fermeture de forges
- [[http://code.google.com]]
- [[http://www.gitorious.org]]
*** Reproductibilité
Analyse de Christian Collberg (2014)
- 8 ACM conferences: ASPLOS’12, CCS’12, OOPSLA’12, OSDI’12, PLDI’12, SIGMOD’12, SOSP’11, VLDB’12
- 5 journals: TACO’9, TISSEC’15, TOCS’30, TODS’37, TOPLAS’34
- 81\% \alert{non reproductible}!
# -action-> input du board
** Discours général
***
Our mission is to collect, organise, preserve \emph{in the long term} and share all the software
artifact that lies at the heart of our culture and our society.
# We will archive all software artifacts , track their evolution over time, and
# make them readily accessible, referenceable, and reusable to the benefit of
# present and future generations.
*** arguments
+ Software is everywhere:
mobile devices, mainframes, everyday objects, ... our bodies; our lives depend on software
+ Software is fragile
bits can be lost, be deleted, or get corrupted
+ Software is an asset
contains our knowledge and must be collected and protected
*** mini pitches
- Alexandria's Library of Software
- ISBN of Software
- the Library of Congress of Software (US centric)
** Cultural heritage - society
***
Writing software is a highly creative act, similar to Mathematics.
***
A large corpus of Software has been amassed in the last 60 years.
***
Software is Knowledge, and Knowledge depends on Software.
***
Preserving Software is preserving the technological and scientific knowledge enbodied into software.
***
By preserving software, we help keeping accessible the body of
knowledge currently available in digital form.
***
Cultural heritage: "the legacy of artifacts that are inherited from past
generations, maintained in the present, and bestowed for the benefit of
future generations"
** Cultural heritage - society
*** arguments
- collective knowledge increasingly digitalised
+ software is the key to exploit it
- software /in itself/ is part of our heritage
+ software development is a highly creative human activity
+ huge corpus of source code accumulated since the 1950s
- a rapidly increasing part of /our collective knowledge is
embodied in, or dependent on, a wealth of software artifacts/
This knowledge represents a /cultural heritage/ that needs to be preserved and passed over to
future generations.
*** mini pitches
- (connection with) museum of Software
- (foundation of) Wikipedia of Software
- (foundation of) the History of Software and Technology
** Industry
***
Software Heritage is the /Universal reference repository of Software/
***
Software Heritage allows traceability of components
***
With Software Heritage, you only need a Bill of Materials
***
*** mini pitches
- Software Part Number
- Worldwide Catalog of Software
- Worldwide Software Warehouse
- Universal reference repository of Software
** Industry
*** arguments
- supply chain --> reference repository
- code analysis
- vulnerabilities
- traceability
- referentiel unique
- escrow
- licence and attribution metadata
- use and trends
** Science :ATTACH:
:PROPERTIES:
:Attachments: sciencemag-2012
:ID: b763712d-2616-4c8c-bcb2-a9dd40db6c01
:END:
*** for computer scientists
- software studies
- our DNA
*** for all fields ([[http://www.sciencemag.org/content/336/6078/159][All of science relies on Software]])
The magic triangle for scientific reproducibility
#+LATEX: \begin{center}
#+ATTR_LATEX: :width \extblockscale{.5\linewidth}
[[file:PreservationTriangle.png]]
#+LATEX: \end{center}
It is a /research infrastructure/ -- see EU workprogramme 2016-2017
# Software Studies ( + big data)
** Science :ATTACH:
*** mini pitches
- CERN of Software
- Software SourceBook / HandBook
- ISBN of Software
- foundation for reproducibility
- the universal, persistent repository of scientific software
# ** education
- sourcebook
* Discussion: le volet scientifique
** La science
*** défis scientifiques
- big data
- search
- provenance
- resilient distributed infrastructure
- replicability
** La science
*** organisation d'une conférence internationale
- fin 2016 à Paris
*** étapes préliminaires
- groupe de travail /reproductibilité/ Inria (décembre 2014)
- keynote sur /la préservation et la reproductibilité/ au Scilabtec 2015 (mai 2015)
- seminaire Dagstuhl sur /artefact evaluation/ (novembre 2015)
- workshop reproductibilité R4 (decembre 2015)
- keynote EvoLille (decembre 2015)
- journées scientifiques Inria
- support des collègues
# -action-> idées de contacts, en plus de Laurent Romary et Remy Gribonval
* Communication :noexport:
** Éléments de rayonnement
** Plaquette
**** TODO Gerard, Serge, Jean-Francois, acceptent-ils d'avoir leur photo sur la plaquette?
** Communication
**** Externe (Reproductibilité, software preservation)
journaliste scientifique pour
+ Communications of the ACM <2016-01-01 Fri>
+ Nature <2016-06-01 Wed>
- connexion avec les financeurs, a mentionner dans l'article
N.B.: porosité des media - mieux commencer par CACM/Nature
**** Interne (attention à préserver l'externe)
- Groupe reproductibilité <2015-10-01 Thu>
+ focus group sur le dépôt d'artefacts logiciels
- Impliquer le réseau des ADS
- Journées scientifiques 2016
**** Web site
- vitrine avec contenu bilingue <2015-10-01 Thu>
* Finances :noexport:
** Validation budget 2015
#+ATTR_LATEX: width=\linewidth
[[file:budget-2015-crop.pdf]]
*** Points salients
- + infrastructure matérielle
- + acquisition des données sur Amazon
- - ingénieurs sur une partie de l'année
- - locaux + partie des missions Irill
** Budget préliminaire pour 2016
#+ATTR_LATEX: width=\linewidth
[[file:budget-2016-crop.pdf]]
*** Points salients
- + ingénieurs en année pleine
- + filtrage des contenus déposés
- + conférence internationale
- - legacy Amazon storage
** Les grandes lignes
Pour la recherche de sponsoring on peut indiquer
comme coûts
**** Lancement
- 1Me / an sur deux ans
**** Régime
- 2 à 3 Me / an
* Partenariats :noexport:
** Financeurs à forte capacité d'engagement
**** Fondations :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
# (Godefroy Beauvallet)
- Axa
- Bettencourt
- EADS
- Simons
- Sloan
- ...
**** Entreprises :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- Cap Gemini
- Google
- IBM
- HP
- Microsoft
- ...
**** Pouvoirs publics
:PROPERTIES:
:BEAMER_act: +-
:END:
+ Exemples
- Ministères
- Region(s)
- Commission Européenne
** Membres (nombreux, petite cotisation)
*** Universités et centres de recherche :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
- cotisation sur la base de l'usage (modèle ArXiV)
- à terme 100 à 300 membres
*** Entreprises du logiciel :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:END:
- cotisation sur la base de l'usage (software escrow)
- à terme 100 à 200 membres
** Partenaires
**** Institutions :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- BNF
- Caisse des dépôts
- CEA
- CNRS
- CERN
- ...
**** Non profit :B_block:BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- [X] Eclipse
- [X] FSF
- [X] OSI
- [ ] Wikipedia
- [ ] Web Archive
- [ ] Software Museums
- ...
** Package components
**** Offre
- image
- board members
- preview/preliminary access
- sponsor status in the conference
**** Demande
- financement
- in kind contributions
- image / support
**** Conditions spéciales
- engagement pluriannuel (3/5 ans)
** Exemples
**** Founding partner = 200Ke / an + 400Ke matching grant
:PROPERTIES:
:BEAMER_act: +-
:END:
- permanent mention as founding partner on all communications
- /gold/ sponsor status at the conference
- preliminary access to all preview features
- /seat/ on the advisory board
**** Partner = 100Ke+ / an
:PROPERTIES:
:BEAMER_act: +-
:END:
- mention as partner on all /online/ communications
- /silver/ sponsor status at the conference
**** Gold sponsor = 50Ke+ / an :BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- logo on the website
**** Silver sponsor = 25Ke+ / an :BMCOL:
:PROPERTIES:
:BEAMER_COL: 0.48
:BEAMER_ENV: block
:BEAMER_act: +-
:END:
- /smaller/ logo on the website
* Organisation :noexport:
** Structure
Proposition
**** localisation
+ bureaux: Paris (Irill/CR PR)
+ machines: DSI
**** gestion
Irill
+ ligne budgetaire spécifique de la DG
**** stratégie
Irill est important comme "chapeau" de Software Heritage
+ image pour la communauté Logiciel Libre
+ permet de donner une partie d'image aux autres partenaires
** Synthèse
* Prochaînes étapes
** Dates
*** Calendrier des réunions
- Décembre 2015
- Mars 2016
- Juin 2016
*** Plan de visite
- liste des contacts
- contributions aux visites
* Ideas :noexport:
** ANSSI
- fee for individual software deposit
- higher fee for non open source deposit (m out of n example)
* Synthèse
\begin{comment}
\begin{frame}{Disruption of the web of reference: our Gforge}
\begin{center}
\includegraphics[width=\extblockscale{.7\linewidth}]{%
gforge-changed-url}
\url{http://google-opensource.blogspot.fr/2015/03/farewell-to-google-code.html}
\end{center}
\pause
\uncover<+->{\itshape\flushright Fixed, adding a redirection, by the Gforge team in {\bf 1} day!\\ Not always that lucky, though ...}
\end{frame}
\end{comment}

File Metadata

Mime Type
text/plain
Expires
Sat, Jun 21, 6:58 PM (2 w, 1 d ago)
Storage Engine
blob
Storage Format
Raw Data
Storage Handle
3242936

Event Timeline