As per T1122 we are receiving "malformed" deposits in the sense that the envelope archive only contains a single archive (zip, tar, etc.) which itself contains the source code.
We should refuse those deposits and make their ingestion fail at the deposit check step.
Description
Related Objects
- Mentioned In
- T2071: [HAL] Fix published zip in zip
rDDEP5ad0e510991d: docs: Update deposit with status rejected documentation
rDDEP490e188549fa: deposit_status: Update the deposit status endpoint
rDDEPf29e3f49ad97: deposit_check: Add test around deposit with 1 archive rejection
rDDEPfd3d9085693f: deposit_check: Reject deposit containing a single archive
D380: Reject deposit containing a single archive
T1122: properly handle ingestion of archives within archives (recursive extraction) - Mentioned Here
- T1122: properly handle ingestion of archives within archives (recursive extraction)
Event Timeline
@rdicosmo:
https://archive.softwareheritage.org/browse/revision/cccf789c12617208fe188ad3dbc2746d4c884ab7/?origin_type=deposit&origin_url=https://hal.archives-ouvertes.fr/hal-01831369
on trouve un fichier .tar.gz et non pas le contenu du .tar.gz proprement traite.
@morane, @ardumont: ce n'est pas encore regle cote HAL cette histoire de double conteneur, vous pouvez regarder?
@ardumont:
Rien n'est possible cote swh:
- pas d'acces a leur infra (Bruno)
- pas d'acces a leur code pour aider a identifier le soucis (Bruno)
@ardumont:
Je parlais du point de vue d'infra hal.
En prenant un peu de recul et reduisant la contrainte, je me suis rappelle d'une chose.
Nous avions discute cote swh de refuser les depots dont l'archive est mal formee (ce depot ici qualifiant). [1]Cela n'apportera rien au probleme en cours ici, la suggestion d'un nouveau depot avec archive zip de roberto est tjs valide.
Toutefois, cela permettra de:
- reduire la frequence de ces depots (et ne pas "polluer" l'archive)
- mettre en evidence le probleme [2]
[1] https://forge.softwareheritage.org/T1123, https://forge.softwareheritage.org/T1122
[2] Pour information, j'ai rajoute pour faciliter les echanges avec Jozefina, l'acces aux verifications en echec quand le depot est rejete.
Et cette information se voit par l'api du statut du deposit (qui est reference cote hal en cas d'echec).
En ajoutant le check d'archive mal formee, cela apparaitra.
@rdicosmo:
Ok, cela me semble un bon plan