diff --git a/swh/search/elasticsearch.py b/swh/search/elasticsearch.py
index dc04fa5..4cd0ea6 100644
--- a/swh/search/elasticsearch.py
+++ b/swh/search/elasticsearch.py
@@ -1,549 +1,552 @@
 # Copyright (C) 2019-2021  The Software Heritage developers
 # See the AUTHORS file at the top-level directory of this distribution
 # License: GNU General Public License version 3, or any later version
 # See top-level LICENSE file for more information
 
 import base64
 from collections import Counter
 import logging
 import pprint
 from textwrap import dedent
 from typing import Any, Dict, Iterable, List, Optional
 
 from elasticsearch import Elasticsearch, helpers
 import msgpack
 
 from swh.indexer import codemeta
 from swh.model import model
 from swh.model.hashutil import hash_to_hex
 from swh.search.interface import (
     SORT_BY_OPTIONS,
     MinimalOriginDict,
     OriginDict,
     PagedResult,
 )
 from swh.search.metrics import send_metric, timed
 from swh.search.translator import Translator
-from swh.search.utils import escape, get_expansion, is_date_parsable
+from swh.search.utils import escape, get_expansion, parse_and_format_date
 
 logger = logging.getLogger(__name__)
 
 INDEX_NAME_PARAM = "index"
 READ_ALIAS_PARAM = "read_alias"
 WRITE_ALIAS_PARAM = "write_alias"
 
 ORIGIN_DEFAULT_CONFIG = {
     INDEX_NAME_PARAM: "origin",
     READ_ALIAS_PARAM: "origin-read",
     WRITE_ALIAS_PARAM: "origin-write",
 }
 
 
 def _sanitize_origin(origin):
     origin = origin.copy()
 
     # Whitelist fields to be saved in Elasticsearch
     res = {"url": origin.pop("url")}
     for field_name in (
         "blocklisted",
         "has_visits",
         "intrinsic_metadata",
         "visit_types",
         "nb_visits",
         "snapshot_id",
         "last_visit_date",
         "last_eventful_visit_date",
         "last_revision_date",
         "last_release_date",
     ):
         if field_name in origin:
             res[field_name] = origin.pop(field_name)
 
     # Run the JSON-LD expansion algorithm
     # <https://www.w3.org/TR/json-ld-api/#expansion>
     # to normalize the Codemeta metadata.
     # This is required as Elasticsearch will needs each field to have a consistent
     # type across documents to be searchable; and non-expanded JSON-LD documents
     # can have various types in the same field. For example, all these are
     # equivalent in JSON-LD:
     # * {"author": "Jane Doe"}
     # * {"author": ["Jane Doe"]}
     # * {"author": {"@value": "Jane Doe"}}
     # * {"author": [{"@value": "Jane Doe"}]}
     # and JSON-LD expansion will convert them all to the last one.
     if "intrinsic_metadata" in res:
         intrinsic_metadata = res["intrinsic_metadata"]
         for date_field in ["dateCreated", "dateModified", "datePublished"]:
             if date_field in intrinsic_metadata:
                 date = intrinsic_metadata[date_field]
 
                 # If date{Created,Modified,Published} value isn't parsable
                 # It gets rejected and isn't stored (unlike other fields)
-                if not is_date_parsable(date):
+                formatted_date = parse_and_format_date(date)
+                if formatted_date is None:
                     intrinsic_metadata.pop(date_field)
+                else:
+                    intrinsic_metadata[date_field] = formatted_date
 
         res["intrinsic_metadata"] = codemeta.expand(intrinsic_metadata)
 
     return res
 
 
 def token_encode(index_to_tokenize: Dict[bytes, Any]) -> str:
     """Tokenize as string an index page result from a search"""
     page_token = base64.b64encode(msgpack.dumps(index_to_tokenize))
     return page_token.decode()
 
 
 def token_decode(page_token: str) -> Dict[bytes, Any]:
     """Read the page_token"""
     return msgpack.loads(base64.b64decode(page_token.encode()), raw=True)
 
 
 class ElasticSearch:
     def __init__(self, hosts: List[str], indexes: Dict[str, Dict[str, str]] = {}):
         self._backend = Elasticsearch(hosts=hosts)
         self._translator = Translator()
 
         # Merge current configuration with default values
         origin_config = indexes.get("origin", {})
         self.origin_config = {**ORIGIN_DEFAULT_CONFIG, **origin_config}
 
     def _get_origin_index(self) -> str:
         return self.origin_config[INDEX_NAME_PARAM]
 
     def _get_origin_read_alias(self) -> str:
         return self.origin_config[READ_ALIAS_PARAM]
 
     def _get_origin_write_alias(self) -> str:
         return self.origin_config[WRITE_ALIAS_PARAM]
 
     @timed
     def check(self):
         return self._backend.ping()
 
     def deinitialize(self) -> None:
         """Removes all indices from the Elasticsearch backend"""
         self._backend.indices.delete(index="*")
 
     def initialize(self) -> None:
         """Declare Elasticsearch indices, aliases and mappings"""
 
         if not self._backend.indices.exists(index=self._get_origin_index()):
             self._backend.indices.create(index=self._get_origin_index())
 
         if not self._backend.indices.exists_alias(name=self._get_origin_read_alias()):
             self._backend.indices.put_alias(
                 index=self._get_origin_index(), name=self._get_origin_read_alias()
             )
 
         if not self._backend.indices.exists_alias(name=self._get_origin_write_alias()):
             self._backend.indices.put_alias(
                 index=self._get_origin_index(), name=self._get_origin_write_alias()
             )
 
         self._backend.indices.put_mapping(
             index=self._get_origin_index(),
             body={
                 "dynamic_templates": [
                     {
                         "booleans_as_string": {
                             # All fields stored as string in the metadata
                             # even the booleans
                             "match_mapping_type": "boolean",
                             "path_match": "intrinsic_metadata.*",
                             "mapping": {"type": "keyword"},
                         }
                     }
                 ],
                 "date_detection": False,
                 "properties": {
                     # sha1 of the URL; used as the document id
                     "sha1": {"type": "keyword", "doc_values": True,},
                     # Used both to search URLs, and as the result to return
                     # as a response to queries
                     "url": {
                         "type": "text",
                         # To split URLs into token on any character
                         # that is not alphanumerical
                         "analyzer": "simple",
                         # 2-gram and partial-3-gram search (ie. with the end of the
                         # third word potentially missing)
                         "fields": {
                             "as_you_type": {
                                 "type": "search_as_you_type",
                                 "analyzer": "simple",
                             }
                         },
                     },
                     "visit_types": {"type": "keyword"},
                     # used to filter out origins that were never visited
                     "has_visits": {"type": "boolean",},
                     "nb_visits": {"type": "integer"},
                     "snapshot_id": {"type": "keyword"},
                     "last_visit_date": {"type": "date"},
                     "last_eventful_visit_date": {"type": "date"},
                     "last_release_date": {"type": "date"},
                     "last_revision_date": {"type": "date"},
                     "intrinsic_metadata": {
                         "type": "nested",
                         "properties": {
                             "@context": {
                                 # don't bother indexing tokens in these URIs, as the
                                 # are used as namespaces
                                 "type": "keyword",
                             },
                             "http://schema": {
                                 "properties": {
                                     "org/dateCreated": {
                                         "properties": {"@value": {"type": "date",}}
                                     },
                                     "org/dateModified": {
                                         "properties": {"@value": {"type": "date",}}
                                     },
                                     "org/datePublished": {
                                         "properties": {"@value": {"type": "date",}}
                                     },
                                 }
                             },
                         },
                     },
                     # Has this origin been taken down?
                     "blocklisted": {"type": "boolean",},
                 },
             },
         )
 
     @timed
     def flush(self) -> None:
         self._backend.indices.refresh(index=self._get_origin_write_alias())
 
     @timed
     def origin_update(self, documents: Iterable[OriginDict]) -> None:
         write_index = self._get_origin_write_alias()
         documents = map(_sanitize_origin, documents)
         documents_with_sha1 = (
             (hash_to_hex(model.Origin(url=document["url"]).id), document)
             for document in documents
         )
         # painless script that will be executed when updating an origin document
         update_script = dedent(
             """
             // utility function to get and parse date
             ZonedDateTime getDate(def ctx, String date_field) {
                 String default_date = "0001-01-01T00:00:00Z";
                 String date = ctx._source.getOrDefault(date_field, default_date);
                 return ZonedDateTime.parse(date);
             }
 
             // backup current visit_types field value
             List visit_types = ctx._source.getOrDefault("visit_types", []);
             int nb_visits = ctx._source.getOrDefault("nb_visits", 0);
 
             ZonedDateTime last_visit_date = getDate(ctx, "last_visit_date");
 
             String snapshot_id = ctx._source.getOrDefault("snapshot_id", "");
             ZonedDateTime last_eventful_visit_date =
                 getDate(ctx, "last_eventful_visit_date");
             ZonedDateTime last_revision_date = getDate(ctx, "last_revision_date");
             ZonedDateTime last_release_date = getDate(ctx, "last_release_date");
 
             // update origin document with new field values
             ctx._source.putAll(params);
 
             // restore previous visit types after visit_types field overriding
             if (ctx._source.containsKey("visit_types")) {
                 for (int i = 0; i < visit_types.length; ++i) {
                     if (!ctx._source.visit_types.contains(visit_types[i])) {
                         ctx._source.visit_types.add(visit_types[i]);
                     }
                 }
             }
 
             // Undo overwrite if incoming nb_visits is smaller
             if (ctx._source.containsKey("nb_visits")) {
                 int incoming_nb_visits = ctx._source.getOrDefault("nb_visits", 0);
                 if(incoming_nb_visits < nb_visits){
                     ctx._source.nb_visits = nb_visits;
                 }
             }
 
             // Undo overwrite if incoming last_visit_date is older
             if (ctx._source.containsKey("last_visit_date")) {
                 ZonedDateTime incoming_last_visit_date = getDate(ctx, "last_visit_date");
                 int difference =
                     // returns -1, 0 or 1
                     incoming_last_visit_date.compareTo(last_visit_date);
                 if(difference < 0){
                     ctx._source.last_visit_date = last_visit_date;
                 }
             }
 
             // Undo update of last_eventful_date and snapshot_id if
             // snapshot_id hasn't changed OR incoming_last_eventful_visit_date is older
             if (ctx._source.containsKey("snapshot_id")) {
                 String incoming_snapshot_id = ctx._source.getOrDefault("snapshot_id", "");
                 ZonedDateTime incoming_last_eventful_visit_date =
                     getDate(ctx, "last_eventful_visit_date");
                 int difference =
                     // returns -1, 0 or 1
                     incoming_last_eventful_visit_date.compareTo(last_eventful_visit_date);
                 if(snapshot_id == incoming_snapshot_id || difference < 0){
                     ctx._source.snapshot_id = snapshot_id;
                     ctx._source.last_eventful_visit_date = last_eventful_visit_date;
                 }
             }
 
             // Undo overwrite if incoming last_revision_date is older
             if (ctx._source.containsKey("last_revision_date")) {
                 ZonedDateTime incoming_last_revision_date =
                     getDate(ctx, "last_revision_date");
                 int difference =
                     // returns -1, 0 or 1
                     incoming_last_revision_date.compareTo(last_revision_date);
                 if(difference < 0){
                     ctx._source.last_revision_date = last_revision_date;
                 }
             }
 
             // Undo overwrite if incoming last_release_date is older
             if (ctx._source.containsKey("last_release_date")) {
                 ZonedDateTime incoming_last_release_date =
                     getDate(ctx, "last_release_date");
                 // returns -1, 0 or 1
                 int difference = incoming_last_release_date.compareTo(last_release_date);
                 if(difference < 0){
                     ctx._source.last_release_date = last_release_date;
                 }
             }
             """  # noqa
         )
 
         actions = [
             {
                 "_op_type": "update",
                 "_id": sha1,
                 "_index": write_index,
                 "scripted_upsert": True,
                 "upsert": {**document, "sha1": sha1,},
                 "retry_on_conflict": 10,
                 "script": {
                     "source": update_script,
                     "lang": "painless",
                     "params": document,
                 },
             }
             for (sha1, document) in documents_with_sha1
         ]
 
         indexed_count, errors = helpers.bulk(self._backend, actions, index=write_index)
         assert isinstance(errors, List)  # Make mypy happy
 
         send_metric("document:index", count=indexed_count, method_name="origin_update")
         send_metric(
             "document:index_error", count=len(errors), method_name="origin_update"
         )
 
     @timed
     def origin_search(
         self,
         *,
         query: str = "",
         url_pattern: Optional[str] = None,
         metadata_pattern: Optional[str] = None,
         with_visit: bool = False,
         visit_types: Optional[List[str]] = None,
         min_nb_visits: int = 0,
         min_last_visit_date: str = "",
         min_last_eventful_visit_date: str = "",
         min_last_revision_date: str = "",
         min_last_release_date: str = "",
         min_date_created: str = "",
         min_date_modified: str = "",
         min_date_published: str = "",
         programming_languages: Optional[List[str]] = None,
         licenses: Optional[List[str]] = None,
         keywords: Optional[List[str]] = None,
         sort_by: Optional[List[str]] = None,
         page_token: Optional[str] = None,
         limit: int = 50,
     ) -> PagedResult[MinimalOriginDict]:
         query_clauses: List[Dict[str, Any]] = []
 
         query_filters = []
         if url_pattern:
             query_filters.append(f"origin = {escape(url_pattern)}")
 
         if metadata_pattern:
             query_filters.append(f"metadata = {escape(metadata_pattern)}")
 
         # if not query_clauses:
         #     raise ValueError(
         #         "At least one of url_pattern and metadata_pattern must be provided."
         #     )
 
         if with_visit:
             query_filters.append(f"visited = {'true' if with_visit else 'false'}")
         if min_nb_visits:
             query_filters.append(f"visits >= {min_nb_visits}")
         if min_last_visit_date:
             query_filters.append(
                 f"last_visit >= {min_last_visit_date.replace('Z', '+00:00')}"
             )
         if min_last_eventful_visit_date:
             query_filters.append(
                 "last_eventful_visit >= "
                 f"{min_last_eventful_visit_date.replace('Z', '+00:00')}"
             )
         if min_last_revision_date:
             query_filters.append(
                 f"last_revision >= {min_last_revision_date.replace('Z', '+00:00')}"
             )
         if min_last_release_date:
             query_filters.append(
                 f"last_release >= {min_last_release_date.replace('Z', '+00:00')}"
             )
         if keywords:
             query_filters.append(f"keyword in {escape(keywords)}")
         if licenses:
             query_filters.append(f"license in {escape(licenses)}")
 
         if programming_languages:
             query_filters.append(f"language in {escape(programming_languages)}")
 
         if min_date_created:
             query_filters.append(
                 f"created >= {min_date_created.replace('Z', '+00:00')}"
             )
         if min_date_modified:
             query_filters.append(
                 f"modified >= {min_date_modified.replace('Z', '+00:00')}"
             )
         if min_date_published:
             query_filters.append(
                 f"published >= {min_date_published.replace('Z', '+00:00')}"
             )
 
         if visit_types is not None:
             query_filters.append(f"visit_type = {escape(visit_types)}")
 
         combined_filters = f"({' and '.join(query_filters)})"
         query = f"{combined_filters}{' and ' if query != '' else ' '}{query}"
         parsed_query = self._translator.parse_query(query)
         query_clauses.append(parsed_query["filters"])
 
         field_map = {
             "visits": "nb_visits",
             "last_visit": "last_visit_date",
             "last_eventful_visit": "last_eventful_visit_date",
             "last_revision": "last_revision_date",
             "last_release": "last_release_date",
             "created": "date_created",
             "modified": "date_modified",
             "published": "date_published",
         }
 
         if "sortBy" in parsed_query:
             if sort_by is None:
                 sort_by = []
             for sort_by_option in parsed_query["sortBy"]:
                 if sort_by_option[0] == "-":
                     sort_by.append("-" + field_map[sort_by_option[1:]])
                 else:
                     sort_by.append(field_map[sort_by_option])
         if parsed_query.get("limit", 0):
             limit = parsed_query["limit"]
 
         sorting_params: List[Dict[str, Any]] = []
 
         if sort_by:
             for field in sort_by:
                 order = "asc"
                 if field and field[0] == "-":
                     field = field[1:]
                     order = "desc"
 
                 if field in ["date_created", "date_modified", "date_published"]:
                     sorting_params.append(
                         {
                             get_expansion(field, "."): {
                                 "nested_path": "intrinsic_metadata",
                                 "order": order,
                             }
                         }
                     )
                 elif field in SORT_BY_OPTIONS:
                     sorting_params.append({field: order})
 
         sorting_params.extend(
             [{"_score": "desc"}, {"sha1": "asc"},]
         )
 
         body = {
             "query": {
                 "bool": {
                     "must": query_clauses,
                     "must_not": [{"term": {"blocklisted": True}}],
                 }
             },
             "sort": sorting_params,
         }
 
         if page_token:
             # TODO: use ElasticSearch's scroll API?
             page_token_content = token_decode(page_token)
             body["search_after"] = [
                 page_token_content[b"score"],
                 page_token_content[b"sha1"].decode("ascii"),
             ]
 
         if logger.isEnabledFor(logging.DEBUG):
             formatted_body = pprint.pformat(body)
             logger.debug("Search query body: %s", formatted_body)
 
         res = self._backend.search(
             index=self._get_origin_read_alias(), body=body, size=limit
         )
 
         hits = res["hits"]["hits"]
 
         next_page_token: Optional[str] = None
 
         if len(hits) == limit:
             # There are more results after this page; return a pagination token
             # to get them in a future query
             last_hit = hits[-1]
             next_page_token_content = {
                 b"score": last_hit["_score"],
                 b"sha1": last_hit["_source"]["sha1"],
             }
             next_page_token = token_encode(next_page_token_content)
 
         assert len(hits) <= limit
 
         return PagedResult(
             results=[{"url": hit["_source"]["url"]} for hit in hits],
             next_page_token=next_page_token,
         )
 
     def visit_types_count(self) -> Counter:
         body = {
             "aggs": {
                 "not_blocklisted": {
                     "filter": {"bool": {"must_not": [{"term": {"blocklisted": True}}]}},
                     "aggs": {
                         "visit_types": {"terms": {"field": "visit_types", "size": 1000}}
                     },
                 }
             }
         }
 
         res = self._backend.search(
             index=self._get_origin_read_alias(), body=body, size=0
         )
 
         buckets = (
             res.get("aggregations", {})
             .get("not_blocklisted", {})
             .get("visit_types", {})
             .get("buckets", [])
         )
         return Counter({bucket["key"]: bucket["doc_count"] for bucket in buckets})
diff --git a/swh/search/in_memory.py b/swh/search/in_memory.py
index b185636..3c20dda 100644
--- a/swh/search/in_memory.py
+++ b/swh/search/in_memory.py
@@ -1,517 +1,520 @@
 # Copyright (C) 2019-2021  The Software Heritage developers
 # See the AUTHORS file at the top-level directory of this distribution
 # License: GNU General Public License version 3, or any later version
 # See top-level LICENSE file for more information
 
 from collections import Counter, defaultdict
 from datetime import datetime, timezone
 from itertools import chain
 import re
 from typing import Any, Dict, Iterable, Iterator, List, Optional
 
 from swh.indexer import codemeta
 from swh.model import model
 from swh.model.hashutil import hash_to_hex
 from swh.search.interface import (
     SORT_BY_OPTIONS,
     MinimalOriginDict,
     OriginDict,
     PagedResult,
 )
-from swh.search.utils import get_expansion, is_date_parsable
+from swh.search.utils import get_expansion, parse_and_format_date
 
 _words_regexp = re.compile(r"\w+")
 
 
 def _dict_words_set(d):
     """Recursively extract set of words from dict content."""
     values = set()
 
     def extract(obj, words):
         if isinstance(obj, dict):
             for k, v in obj.items():
                 extract(v, words)
         elif isinstance(obj, list):
             for item in obj:
                 extract(item, words)
         else:
             words.update(_words_regexp.findall(str(obj).lower()))
         return words
 
     return extract(d, values)
 
 
 def _nested_get(nested_dict, nested_keys, default=""):
     """Extracts values from deeply nested dictionary nested_dict
     using the nested_keys and returns a list of all of the values
     discovered in the process.
 
 
     >>> nested_dict = [
     ... {"name": [{"@value": {"first": "f1", "last": "l1"}}], "address": "XYZ"},
     ... {"name": [{"@value": {"first": "f2", "last": "l2"}}], "address": "ABC"},
     ... ]
     >>> _nested_get(nested_dict, ["name", "@value", "last"])
     ['l1', 'l2']
     >>> _nested_get(nested_dict, ["address"])
     ['XYZ', 'ABC']
 
     It doesn't allow fetching intermediate values and returns "" for such cases
     >>> _nested_get(nested_dict, ["name", "@value"])
     ['', '']
     """
 
     def _nested_get_recursive(nested_dict, nested_keys):
         try:
             curr_obj = nested_dict
             type_curr_obj = type(curr_obj)
             for i, key in enumerate(nested_keys):
                 if key in curr_obj:
                     curr_obj = curr_obj[key]
                     type_curr_obj = type(curr_obj)
                 else:
                     if type_curr_obj == list:
                         curr_obj = [
                             _nested_get_recursive(obj, nested_keys[i:])
                             for obj in curr_obj
                         ]
                     # If value isn't a list or string or integer
                     elif type_curr_obj != str and type_curr_obj != int:
                         return default
 
             # If only one element is present in the list, take it out
             # This ensures a flat array every time
             if type_curr_obj == list and len(curr_obj) == 1:
                 curr_obj = curr_obj[0]
 
             return curr_obj
         except Exception:
             return default
 
     res = _nested_get_recursive(nested_dict, nested_keys)
     if type(res) != list:
         return [res]
 
     return res
 
 
 def _tokenize(x):
     return x.lower().replace(",", " ").split()
 
 
 def _get_sorting_key(origin, field):
     """Get value of the field from an origin for sorting origins.
 
     Here field should be a member of SORT_BY_OPTIONS.
     If "-" is present at the start of field then invert the value
     in a way that it reverses the sorting order.
     """
     reversed = False
     if field[0] == "-":
         field = field[1:]
         reversed = True
 
     DATETIME_OBJ_MAX = datetime.max.replace(tzinfo=timezone.utc)
     DATETIME_MIN = "0001-01-01T00:00:00Z"
 
     DATE_OBJ_MAX = datetime.max
     DATE_MIN = "0001-01-01"
 
     if field == "score":
         if reversed:
             return -origin.get(field, 0)
         else:
             return origin.get(field, 0)
 
     if field in ["date_created", "date_modified", "date_published"]:
         date = datetime.strptime(
             _nested_get(origin, get_expansion(field), DATE_MIN)[0], "%Y-%m-%d"
         )
         if reversed:
             return DATE_OBJ_MAX - date
         else:
             return date
 
     elif field in ["nb_visits"]:  # unlike other options, nb_visits is of type integer
         if reversed:
             return -origin.get(field, 0)
         else:
             return origin.get(field, 0)
 
     elif field in SORT_BY_OPTIONS:
         date = datetime.fromisoformat(
             origin.get(field, DATETIME_MIN).replace("Z", "+00:00")
         )
         if reversed:
             return DATETIME_OBJ_MAX - date
         else:
             return date
 
 
 class InMemorySearch:
     def __init__(self):
         pass
 
     def check(self):
         return True
 
     def deinitialize(self) -> None:
         if hasattr(self, "_origins"):
             del self._origins
             del self._origin_ids
 
     def initialize(self) -> None:
         self._origins: Dict[str, Dict[str, Any]] = defaultdict(dict)
         self._origin_ids: List[str] = []
 
     def flush(self) -> None:
         pass
 
     _url_splitter = re.compile(r"\W")
 
     def origin_update(self, documents: Iterable[OriginDict]) -> None:
         for source_document in documents:
             document: Dict[str, Any] = dict(source_document)
             id_ = hash_to_hex(model.Origin(url=document["url"]).id)
             if "url" in document:
                 document["_url_tokens"] = set(
                     self._url_splitter.split(source_document["url"])
                 )
             if "visit_types" in document:
                 document["visit_types"] = set(source_document["visit_types"])
                 if "visit_types" in self._origins[id_]:
                     document["visit_types"].update(self._origins[id_]["visit_types"])
             if "nb_visits" in document:
                 document["nb_visits"] = max(
                     document["nb_visits"], self._origins[id_].get("nb_visits", 0)
                 )
             if "last_visit_date" in document:
                 document["last_visit_date"] = max(
                     datetime.fromisoformat(document["last_visit_date"]),
                     datetime.fromisoformat(
                         self._origins[id_]
                         .get("last_visit_date", "0001-01-01T00:00:00.000000Z",)
                         .replace("Z", "+00:00")
                     ),
                 ).isoformat()
 
             if "snapshot_id" in document and "last_eventful_visit_date" in document:
                 incoming_date = datetime.fromisoformat(
                     document["last_eventful_visit_date"]
                 )
                 current_date = datetime.fromisoformat(
                     self._origins[id_]
                     .get("last_eventful_visit_date", "0001-01-01T00:00:00Z",)
                     .replace("Z", "+00:00")
                 )
                 incoming_snapshot_id = document["snapshot_id"]
                 current_snapshot_id = self._origins[id_].get("snapshot_id", "")
 
                 if (
                     incoming_snapshot_id == current_snapshot_id
                     or incoming_date < current_date
                 ):
                     # update not required so override the incoming_values
                     document["snapshot_id"] = current_snapshot_id
                     document["last_eventful_visit_date"] = current_date.isoformat()
 
             if "last_revision_date" in document:
                 document["last_revision_date"] = max(
                     datetime.fromisoformat(document["last_revision_date"]),
                     datetime.fromisoformat(
                         self._origins[id_]
                         .get("last_revision_date", "0001-01-01T00:00:00Z",)
                         .replace("Z", "+00:00")
                     ),
                 ).isoformat()
             if "last_release_date" in document:
                 document["last_release_date"] = max(
                     datetime.fromisoformat(document["last_release_date"]),
                     datetime.fromisoformat(
                         self._origins[id_]
                         .get("last_release_date", "0001-01-01T00:00:00Z",)
                         .replace("Z", "+00:00")
                     ),
                 ).isoformat()
             if "intrinsic_metadata" in document:
                 intrinsic_metadata = document["intrinsic_metadata"]
 
                 for date_field in ["dateCreated", "dateModified", "datePublished"]:
                     if date_field in intrinsic_metadata:
                         date = intrinsic_metadata[date_field]
 
                         # If date{Created,Modified,Published} value isn't parsable
                         # It gets rejected and isn't stored (unlike other fields)
-                        if not is_date_parsable(date):
+                        formatted_date = parse_and_format_date(date)
+                        if formatted_date is None:
                             intrinsic_metadata.pop(date_field)
+                        else:
+                            intrinsic_metadata[date_field] = formatted_date
 
                 document["intrinsic_metadata"] = codemeta.expand(intrinsic_metadata)
 
                 if len(document["intrinsic_metadata"]) != 1:
                     continue
 
                 metadata = document["intrinsic_metadata"][0]
                 if "http://schema.org/license" in metadata:
                     metadata["http://schema.org/license"] = [
                         {"@id": license["@id"].lower()}
                         for license in metadata["http://schema.org/license"]
                     ]
                 if "http://schema.org/programmingLanguage" in metadata:
                     metadata["http://schema.org/programmingLanguage"] = [
                         {"@value": license["@value"].lower()}
                         for license in metadata["http://schema.org/programmingLanguage"]
                     ]
 
             self._origins[id_].update(document)
 
             if id_ not in self._origin_ids:
                 self._origin_ids.append(id_)
 
     def origin_search(
         self,
         *,
         query: str = "",
         url_pattern: Optional[str] = None,
         metadata_pattern: Optional[str] = None,
         with_visit: bool = False,
         visit_types: Optional[List[str]] = None,
         min_nb_visits: int = 0,
         min_last_visit_date: str = "",
         min_last_eventful_visit_date: str = "",
         min_last_revision_date: str = "",
         min_last_release_date: str = "",
         min_date_created: str = "",
         min_date_modified: str = "",
         min_date_published: str = "",
         programming_languages: Optional[List[str]] = None,
         licenses: Optional[List[str]] = None,
         keywords: Optional[List[str]] = None,
         sort_by: Optional[List[str]] = None,
         page_token: Optional[str] = None,
         limit: int = 50,
     ) -> PagedResult[MinimalOriginDict]:
         hits = self._get_hits()
 
         if url_pattern:
             tokens = set(self._url_splitter.split(url_pattern))
 
             def predicate(match):
                 missing_tokens = tokens - match["_url_tokens"]
                 if len(missing_tokens) == 0:
                     return True
                 elif len(missing_tokens) > 1:
                     return False
                 else:
                     # There is one missing token, look up by prefix.
                     (missing_token,) = missing_tokens
                     return any(
                         token.startswith(missing_token)
                         for token in match["_url_tokens"]
                     )
 
             hits = filter(predicate, hits)
 
         if metadata_pattern:
             metadata_pattern_words = set(
                 _words_regexp.findall(metadata_pattern.lower())
             )
 
             def predicate(match):
                 if "intrinsic_metadata" not in match:
                     return False
 
                 return metadata_pattern_words.issubset(
                     _dict_words_set(match["intrinsic_metadata"])
                 )
 
             hits = filter(predicate, hits)
 
         if not url_pattern and not metadata_pattern:
             raise ValueError(
                 "At least one of url_pattern and metadata_pattern must be provided."
             )
 
         next_page_token: Optional[str] = None
 
         if with_visit:
             hits = filter(lambda o: o.get("has_visits"), hits)
         if min_nb_visits:
             hits = filter(lambda o: o.get("nb_visits", 0) >= min_nb_visits, hits)
         if min_last_visit_date:
             hits = filter(
                 lambda o: datetime.fromisoformat(
                     o.get("last_visit_date", "0001-01-01T00:00:00Z").replace(
                         "Z", "+00:00"
                     )
                 )
                 >= datetime.fromisoformat(min_last_visit_date),
                 hits,
             )
 
         if min_last_eventful_visit_date:
             hits = filter(
                 lambda o: datetime.fromisoformat(
                     o.get("last_eventful_visit_date", "0001-01-01T00:00:00Z").replace(
                         "Z", "+00:00"
                     )
                 )
                 >= datetime.fromisoformat(min_last_eventful_visit_date),
                 hits,
             )
 
         if min_last_revision_date:
             hits = filter(
                 lambda o: datetime.fromisoformat(
                     o.get("last_revision_date", "0001-01-01T00:00:00Z").replace(
                         "Z", "+00:00"
                     )
                 )
                 >= datetime.fromisoformat(min_last_revision_date),
                 hits,
             )
         if min_last_release_date:
             hits = filter(
                 lambda o: datetime.fromisoformat(
                     o.get("last_release_date", "0001-01-01T00:00:00Z").replace(
                         "Z", "+00:00"
                     )
                 )
                 >= datetime.fromisoformat(min_last_release_date),
                 hits,
             )
 
         if min_date_created:
             min_date_created_obj = datetime.strptime(min_date_created, "%Y-%m-%d")
             hits = filter(
                 lambda o: datetime.strptime(
                     _nested_get(o, get_expansion("date_created"))[0], "%Y-%m-%d"
                 )
                 >= min_date_created_obj,
                 hits,
             )
         if min_date_modified:
             min_date_modified_obj = datetime.strptime(min_date_modified, "%Y-%m-%d")
             hits = filter(
                 lambda o: datetime.strptime(
                     _nested_get(o, get_expansion("date_modified"))[0], "%Y-%m-%d"
                 )
                 >= min_date_modified_obj,
                 hits,
             )
         if min_date_published:
             min_date_published_obj = datetime.strptime(min_date_published, "%Y-%m-%d")
             hits = filter(
                 lambda o: datetime.strptime(
                     _nested_get(o, get_expansion("date_published"))[0], "%Y-%m-%d"
                 )
                 >= min_date_published_obj,
                 hits,
             )
 
         if licenses:
             queried_licenses = [license_keyword.lower() for license_keyword in licenses]
             hits = filter(
                 lambda o: any(
                     # If any of the queried licenses are found, include the origin
                     any(
                         # returns True if queried_license_keyword is found
                         # in any of the licenses of the origin
                         queried_license_keyword in origin_license
                         for origin_license in _nested_get(o, get_expansion("licenses"))
                     )
                     for queried_license_keyword in queried_licenses
                 ),
                 hits,
             )
         if programming_languages:
             queried_programming_languages = [
                 lang_keyword.lower() for lang_keyword in programming_languages
             ]
             hits = filter(
                 lambda o: any(
                     # If any of the queried languages are found, include the origin
                     any(
                         # returns True if queried_lang_keyword is found
                         # in any of the langs of the origin
                         queried_lang_keyword in origin_lang
                         for origin_lang in _nested_get(
                             o, get_expansion("programming_languages")
                         )
                     )
                     for queried_lang_keyword in queried_programming_languages
                 ),
                 hits,
             )
         if keywords:
 
             if sort_by:
                 sort_by.append("-score")
             else:
                 sort_by = ["-score"]
 
             from copy import deepcopy
 
             hits_list = deepcopy(list(hits))
 
             for origin in hits_list:
                 origin_keywords = [
                     _tokenize(keyword)
                     for keyword in _nested_get(origin, get_expansion("keywords"))
                 ]
                 origin_descriptions = [
                     _tokenize(description)
                     for description in _nested_get(
                         origin, get_expansion("descriptions")
                     )
                 ]
 
                 for q_keyword in keywords:
                     for origin_keyword_tokens in origin_keywords:
                         if q_keyword in origin_keyword_tokens:
                             origin["score"] = origin.get("score", 0) + 2
                     for origin_description_token in origin_descriptions:
                         if q_keyword in origin_description_token:
                             origin["score"] = origin.get("score", 0) + 1
 
             hits = (origin for origin in hits_list if origin.get("score", 0) > 0)
 
         if visit_types is not None:
             visit_types_set = set(visit_types)
             hits = filter(
                 lambda o: visit_types_set.intersection(o.get("visit_types", set())),
                 hits,
             )
 
         hits_list = list(hits)
         if sort_by:
             sort_by_list = list(sort_by)
             hits_list.sort(
                 key=lambda o: tuple(
                     _get_sorting_key(o, field) for field in sort_by_list
                 )
             )
 
         start_at_index = int(page_token) if page_token else 0
 
         origins = [
             {"url": hit["url"]}
             for hit in hits_list[start_at_index : start_at_index + limit]
         ]
 
         if len(origins) == limit:
             next_page_token = str(start_at_index + limit)
 
         assert len(origins) <= limit
 
         return PagedResult(results=origins, next_page_token=next_page_token,)
 
     def visit_types_count(self) -> Counter:
         hits = self._get_hits()
         return Counter(chain(*[hit.get("visit_types", []) for hit in hits]))
 
     def _get_hits(self) -> Iterator[Dict[str, Any]]:
         return (
             self._origins[id_]
             for id_ in self._origin_ids
             if not self._origins[id_].get("blocklisted")
         )
diff --git a/swh/search/tests/test_search.py b/swh/search/tests/test_search.py
index 1559ddb..5653685 100644
--- a/swh/search/tests/test_search.py
+++ b/swh/search/tests/test_search.py
@@ -1,1189 +1,1235 @@
 # Copyright (C) 2019-2021  The Software Heritage developers
 # See the AUTHORS file at the top-level directory of this distribution
 # License: GNU General Public License version 3, or any later version
 # See top-level LICENSE file for more information
 
 from collections import Counter
 from datetime import datetime, timedelta, timezone
 from itertools import permutations
 
 from hypothesis import given, settings, strategies
 import pytest
 
 from swh.core.api.classes import stream_results
 
 
 class CommonSearchTest:
     def test_origin_url_unique_word_prefix(self):
         origin_foobar_baz = {"url": "http://foobar.baz"}
         origin_barbaz_qux = {"url": "http://barbaz.qux"}
         origin_qux_quux = {"url": "http://qux.quux"}
         origins = [origin_foobar_baz, origin_barbaz_qux, origin_qux_quux]
 
         self.search.origin_update(origins)
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="foobar")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_foobar_baz]
 
         actual_page = self.search.origin_search(url_pattern="barb")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_barbaz_qux]
 
         # 'bar' is part of 'foobar', but is not the beginning of it
         actual_page = self.search.origin_search(url_pattern="bar")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_barbaz_qux]
 
         actual_page = self.search.origin_search(url_pattern="barbaz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_barbaz_qux]
 
     def test_origin_url_unique_word_prefix_multiple_results(self):
         origin_foobar_baz = {"url": "http://foobar.baz"}
         origin_barbaz_qux = {"url": "http://barbaz.qux"}
         origin_qux_quux = {"url": "http://qux.quux"}
 
         self.search.origin_update(
             [origin_foobar_baz, origin_barbaz_qux, origin_qux_quux]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="qu")
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [o["url"] for o in [origin_qux_quux, origin_barbaz_qux]]
         assert sorted(results) == sorted(expected_results)
 
         actual_page = self.search.origin_search(url_pattern="qux")
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [o["url"] for o in [origin_qux_quux, origin_barbaz_qux]]
         assert sorted(results) == sorted(expected_results)
 
     def test_origin_url_all_terms(self):
         origin_foo_bar_baz = {"url": "http://foo.bar/baz"}
         origin_foo_bar_foo_bar = {"url": "http://foo.bar/foo.bar"}
         origins = [origin_foo_bar_baz, origin_foo_bar_foo_bar]
 
         self.search.origin_update(origins)
         self.search.flush()
 
         # Only results containing all terms should be returned.
         actual_page = self.search.origin_search(url_pattern="foo bar baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_foo_bar_baz]
 
     def test_origin_with_visit(self):
         origin_foobar_baz = {"url": "http://foobar/baz"}
 
         self.search.origin_update(
             [{**o, "has_visits": True} for o in [origin_foobar_baz]]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="foobar", with_visit=True)
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_foobar_baz]
 
     def test_origin_with_visit_added(self):
         origin_foobar_baz = {"url": "http://foobar.baz"}
 
         self.search.origin_update([origin_foobar_baz])
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="foobar", with_visit=True)
         assert actual_page.next_page_token is None
         assert actual_page.results == []
 
         self.search.origin_update(
             [{**o, "has_visits": True} for o in [origin_foobar_baz]]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="foobar", with_visit=True)
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin_foobar_baz]
 
     def test_origin_no_visit_types_search(self):
         origins = [{"url": "http://foobar.baz"}]
 
         self.search.origin_update(origins)
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="http", visit_types=["git"])
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = []
         assert sorted(results) == sorted(expected_results)
 
         actual_page = self.search.origin_search(url_pattern="http", visit_types=None)
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [origin["url"] for origin in origins]
         assert sorted(results) == sorted(expected_results)
 
     def test_origin_visit_types_search(self):
         origins = [
             {"url": "http://foobar.baz", "visit_types": ["git"]},
             {"url": "http://barbaz.qux", "visit_types": ["svn"]},
             {"url": "http://qux.quux", "visit_types": ["hg"]},
         ]
 
         self.search.origin_update(origins)
         self.search.flush()
 
         for origin in origins:
             actual_page = self.search.origin_search(
                 url_pattern="http", visit_types=origin["visit_types"]
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin["url"]]
             assert sorted(results) == sorted(expected_results)
 
         actual_page = self.search.origin_search(url_pattern="http", visit_types=None)
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [origin["url"] for origin in origins]
         assert sorted(results) == sorted(expected_results)
 
     def test_origin_visit_types_update_search(self):
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         def _add_visit_type(visit_type):
             self.search.origin_update(
                 [{"url": origin_url, "visit_types": [visit_type]}]
             )
             self.search.flush()
 
         def _check_visit_types(visit_types_list):
             for visit_types in visit_types_list:
                 actual_page = self.search.origin_search(
                     url_pattern="http", visit_types=visit_types
                 )
                 assert actual_page.next_page_token is None
                 results = [r["url"] for r in actual_page.results]
                 expected_results = [origin_url]
                 assert sorted(results) == sorted(expected_results)
 
         _add_visit_type("git")
         _check_visit_types([["git"], ["git", "hg"]])
 
         _add_visit_type("svn")
         _check_visit_types([["git"], ["svn"], ["svn", "git"], ["git", "hg", "svn"]])
 
         _add_visit_type("hg")
         _check_visit_types(
             [
                 ["git"],
                 ["svn"],
                 ["hg"],
                 ["svn", "git"],
                 ["hg", "git"],
                 ["hg", "svn"],
                 ["git", "hg", "svn"],
             ]
         )
 
     def test_origin_nb_visits_update_search(self):
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         def _update_nb_visits(nb_visits):
             self.search.origin_update([{"url": origin_url, "nb_visits": nb_visits}])
             self.search.flush()
 
         def _check_min_nb_visits(min_nb_visits):
             actual_page = self.search.origin_search(
                 url_pattern=origin_url, min_nb_visits=min_nb_visits,
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin_url]
             assert sorted(results) == sorted(expected_results)
 
         _update_nb_visits(2)
         _check_min_nb_visits(2)  # Works for = 2
         _check_min_nb_visits(1)  # Works for < 2
 
         with pytest.raises(AssertionError):
             _check_min_nb_visits(
                 5
             )  # No results for nb_visits >= 5 (should throw error)
 
         _update_nb_visits(5)
         _check_min_nb_visits(5)  # Works for = 5
         _check_min_nb_visits(3)  # Works for < 5
 
     def test_origin_last_visit_date_update_search(self):
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         def _update_last_visit_date(last_visit_date):
             self.search.origin_update(
                 [{"url": origin_url, "last_visit_date": last_visit_date}]
             )
             self.search.flush()
 
         def _check_min_last_visit_date(min_last_visit_date):
             actual_page = self.search.origin_search(
                 url_pattern=origin_url, min_last_visit_date=min_last_visit_date,
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin_url]
             assert sorted(results) == sorted(expected_results)
 
         now = datetime.now(tz=timezone.utc).isoformat()
         now_minus_5_hours = (
             datetime.now(tz=timezone.utc) - timedelta(hours=5)
         ).isoformat()
         now_plus_5_hours = (
             datetime.now(tz=timezone.utc) + timedelta(hours=5)
         ).isoformat()
 
         _update_last_visit_date(now)
 
         _check_min_last_visit_date(now)  # Works for =
         _check_min_last_visit_date(now_minus_5_hours)  # Works for <
         with pytest.raises(AssertionError):
             _check_min_last_visit_date(now_plus_5_hours)  # Fails for >
 
         _update_last_visit_date(now_plus_5_hours)
 
         _check_min_last_visit_date(now_plus_5_hours)  # Works for =
         _check_min_last_visit_date(now)  # Works for <
 
     def test_journal_client_origin_visit_status_permutation(self):
         NOW = datetime.now(tz=timezone.utc).isoformat()
         NOW_MINUS_5_HOURS = (
             datetime.now(tz=timezone.utc) - timedelta(hours=5)
         ).isoformat()
         NOW_PLUS_5_HOURS = (
             datetime.now(tz=timezone.utc) + timedelta(hours=5)
         ).isoformat()
 
         VISIT_STATUSES = [
             {
                 "url": "http://foobar.baz",
                 "snapshot_id": "SNAPSHOT_1",
                 "last_eventful_visit_date": NOW,
             },
             {
                 "url": "http://foobar.baz",
                 "snapshot_id": "SNAPSHOT_1",
                 "last_eventful_visit_date": NOW_MINUS_5_HOURS,
             },
             {
                 "url": "http://foobar.baz",
                 "snapshot_id": "SNAPSHOT_2",
                 "last_eventful_visit_date": NOW_PLUS_5_HOURS,
             },
         ]
 
         for visit_statuses in permutations(VISIT_STATUSES, len(VISIT_STATUSES)):
             self.search.origin_update(visit_statuses)
             self.search.flush()
             origin_url = "http://foobar.baz"
             actual_page = self.search.origin_search(
                 url_pattern=origin_url, min_last_eventful_visit_date=NOW_PLUS_5_HOURS,
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin_url]
             assert sorted(results) == sorted(expected_results)
 
             self.reset()
 
     def test_origin_last_eventful_visit_date_update_search(self):
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         def _update_last_eventful_visit_date(snapshot_id, last_eventful_visit_date):
             self.search.origin_update(
                 [
                     {
                         "url": origin_url,
                         "snapshot_id": snapshot_id,
                         "last_eventful_visit_date": last_eventful_visit_date,
                     }
                 ]
             )
             self.search.flush()
 
         def _check_min_last_eventful_visit_date(min_last_eventful_visit_date):
             actual_page = self.search.origin_search(
                 url_pattern=origin_url,
                 min_last_eventful_visit_date=min_last_eventful_visit_date,
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin_url]
             assert sorted(results) == sorted(expected_results)
 
         now = datetime.now(tz=timezone.utc).isoformat()
         now_minus_5_hours = (
             datetime.now(tz=timezone.utc) - timedelta(hours=5)
         ).isoformat()
         now_plus_5_hours = (
             datetime.now(tz=timezone.utc) + timedelta(hours=5)
         ).isoformat()
 
         snapshot_1 = "SNAPSHOT_1"
         snapshot_2 = "SNAPSHOT_2"
 
         _update_last_eventful_visit_date(snapshot_1, now)
 
         _check_min_last_eventful_visit_date(now)  # Works for =
         _check_min_last_eventful_visit_date(now_minus_5_hours)  # Works for <
         with pytest.raises(AssertionError):
             _check_min_last_eventful_visit_date(now_plus_5_hours)  # Fails for >
 
         _update_last_eventful_visit_date(
             snapshot_1, now_plus_5_hours
         )  # Revisit(not eventful) same origin
 
         _check_min_last_eventful_visit_date(
             now
         )  # Should remain the same because recent visit wasn't eventful
         with pytest.raises(AssertionError):
             _check_min_last_eventful_visit_date(now_plus_5_hours)
 
         _update_last_eventful_visit_date(
             snapshot_2, now_plus_5_hours
         )  # Revisit(eventful) same origin
         _check_min_last_eventful_visit_date(now_plus_5_hours)  # Works for =
         _check_min_last_eventful_visit_date(now)  # Works for <
 
     def _test_origin_last_revision_release_date_update_search(self, date_type):
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         def _update_last_revision_release_date(date):
             self.search.origin_update([{"url": origin_url, date_type: date,}])
             self.search.flush()
 
         def _check_min_last_revision_release_date(date):
             actual_page = self.search.origin_search(
                 url_pattern=origin_url, **{f"min_{date_type}": date},
             )
             assert actual_page.next_page_token is None
             results = [r["url"] for r in actual_page.results]
             expected_results = [origin_url]
             assert sorted(results) == sorted(expected_results)
 
         now = datetime.now(tz=timezone.utc).isoformat()
         now_minus_5_hours = (
             datetime.now(tz=timezone.utc) - timedelta(hours=5)
         ).isoformat()
         now_plus_5_hours = (
             datetime.now(tz=timezone.utc) + timedelta(hours=5)
         ).isoformat()
 
         _update_last_revision_release_date(now)
 
         _check_min_last_revision_release_date(now)
         _check_min_last_revision_release_date(now_minus_5_hours)
         with pytest.raises(AssertionError):
             _check_min_last_revision_release_date(now_plus_5_hours)
 
         _update_last_revision_release_date(now_plus_5_hours)
 
         _check_min_last_revision_release_date(now_plus_5_hours)
         _check_min_last_revision_release_date(now)
 
     def test_origin_last_revision_date_update_search(self):
         self._test_origin_last_revision_release_date_update_search(
             date_type="last_revision_date"
         )
 
     def test_origin_last_release_date_update_search(self):
         self._test_origin_last_revision_release_date_update_search(
             date_type="last_revision_date"
         )
 
     def test_origin_instrinsic_metadata_dates_filter_sorting_search(self):
 
         DATE_0 = "1999-06-28"
         DATE_1 = "2001-02-13"
         DATE_2 = "2005-10-02"
 
         ORIGINS = [
             {
                 "url": "http://foobar.0.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "dateCreated": DATE_0,
                     "dateModified": DATE_1,
                     "datePublished": DATE_2,
                 },
             },
             {
                 "url": "http://foobar.1.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "dateCreated": DATE_1,
                     "dateModified": DATE_2,
                     "datePublished": DATE_2,
                 },
             },
             {
                 "url": "http://foobar.2.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "dateCreated": DATE_2,
                     "dateModified": DATE_2,
                     "datePublished": DATE_2,
                 },
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_results(origin_indices, sort_results=True, **kwargs):
             page = self.search.origin_search(url_pattern="foobar", **kwargs)
             results = [r["url"] for r in page.results]
             if sort_results:
                 assert sorted(results) == sorted(
                     [ORIGINS[index]["url"] for index in origin_indices]
                 )
             else:
                 assert results == [ORIGINS[index]["url"] for index in origin_indices]
 
         _check_results(min_date_created=DATE_0, origin_indices=[0, 1, 2])
         _check_results(min_date_created=DATE_1, origin_indices=[1, 2])
         _check_results(min_date_created=DATE_2, origin_indices=[2])
 
         _check_results(min_date_modified=DATE_0, origin_indices=[0, 1, 2])
         _check_results(min_date_modified=DATE_1, origin_indices=[0, 1, 2])
         _check_results(min_date_modified=DATE_2, origin_indices=[1, 2])
 
         _check_results(min_date_published=DATE_0, origin_indices=[0, 1, 2])
         _check_results(min_date_published=DATE_1, origin_indices=[0, 1, 2])
         _check_results(min_date_published=DATE_2, origin_indices=[0, 1, 2])
 
         # Sorting
         _check_results(
             sort_by=["-date_created"], origin_indices=[2, 1, 0], sort_results=False
         )
         _check_results(
             sort_by=["date_created"], origin_indices=[0, 1, 2], sort_results=False
         )
 
+    def test_origin_instrinsic_metadata_dates_processing(self):
+
+        DATE_0 = "foo"  # will be discarded
+        DATE_1 = "2001-2-13"  # will be formatted to 2001-02-13
+        DATE_2 = "2005-10-2"  # will be formatted to 2005-10-02
+
+        ORIGINS = [
+            {
+                "url": "http://foobar.0.com",
+                "intrinsic_metadata": {
+                    "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
+                    "dateCreated": DATE_0,
+                    "dateModified": DATE_1,
+                    "datePublished": DATE_2,
+                },
+            },
+            {
+                "url": "http://foobar.1.com",
+                "intrinsic_metadata": {
+                    "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
+                    "dateCreated": DATE_1,
+                    "dateModified": DATE_2,
+                    "datePublished": DATE_2,
+                },
+            },
+            {
+                "url": "http://foobar.2.com",
+                "intrinsic_metadata": {
+                    "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
+                    "dateCreated": DATE_2,
+                    "dateModified": DATE_2,
+                    "datePublished": DATE_2,
+                },
+            },
+        ]
+        self.search.origin_update(ORIGINS)
+        self.search.flush()
+
+        # check origins have been successfully processed
+        page = self.search.origin_search(url_pattern="foobar")
+        assert {r["url"] for r in page.results} == {
+            "http://foobar.0.com",
+            "http://foobar.2.com",
+            "http://foobar.1.com",
+        }
+
     def test_origin_keywords_search(self):
         ORIGINS = [
             {
                 "url": "http://foobar.1.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "Django is a backend framework for applications",
                     "keywords": "django,backend,server,web,framework",
                 },
             },
             {
                 "url": "http://foobar.2.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "Native Android applications are fast",
                     "keywords": "android,mobile,ui",
                 },
             },
             {
                 "url": "http://foobar.3.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "React framework helps you build web applications",
                     "keywords": "react,web,ui",
                 },
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_results(keywords, origin_indices, sorting=False):
             page = self.search.origin_search(url_pattern="foobar", keywords=keywords)
             results = [r["url"] for r in page.results]
             if sorting:
                 assert sorted(results) == sorted(
                     [ORIGINS[index]["url"] for index in origin_indices]
                 )
             else:
                 assert results == [ORIGINS[index]["url"] for index in origin_indices]
 
         _check_results(["build"], [2])
 
         _check_results(["web"], [2, 0])
         _check_results(["ui"], [1, 2])
 
         # Following tests ensure that boosts work properly
 
         # Baseline: "applications" is common in all origin descriptions
         _check_results(["applications"], [1, 0, 2], True)
 
         # ORIGINS[0] has 'framework' in: keyword + description
         # ORIGINS[2] has 'framework' in: description
         # ORIGINS[1] has 'framework' in: None
         _check_results(["framework", "applications"], [0, 2, 1])
 
         # ORIGINS[1] has 'ui' in: keyword
         # ORIGINS[1] has 'ui' in: keyword
         # ORIGINS[0] has 'ui' in: None
         _check_results(["applications", "ui"], [1, 2, 0])
 
         # ORIGINS[2] has 'web' in: keyword + description
         # ORIGINS[0] has 'web' in: keyword
         # ORIGINS[1] has 'web' in: None
         _check_results(["web", "applications"], [2, 0, 1])
 
     def test_origin_sort_by_search(self):
 
         now = datetime.now(tz=timezone.utc).isoformat()
         now_minus_5_hours = (
             datetime.now(tz=timezone.utc) - timedelta(hours=5)
         ).isoformat()
         now_plus_5_hours = (
             datetime.now(tz=timezone.utc) + timedelta(hours=5)
         ).isoformat()
 
         ORIGINS = [
             {
                 "url": "http://foobar.1.com",
                 "nb_visits": 1,
                 "last_visit_date": now_minus_5_hours,
             },
             {"url": "http://foobar.2.com", "nb_visits": 2, "last_visit_date": now,},
             {
                 "url": "http://foobar.3.com",
                 "nb_visits": 3,
                 "last_visit_date": now_plus_5_hours,
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_results(sort_by, origins):
             page = self.search.origin_search(url_pattern="foobar", sort_by=sort_by)
             results = [r["url"] for r in page.results]
             assert results == [origin["url"] for origin in origins]
 
         _check_results(["nb_visits"], ORIGINS)
         _check_results(["-nb_visits"], ORIGINS[::-1])
 
         _check_results(["last_visit_date"], ORIGINS)
         _check_results(["-last_visit_date"], ORIGINS[::-1])
 
         _check_results(["nb_visits", "-last_visit_date"], ORIGINS)
         _check_results(["-last_visit_date", "nb_visits"], ORIGINS[::-1])
 
     def test_origin_instrinsic_metadata_license_search(self):
         ORIGINS = [
             {
                 "url": "http://foobar.1.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar",
                     "license": "https://spdx.org/licenses/MIT",
                 },
             },
             {
                 "url": "http://foobar.2.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar",
                     "license": "BSD-3-Clause",
                 },
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_results(licenses, origin_indices):
             page = self.search.origin_search(url_pattern="foobar", licenses=licenses)
             results = [r["url"] for r in page.results]
             assert sorted(results) == sorted(
                 [ORIGINS[i]["url"] for i in origin_indices]
             )
 
         _check_results(["MIT"], [0])
         _check_results(["bsd"], [1])
         _check_results(["mit", "3-Clause"], [0, 1])
 
     def test_origin_instrinsic_metadata_programming_language_search(self):
         ORIGINS = [
             {
                 "url": "http://foobar.1.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar",
                     "programmingLanguage": "python",
                 },
             },
             {
                 "url": "http://foobar.2.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar",
                     "programmingLanguage": "javascript",
                 },
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_results(programming_languages, origin_indices):
             page = self.search.origin_search(
                 url_pattern="foobar", programming_languages=programming_languages
             )
             results = [r["url"] for r in page.results]
             assert sorted(results) == sorted(
                 [ORIGINS[i]["url"] for i in origin_indices]
             )
 
         _check_results(["python"], [0])
         _check_results(["javascript"], [1])
         _check_results(["python", "javascript"], [0, 1])
 
     def test_origin_instrinsic_metadata_multiple_field_search(self):
         ORIGINS = [
             {
                 "url": "http://foobar.1.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar 1",
                     "programmingLanguage": "python",
                     "license": "https://spdx.org/licenses/MIT",
                 },
             },
             {
                 "url": "http://foobar.2.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar 2",
                     "programmingLanguage": ["javascript", "html", "css"],
                     "license": [
                         "https://spdx.org/licenses/CC-BY-1.0",
                         "https://spdx.org/licenses/Apache-1.0",
                     ],
                 },
             },
             {
                 "url": "http://foobar.3.com",
                 "intrinsic_metadata": {
                     "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                     "description": "foo bar 3",
                     "programmingLanguage": ["Cpp", "c"],
                     "license": "https://spdx.org/licenses/LGPL-2.0-only",
                 },
             },
         ]
         self.search.origin_update(ORIGINS)
         self.search.flush()
 
         def _check_result(programming_languages, licenses, origin_indices):
             page = self.search.origin_search(
                 url_pattern="foobar",
                 programming_languages=programming_languages,
                 licenses=licenses,
             )
             results = [r["url"] for r in page.results]
             assert sorted(results) == sorted(
                 [ORIGINS[i]["url"] for i in origin_indices]
             )
 
         _check_result(["javascript"], ["CC"], [1])
         _check_result(["css"], ["CC"], [1])
         _check_result(["css"], ["CC", "apache"], [1])
 
         _check_result(["python", "javascript"], ["MIT"], [0])
 
         _check_result(["c", "python"], ["LGPL", "mit"], [2, 0])
 
     def test_origin_update_with_no_visit_types(self):
         """
         Update an origin with visit types first then with no visit types,
         check origin can still be searched with visit types afterwards.
         """
         origin_url = "http://foobar.baz"
         self.search.origin_update([{"url": origin_url, "visit_types": ["git"]}])
         self.search.flush()
 
         self.search.origin_update([{"url": origin_url}])
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="http", visit_types=["git"])
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [origin_url]
         assert results == expected_results
 
     def test_origin_intrinsic_metadata_description(self):
         origin1_nothin = {"url": "http://origin1"}
         origin2_foobar = {"url": "http://origin2"}
         origin3_barbaz = {"url": "http://origin3"}
 
         self.search.origin_update(
             [
                 {**origin1_nothin, "intrinsic_metadata": {},},
                 {
                     **origin2_foobar,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": "foo bar",
                     },
                 },
                 {
                     **origin3_barbaz,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": "bar baz",
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="foo")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_foobar]
 
         actual_page = self.search.origin_search(metadata_pattern="foo bar")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_foobar]
 
         actual_page = self.search.origin_search(metadata_pattern="bar baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin3_barbaz]
 
     def test_origin_intrinsic_metadata_all_terms(self):
         origin1_foobarfoobar = {"url": "http://origin1"}
         origin3_foobarbaz = {"url": "http://origin2"}
 
         self.search.origin_update(
             [
                 {
                     **origin1_foobarfoobar,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": "foo bar foo bar",
                     },
                 },
                 {
                     **origin3_foobarbaz,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": "foo bar baz",
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="foo bar baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin3_foobarbaz]
 
     def test_origin_intrinsic_metadata_long_description(self):
         """Checks ElasticSearch does not try to store large values untokenize,
         which would be inefficient and crash it with:
 
         Document contains at least one immense term in field="intrinsic_metadata.http://schema.org/description.@value" (whose UTF8 encoding is longer than the max length 32766), all of which were skipped.
         """  # noqa
         origin1 = {"url": "http://origin1"}
 
         self.search.origin_update(
             [
                 {
                     **origin1,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": " ".join(f"foo{i}" for i in range(100000)),
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="foo42")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1]
 
     def test_origin_intrinsic_metadata_matches_cross_fields(self):
         """Checks the backend finds results even if the two words in the query are
         each in a different field."""
         origin1 = {"url": "http://origin1"}
 
         self.search.origin_update(
             [
                 {
                     **origin1,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "description": "foo bar",
                         "author": "John Doe",
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="foo John")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1]
 
     def test_origin_intrinsic_metadata_nested(self):
         origin1_nothin = {"url": "http://origin1"}
         origin2_foobar = {"url": "http://origin2"}
         origin3_barbaz = {"url": "http://origin3"}
 
         self.search.origin_update(
             [
                 {**origin1_nothin, "intrinsic_metadata": {},},
                 {
                     **origin2_foobar,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "keywords": ["foo", "bar"],
                     },
                 },
                 {
                     **origin3_barbaz,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "keywords": ["bar", "baz"],
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="foo")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_foobar]
 
         actual_page = self.search.origin_search(metadata_pattern="foo bar")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_foobar]
 
         actual_page = self.search.origin_search(metadata_pattern="bar baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin3_barbaz]
 
     def test_origin_intrinsic_metadata_inconsistent_type(self):
         """Checks the same field can have a concrete value, an object, or an array
         in different documents."""
         origin1_foobar = {"url": "http://origin1"}
         origin2_barbaz = {"url": "http://origin2"}
         origin3_bazqux = {"url": "http://origin3"}
 
         self.search.origin_update(
             [
                 {
                     **origin1_foobar,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "author": {"familyName": "Foo", "givenName": "Bar",},
                     },
                 },
             ]
         )
         self.search.flush()
         self.search.origin_update(
             [
                 {
                     **origin2_barbaz,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "author": "Bar Baz",
                     },
                 },
                 {
                     **origin3_bazqux,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "author": ["Baz", "Qux"],
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="bar")
         assert actual_page.next_page_token is None
         results = [r["url"] for r in actual_page.results]
         expected_results = [o["url"] for o in [origin2_barbaz, origin1_foobar]]
         assert sorted(results) == sorted(expected_results)
 
         actual_page = self.search.origin_search(metadata_pattern="baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_barbaz, origin3_bazqux]
 
         actual_page = self.search.origin_search(metadata_pattern="foo")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1_foobar]
 
         actual_page = self.search.origin_search(metadata_pattern="bar baz")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2_barbaz]
 
         actual_page = self.search.origin_search(metadata_pattern="qux")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin3_bazqux]
 
         actual_page = self.search.origin_search(metadata_pattern="baz qux")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin3_bazqux]
 
         actual_page = self.search.origin_search(metadata_pattern="foo bar")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1_foobar]
 
     def test_origin_intrinsic_metadata_string_mapping(self):
         """Checks inserting a date-like in a field does not update the mapping to
         require every document uses a date in that field; or that search queries
         use a date either.
         Likewise for numeric and boolean fields."""
         origin1 = {"url": "http://origin1"}
         origin2 = {"url": "http://origin2"}
 
         self.search.origin_update(
             [
                 {
                     **origin1,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "dateCreated": "2021-02-18T10:16:52",
                         "version": "1.0",
                         "isAccessibleForFree": True,
                     },
                 }
             ]
         )
         self.search.flush()
         self.search.origin_update(
             [
                 {
                     **origin2,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "dateCreated": "a long time ago",
                         "address": "in a galaxy far, far away",
                         "version": "a new hope",
                         "isAccessibleForFree": "it depends",
                     },
                 },
             ]
         )
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="1.0")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1]
 
         actual_page = self.search.origin_search(metadata_pattern="long")
         assert actual_page.next_page_token is None
         assert (
             actual_page.results == []
         )  # "%Y-%m-%d" not followed, so value is rejected
 
         actual_page = self.search.origin_search(metadata_pattern="true")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1]
 
         actual_page = self.search.origin_search(metadata_pattern="it depends")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin2]
 
     def test_origin_intrinsic_metadata_update(self):
         origin = {"url": "http://origin1"}
         origin_data = {
             **origin,
             "intrinsic_metadata": {
                 "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                 "author": "John Doe",
             },
         }
 
         self.search.origin_update([origin_data])
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="John")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin]
 
         origin_data["intrinsic_metadata"]["author"] = "Jane Doe"
 
         self.search.origin_update([origin_data])
         self.search.flush()
 
         actual_page = self.search.origin_search(metadata_pattern="Jane")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin]
 
     # TODO: add more tests with more codemeta terms
 
     # TODO: add more tests with edge cases
 
     @settings(deadline=None)
     @given(strategies.integers(min_value=1, max_value=4))
     def test_origin_url_paging(self, limit):
         # TODO: no hypothesis
         origin1_foo = {"url": "http://origin1/foo"}
         origin2_foobar = {"url": "http://origin2/foo/bar"}
         origin3_foobarbaz = {"url": "http://origin3/foo/bar/baz"}
 
         self.reset()
         self.search.origin_update([origin1_foo, origin2_foobar, origin3_foobarbaz])
         self.search.flush()
 
         results = stream_results(
             self.search.origin_search, url_pattern="foo bar baz", limit=limit
         )
         results = [res["url"] for res in results]
         expected_results = [o["url"] for o in [origin3_foobarbaz]]
         assert sorted(results[0 : len(expected_results)]) == sorted(expected_results)
 
         results = stream_results(
             self.search.origin_search, url_pattern="foo bar", limit=limit
         )
         results = [res["url"] for res in results]
         expected_results = [o["url"] for o in [origin2_foobar, origin3_foobarbaz]]
         assert sorted(results[0 : len(expected_results)]) == sorted(expected_results)
 
         results = stream_results(
             self.search.origin_search, url_pattern="foo", limit=limit
         )
         results = [res["url"] for res in results]
         expected_results = [
             o["url"] for o in [origin1_foo, origin2_foobar, origin3_foobarbaz]
         ]
         assert sorted(results[0 : len(expected_results)]) == sorted(expected_results)
 
     @settings(deadline=None)
     @given(strategies.integers(min_value=1, max_value=4))
     def test_origin_intrinsic_metadata_paging(self, limit):
         # TODO: no hypothesis
         origin1_foo = {"url": "http://origin1"}
         origin2_foobar = {"url": "http://origin2"}
         origin3_foobarbaz = {"url": "http://origin3"}
 
         self.reset()
         self.search.origin_update(
             [
                 {
                     **origin1_foo,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "keywords": ["foo"],
                     },
                 },
                 {
                     **origin2_foobar,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "keywords": ["foo", "bar"],
                     },
                 },
                 {
                     **origin3_foobarbaz,
                     "intrinsic_metadata": {
                         "@context": "https://doi.org/10.5063/schema/codemeta-2.0",
                         "keywords": ["foo", "bar", "baz"],
                     },
                 },
             ]
         )
         self.search.flush()
 
         results = stream_results(
             self.search.origin_search, metadata_pattern="foo bar baz", limit=limit
         )
         assert list(results) == [origin3_foobarbaz]
 
         results = stream_results(
             self.search.origin_search, metadata_pattern="foo bar", limit=limit
         )
         assert list(results) == [origin2_foobar, origin3_foobarbaz]
 
         results = stream_results(
             self.search.origin_search, metadata_pattern="foo", limit=limit
         )
         assert list(results) == [origin1_foo, origin2_foobar, origin3_foobarbaz]
 
     def test_search_blocklisted_results(self):
         origin1 = {"url": "http://origin1"}
         origin2 = {"url": "http://origin2", "blocklisted": True}
 
         self.search.origin_update([origin1, origin2])
         self.search.flush()
 
         actual_page = self.search.origin_search(url_pattern="origin")
         assert actual_page.next_page_token is None
         assert actual_page.results == [origin1]
 
     def test_search_blocklisted_update(self):
         origin1 = {"url": "http://origin1"}
         self.search.origin_update([origin1])
         self.search.flush()
 
         result_page = self.search.origin_search(url_pattern="origin")
         assert result_page.next_page_token is None
         assert result_page.results == [origin1]
 
         self.search.origin_update([{**origin1, "blocklisted": True}])
         self.search.flush()
 
         result_page = self.search.origin_search(url_pattern="origin")
         assert result_page.next_page_token is None
         assert result_page.results == []
 
         self.search.origin_update(
             [{**origin1, "has_visits": True, "visit_types": ["git"]}]
         )
         self.search.flush()
 
         result_page = self.search.origin_search(url_pattern="origin")
         assert result_page.next_page_token is None
         assert result_page.results == []
 
     def test_filter_keyword_in_filter(self):
         origin1 = {
             "url": "foo language in ['foo baz'] bar",
         }
         self.search.origin_update([origin1])
         self.search.flush()
 
         result_page = self.search.origin_search(url_pattern="language in ['foo bar']")
         assert result_page.next_page_token is None
         assert result_page.results == [origin1]
 
         result_page = self.search.origin_search(url_pattern="baaz")
         assert result_page.next_page_token is None
         assert result_page.results == []
 
     def test_visit_types_count(self):
         assert self.search.visit_types_count() == Counter()
 
         origins = [
             {"url": "http://foobar.baz", "visit_types": ["git"], "blocklisted": True}
         ]
 
         for idx, visit_type in enumerate(["git", "hg", "svn"]):
             for i in range(idx + 1):
                 origins.append(
                     {
                         "url": f"http://{visit_type}.foobar.baz.{i}",
                         "visit_types": [visit_type],
                     }
                 )
         self.search.origin_update(origins)
         self.search.flush()
 
         assert self.search.visit_types_count() == Counter(git=1, hg=2, svn=3)
diff --git a/swh/search/tests/test_translator.py b/swh/search/tests/test_translator.py
index af0b675..6de5bd5 100644
--- a/swh/search/tests/test_translator.py
+++ b/swh/search/tests/test_translator.py
@@ -1,400 +1,405 @@
+# Copyright (C) 2021  The Software Heritage developers
+# See the AUTHORS file at the top-level directory of this distribution
+# License: GNU General Public License version 3, or any later version
+# See top-level LICENSE file for more information
+
 import pytest
 
 from swh.search.translator import Translator
 from swh.search.utils import get_expansion
 
 
 def _test_results(query, expected):
     output = Translator().parse_query(query)
     assert output == expected
 
 
 def test_empty_query():
     query = ""
     with pytest.raises(Exception):
         _test_results(query, {})
 
 
 def test_conjunction_operators():
     query = "visited = true or visits > 2 and visits < 5"
     expected = {
         "filters": {
             "bool": {
                 "should": [
                     {"term": {"has_visits": True}},
                     {
                         "bool": {
                             "must": [
                                 {"range": {"nb_visits": {"gt": 2}}},
                                 {"range": {"nb_visits": {"lt": 5}}},
                             ]
                         }
                     },
                 ]
             }
         }
     }
     _test_results(query, expected)
 
 
 def test_conjunction_op_precedence_override():
     query = "(visited = false or visits > 2) and visits < 5"
     expected = {
         "filters": {
             "bool": {
                 "must": [
                     {
                         "bool": {
                             "should": [
                                 {"term": {"has_visits": False}},
                                 {"range": {"nb_visits": {"gt": 2}}},
                             ]
                         }
                     },
                     {"range": {"nb_visits": {"lt": 5}}},
                 ]
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_limit_and_sortby():
     query = "visited = true sort_by = [-visits,last_visit] limit = 15"
     expected = {
         "filters": {"term": {"has_visits": True}},
         "sortBy": ["-visits", "last_visit"],
         "limit": 15,
     }
 
     _test_results(query, expected)
 
 
 def test_deeply_nested_filters():
     query = "(((visited = true and visits > 0)))"
     expected = {
         "filters": {
             "bool": {
                 "must": [
                     {"term": {"has_visits": True},},
                     {"range": {"nb_visits": {"gt": 0}}},
                 ]
             }
         },
     }
 
     _test_results(query, expected)
 
 
 def test_origin_and_metadata_filters():
     query = 'origin = django or metadata = "framework and web"'
     expected = {
         "filters": {
             "bool": {
                 "should": [
                     {
                         "multi_match": {
                             "query": "django",
                             "type": "bool_prefix",
                             "operator": "and",
                             "fields": [
                                 "url.as_you_type",
                                 "url.as_you_type._2gram",
                                 "url.as_you_type._3gram",
                             ],
                         }
                     },
                     {
                         "nested": {
                             "path": "intrinsic_metadata",
                             "query": {
                                 "multi_match": {
                                     "query": "framework and web",
                                     "type": "cross_fields",
                                     "operator": "and",
                                     "fields": ["intrinsic_metadata.*"],
                                     "lenient": True,
                                 }
                             },
                         }
                     },
                 ]
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_visits_not_equal_to_filter():
     query = "visits != 5"
     expected = {
         "filters": {
             "bool": {"must_not": [{"range": {"nb_visits": {"gte": 5, "lte": 5}}},]}
         },
     }
 
     _test_results(query, expected)
 
 
 def test_visit_type_filter():
     query = 'visit_type = [git,"pypi"]'
     expected = {"filters": {"terms": {"visit_types": ["git", "pypi"]}}}
 
     _test_results(query, expected)
 
 
 def test_keyword_filter():
     query = r"""keyword in [word1, "word2 \" \' word3"]"""
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "multi_match": {
                         "query": r"""word1 word2 " ' word3""",
                         "fields": [
                             get_expansion("keywords", ".") + "^2",
                             get_expansion("descriptions", "."),
                         ],
                     }
                 },
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_language_filter():
     query = 'language in [python, "go lang", cpp]'
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "bool": {
                         "should": [
                             {
                                 "match": {
                                     get_expansion(
                                         "programming_languages", "."
                                     ): "python"
                                 }
                             },
                             {
                                 "match": {
                                     get_expansion(
                                         "programming_languages", "."
                                     ): "go lang"
                                 }
                             },
                             {
                                 "match": {
                                     get_expansion("programming_languages", "."): "cpp"
                                 }
                             },
                         ]
                     }
                 },
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_license_filter():
     query = 'license in ["GPL 3", Apache, MIT]'
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "bool": {
                         "should": [
                             {"match": {get_expansion("licenses", "."): "GPL 3"}},
                             {"match": {get_expansion("licenses", "."): "Apache"}},
                             {"match": {get_expansion("licenses", "."): "MIT"}},
                         ]
                     }
                 },
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_date_created_not_equal_to_filter():
     query = "created != 2020-01-01"
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "bool": {
                         "must_not": [
                             {
                                 "range": {
                                     get_expansion("date_created", "."): {
                                         "gte": "2020-01-01",
                                         "lte": "2020-01-01",
                                     }
                                 }
                             }
                         ]
                     }
                 },
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_date_created_greater_than_filter():
     query = "created >= 2020-01-01"
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "bool": {
                         "must": [
                             {
                                 "range": {
                                     get_expansion("date_created", "."): {
                                         "gte": "2020-01-01",
                                     }
                                 }
                             }
                         ]
                     }
                 },
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_last_eventful_visit_not_equal_to_filter():
     query = "last_visit != 2020-01-01"
     expected = {
         "filters": {
             "bool": {
                 "must_not": [
                     {
                         "range": {
                             "last_visit_date": {
                                 "gte": "2020-01-01",
                                 "lte": "2020-01-01",
                             }
                         }
                     }
                 ]
             }
         }
     }
 
     _test_results(query, expected)
 
 
 def test_last_eventful_visit_less_than_to_filter():
     query = "last_visit < 2020-01-01"
     expected = {"filters": {"range": {"last_visit_date": {"lt": "2020-01-01"}}}}
 
     _test_results(query, expected)
 
 
 def test_keyword_no_escape_inside_filter():
     # any keyword (filter name/operator/value) inside a filter
     # must be considered a string.
     query = r'''origin = "language in [\'go lang\', python]"'''
     expected = {
         "filters": {
             "multi_match": {
                 "query": r"""language in ['go lang', python]""",
                 "type": "bool_prefix",
                 "operator": "and",
                 "fields": [
                     "url.as_you_type",
                     "url.as_you_type._2gram",
                     "url.as_you_type._3gram",
                 ],
             }
         }
     }
     _test_results(query, expected)
 
 
 def test_escaped_punctuation_parsing():
     query = r"""keyword in ["foo \'\" bar"]"""
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "multi_match": {
                         "query": r"""foo '" bar""",
                         "fields": [
                             get_expansion("keywords", ".") + "^2",
                             get_expansion("descriptions", "."),
                         ],
                     }
                 },
             }
         }
     }
     _test_results(query, expected)
 
 
 def test_nonascii():
     query = r"""keyword in ["café"]"""
     expected = {
         "filters": {
             "nested": {
                 "path": "intrinsic_metadata",
                 "query": {
                     "multi_match": {
                         "query": r"""café""",
                         "fields": [
                             get_expansion("keywords", ".") + "^2",
                             get_expansion("descriptions", "."),
                         ],
                     }
                 },
             }
         }
     }
     _test_results(query, expected)
 
 
 def test_nonascii_before_operator():
     query = r"""keyword in ["🐍"] and visited = true"""
     expected = {
         "filters": {
             "bool": {
                 "must": [
                     {
                         "nested": {
                             "path": "intrinsic_metadata",
                             "query": {
                                 "multi_match": {
                                     "query": r"""🐍""",
                                     "fields": [
                                         get_expansion("keywords", ".") + "^2",
                                         get_expansion("descriptions", "."),
                                     ],
                                 }
                             },
                         },
                     },
                     {"term": {"has_visits": True,},},
                 ],
             }
         }
     }
     _test_results(query, expected)
diff --git a/swh/search/tests/test_utils.py b/swh/search/tests/test_utils.py
new file mode 100644
index 0000000..8db4838
--- /dev/null
+++ b/swh/search/tests/test_utils.py
@@ -0,0 +1,23 @@
+# Copyright (C) 2021  The Software Heritage developers
+# See the AUTHORS file at the top-level directory of this distribution
+# License: GNU General Public License version 3, or any later version
+# See top-level LICENSE file for more information
+
+import pytest
+
+from swh.search.utils import parse_and_format_date
+
+
+@pytest.mark.parametrize(
+    "date_str",
+    ["2021-07-03", "2021-7-03", "2021-07-3", "2021-7-3", "2021-07-03T15:17:08Z"],
+)
+def test_parse_and_format_date_success(date_str):
+    assert parse_and_format_date(date_str) == "2021-07-03"
+
+
+@pytest.mark.parametrize(
+    "date_str", ["foo", "2021/07/03", "2021+07+03T15,17,08Z"],
+)
+def test_parse_and_format_date_failure(date_str):
+    assert parse_and_format_date(date_str) is None
diff --git a/swh/search/utils.py b/swh/search/utils.py
index e55b26a..e29a2e5 100644
--- a/swh/search/utils.py
+++ b/swh/search/utils.py
@@ -1,112 +1,111 @@
 # Copyright (C) 2021  The Software Heritage developers
 # See the AUTHORS file at the top-level directory of this distribution
 # License: GNU General Public License version 3, or any later version
 # See top-level LICENSE file for more information
 
 import codecs
 from datetime import datetime
+from typing import Optional
 
 import iso8601  # type: ignore
 
 
 def get_expansion(field, sep=None):
     METADATA_FIELDS = {
         "licenses": ["intrinsic_metadata", "http://schema.org/license", "@id"],
         "programming_languages": [
             "intrinsic_metadata",
             "http://schema.org/programmingLanguage",
             "@value",
         ],
         "keywords": ["intrinsic_metadata", "http://schema.org/keywords", "@value",],
         "descriptions": [
             "intrinsic_metadata",
             "http://schema.org/description",
             "@value",
         ],
         "date_created": [
             "intrinsic_metadata",
             "http://schema.org/dateCreated",
             "@value",
         ],
         "date_modified": [
             "intrinsic_metadata",
             "http://schema.org/dateModified",
             "@value",
         ],
         "date_published": [
             "intrinsic_metadata",
             "http://schema.org/datePublished",
             "@value",
         ],
     }
 
     if sep:
         return sep.join(METADATA_FIELDS[field])
 
     return METADATA_FIELDS[field]
 
 
-def is_date_parsable(date_str):
+def parse_and_format_date(date_str: str) -> Optional[str]:
     """
-    Return True if date_str is in the format
-    %Y-%m-%d or the standard ISO format.
-    Otherwise return False.
+    Parses a string date in the format %Y-%m-%d or ISO8601 and returns
+    a new string date in the format YYYY-mm-dd if the parsing succeeded
+    otherwise None.
     """
     try:
-        datetime.strptime(date_str, "%Y-%m-%d")
-        return True
+        return datetime.strptime(date_str, "%Y-%m-%d").strftime("%Y-%m-%d")
     except Exception:
         try:
-            iso8601.parse_date(date_str)
-            return True
+            return iso8601.parse_date(date_str).strftime("%Y-%m-%d")
         except Exception:
-            return False
+            return None
 
 
 def escape(obj):
     r"""Makes the object directly injectable into the
     query language by converting the escapable parts of
     the object into escape sequences.
 
     For strings, appends \ before special characters like ', ", and \
 
     For arrays, applies the same transformation on each element, joins the
     elements and returns a string-like representation of the list.
 
     >>> print(escape("foo ' bar"))
     "foo \' bar"
 
     >>> print(escape([r"foo ' bar", r"bar \\\' baz", r'foo " baz']))
     ["foo \' bar", "bar \\\\\\\' baz", "foo \" baz"]
 
     """
     if type(obj) == list:
         items = [escape(item) for item in obj]
         return "[" + ", ".join(items) + "]"
     elif type(obj) == str:
         return (
             '"'
             + obj.translate({ord("'"): r"\'", ord('"'): r"\"", ord("\\"): r"\\",})
             + '"'
         )
     else:
         raise Exception(f"Unexpected item type {type(obj)}")
 
 
 def unescape(string):
     r"""Processes the escaped special characters
 
     >>> unescape(r'''foo " bar''') == r'''foo " bar'''
     True
     >>> unescape(r'''foo \" bar''') == r'''foo " bar'''
     True
     >>> unescape(r'''foo \\" bar''') == r'''foo \" bar'''
     True
     >>> unescape(r'''foo \\\" bar''') == r'''foo \" bar'''
     True
     >>> unescape(r'''foo \\\\" bar''') == r'''foo \\" bar'''
     True
     >>> unescape(r'''café \" foo''') == r'''café " foo'''
     True
     """
     return codecs.escape_decode(string.encode())[0].decode()