bdphile

+6

Elimination des doublons existants

Idée proposée par Aaron le 27 novembre 2017 à 08:57 - 9 commentaires
Bonjour

Le site a grandi exponentiellement et j'adresse mes félicitations aux concepteurs/correcteurs pour le succès de cette plate-forme conviviale/facile à utiliser et gratuite.

Tout succès engendre des excès, j'ai nommé les doublons.

Qu'est-ce qu'un doublon ? c'est un avatar d'une information complète généré soit par l'éditeur lorsqu'il pré-annonce une nouveauté sans avoir toutes les informations mais surtout par les utilisateurs qui ne les ont pas toujours à disposition quand ils complètent leurs fiches.

Exemples pour illustrer

Dino Attanasio correct
Dino Attanasiog
Dino Attanasiopaghetti
Dino Attanasiospaghetti les trois autres sont des avatars qui sont dans la base de donnée

Pour l'éditeur Dargaud, il existait/existe également un datgaud, un dagaud, un dargaut, un dargaux, un darrgaud, un Edition Dargaud, tous avec du contenu
Pour un auteur comme Edgar P. Jacbos, il existait Edgard Jacobs, Jacobs, EP Jacobs, Edgar P et peut-être d'autres encore
Pour une GUETTTA (Edith), il existe une Edith Guetta, pour un michel roger, il y a un Roger Michel et Michel Roger

Chacune de ces entrées pollue la base commune puisque quand on veut faire une recherche sur la bibliographie d'un auteur, souvent elle se révèle incomplète car certains de ses albums sont sous les différentes propositions. Sur les 23'000 auteurs/éditeurs, j'ai identifié un petit 10% de doublons..

Ma suggestion est d'autoriser quelques volontaires (en parallèle au travail des correcteurs qui n'ont logiquement pas le temps pour ça) pour éradiquer ces mauvaises herbes. Je m'imagine qu'il existe un outil informatique qui permette de regrouper toutes les variantes d'un nom afin de rendre à l'auteur/éditeur ses albums éparpillés. C'est cette fonction qui devrait être temporairement mise à disposition de ces volontaires jusqu'à ce que le nombre de doublons retombe à un niveau qui puisse être digéré par les correcteurs.

Merci de votre attention et de votre feedback



Commentaires & avis

  1. MetaFredo
    Il y a 14 jours

    Très bonne idée.

    • jcat59
      Il y a 14 jours

      je "plussoie" ^^

      • flidou
        Il y a 14 jours

        Je suis d'accord avec toi

        • HLZ60
          Il y a 13 jours

          Bonne idée effectivement, mais personnellement je ne suis pas très disponible en cette fin d'année ... et pas forcément très doué en informatique non plus. Si l'outil est simple à utiliser, je peux être de l'équipe des volontaires temporaires à partir de janvier, si le grand chef retient l'idée.

          • Papadji
            Il y a 9 jours

            Permettre à tous les volontaires d?écraser une info sans validation par un correcteur autorisé est un risque énorme pour la sécurité de maintien des bdthèques de chacun.
            Perso, ça me fait flipper, car seuls les correcteurs officiels disposent des consignes pour le bon usage des outils de gestion mis à leur disposition...
            Il est vrai que le nettoyage actuel semble lent et potentiellement décourageant pour les bénévoles.
            A choisir, je préférerais encore l?impossibilité de saisir des noms d?auteurs non reconnus par la base, même ceux pré-remplis provenant d?Amazone.
            La charge de mise à jour quotidienne de cette liste autorisée deviendrait dès lors une priorité absolue, ce qui, au final, pourrait constituer un moindre effort.
            Mais la V3 résoudra peut-être déjà ce type de problèmes.

            • HLZ60
              Il y a 9 jours

              Mmmm, ça se défend effectivement.
              Décidément, l'affaire n'est pas simple.
              Qu'en pense Adrien ?

          • Papadji
            Il y a 9 jours

            Au fait, cela fait plusieurs jours qu?il m?est impossible de voter pour, contre ou égal aux propositions... ;)

            • Aaron
              Il y a 9 jours

              Certes, c'est une préoccupation légitime.

              D'un autre côté, les interventions concernent les données de la base commune et non pas les bédéthèques individuelles. Si je lie deux noms existants pour un seul auteur, je ne fais que transférer les informations de l'un sur l'autre et éliminer le nom superflu de la base de donnée. Je n'interviendrai à aucun moment directement sur la bédéthèque personnelle de chacun.

              Par contre j'abonde dans le ses de la proposition de stopper l'épidémie en bloquant les noms qui ne sont pas déjà reconnus par la base. Comme celle-ci est déjà pléthorique, je crains que cela ne concerne que quelques noms.

              • Papadji
                Il y a 5 jours

                Même si l?outil que tu imagines ne permet que des fusions et pas des suppressions, il restera toujours le risque de fusionner des homonymes en fait différents, ce qui implique un contrôle rigoureux préalable à toute action, et présupposer que chacun sera suffisamment rigoureux me semble fort optimiste.

                L?afflux permanent de doublons est peut-être comparativement limité au regard du nettoyage historique résiduel, mais ne pas le stopper, c?est comme tenter de se sécher sous la douche sans fermer le robinet... ;)

                Personne d?autre n?a des difficultés avec le système de vote ?

            • Merci de vous identifier pour poster un commentaire
            Scroll to top