Eric Hellman suit avec attention l'évolution des accords entre le géant de la publicité Google et les éditeurs nord-américains autour du service de numérisation des livres et de leur restitution du dit Google, appelé "Livres de Google" (ou "Google Books" en anglais dans le texte). On peut déjà voir un problème initial dans le nommage, avec la tendance habituelle de Google à s'approprier tout ce qui passe dans ses indexeurs. En deux mots, le principe de Google Books est le suivant :

  • Google empreinte tous les livres sur lesquels il peut mettre la main
  • puis les scanne (extraction d'une image numérique)
  • puis les passe à la Reconnaissance Automatique de Caractères (OCR, transformation en texte)
  • puis classifie comme il peut le livre à partir des données scannées et des informations fournies par le propriétaire du livre (en général une bibliothèque)
  • fourni une interface de recherche dans le contenu de tous ces livres (aux erreurs d'OCR près), et présente certaines pages de ces livres, choisies selon une politique... à déterminer (c'est en partie l'objet de l'accord)
  • et enfin, déclare que Google est le bienfaiteur de l'humanité et que le reste c'est tous des crétins réacs, sauf les éditeurs qui voudront bien signer l'accord qui sont moins crétins que les autres, mais quand même...

A l'occasion d'un billet récent intitulé "L'unicité des phrases et la (non) infraction de J. K. Rowling par Tanya Tucker", dans lequel il étudie comment à partir de certaines phrases d'un Harry Potter il est capable de trouver comment le contenu de ce livre est utilisé sur la toile (il ne regarde ni Usenet ni les autres réseaux). De ces recherches, il en déduit qu'on peut identifier un livre avec nombre très restreint de phrases, et donc, une fois en main les textes originaux, on est capable de faire une approximation très rapide pour déterminer si deux textes (en tant que représentation d'un livre) sont identiques ou pas. Il en déduit les conclusions suivantes :

  1. il sera bientôt très facile pour Google de détecter les copies non autorisées de livres dans son catalogue, et vraisemblablement de les enlever (ie. de ne plus les renvoyer dans les résultats des recherches). Le bénéfices pour les éditeurs de faire cela serait largement supérieur à tous les dommages qu'ils pourraient subir à cause du programme de numérisation de Google Books. Pourquoi les éditeurs ont-ils omis de faire acter un tel processus dans l'accord avec Google négocié pour mettre fin à la procédure judiciaire ?
  2. il ne sera pas difficle à Google de fusionner les doublons dans le catalogue de Google Books
  3. l'hésitation de J.K. Rowling à autoriser la diffusion de ses livres en format électronique est vraiment, vraiment stupide. (Je ne fais que reprendre ses mots)

Pour le premier point, l'idée est que, un éditeur confiant tous les textes de tous les livres qu'il édite à Google, Google sera en mesure d'extraire les phrases significatives ce ces livres, et d'enlever des résultats de recherche les documents qui correspondent à celles-ci. Le but poursuivi est d'empêcher l'internaute de trouver des livres électronique pirates. Pour cela, il faut que l'internaute passe par Google pour faire ses recherches d'éditions pirates, et que Google reconnaisse le format du livre électronique (qui sont souvent au format PDF, indexé par tous les moteurs de recherche, mais de plus en plus souvent directement dans des formats dédiés aux livres électronique (Mobipocket, LIT, eReader, ePub, eBooks, etc) qui à l'heure actuelle ne sont pas tous indexés). Donc si l'éditeur confie tout son fond éditorial à Google, il bloquera potentiellement les téléchargements d'éditions illégales par les personnes qui ne cherchent que du PDF et ce uniquement à travers Google. Les quelques années de recul que l'on a depuis l'émergence de Napster (article de 2000, intéressant à relire) nous montre que tout ça ne servirait pas à grand chose.

Pour le second point, on est bien content qu'il existe des techniques pour que Google arrive à maintenir son catalogue Google Books... parce que là, c'est un peu le boxon, surtout avec les recueils et les anthologies (et ça, quand l'auteur et l'année de parutions sont corrects, ce qui est loin d'être toujours le cas).

Et pour le troisième point... je n'arrive pas à trouver dans l'article la séquence de raisonnement liant les réticences d'un auteur envers la publication électronique et le fait qu'on puisse identifier un livre à partir de quelques phrases clef. Surtout que le fondement de ses réticences n'est exposé ni dans l'article, ni dans l'article lié. Et si c'est lié au piratage (sans doute), le simple fait que Google Books ait plus de livre à se mettre sous la dent ne changera rien à l'affaire.