Pour une typologie des œuvres littéraires générées par intelligence artificielle

DOI : 10.35562/balisages.304

Abstracts

Dans cet article, je souhaite proposer une typologie des documents nativement numériques que sont les œuvres littéraires générées par intelligence artificielle, entendant par-là les textes générés par apprentissage machine (machine learning). Je distingue ainsi entre le texte œuvre d’art (dont le caractère littéraire est minoré face à un statut d’objet artistique, notamment au travers de la démarche mise en œuvre), le texte édité (dont le caractère littéraire est au contraire mis en avant grâce au travail de réécriture effectué par l’auteur sur le premier jet généré par la machine) et le texte appropriant (dont l’intérêt a surtout trait au rapport avec les textes utilisés pour entraîner les algorithmes, lesquels font les frais d’une appropriation singulière). Afin d’appuyer cette proposition, je m’appuie notamment sur trois études de cas : 1 the Road [Goodwin, 2018], ReRites [Jhave, 2019] et Proust_unlimited [Lebrun, 2018].

In this article, I would like to propose a typology of natively digital documents, which are literary works generated by artificial intelligence, meaning machine learning generated texts. I will therefore distinguish between texts that qualify mostly as works of art (whose literary character is diminished by this status as artistic object, especially through the approach implemented), edited texts (whose literary character is, on the contrary, highlighted, thanks to rewriting done by the author on the first draft generated by the machine), and appropriating text, (whose interest is mainly related to the texts used to drive the algorithms, which constitute a singular appropriation). To support this hypothesis, I will rely on three case studies: 1 the Road [Goodwin, 2018], ReRites [Jhave, 2019] and Proust_unlimited [Lebrun, 2018].

Index

Mots-clés

intelligence artificielle, génération de textes, traitement automatique du langage, œuvre d’art, édition, appropriation, cas d’étude, littérature

Keywords

artificial intelligence, text generation, natural language processing, work of art, editing, appropriation, literature

Outline

Text

Les œuvres littéraires générées par l’intelligence artificielle (IA) ne sont pas une nouveauté. Si la définition de l’IA a pu évoluer au cours des soixante-dix dernières années (soit depuis la constitution du champ en 1956 par John McCarthy, à l’université Dartmouth), elle peut être aujourd’hui résumée simplement à la proposition anthropocentrique suivante1 : relève de l’IA toute technologie imitant une activité normalement réservée à un être humain. Suivant cette définition – fortement liminaire –, les premières lettres d’amour générées par Christopher Strachey (Love Letters) en 1952 relèvent de l’IA avant même la création du terme « intelligence artificielle », et ce, même s’ils ne font « que » combiner des éléments de texte entre eux, selon une structure de phrase préalablement définie et codée à cet effet. Quelle différence, alors, entre les Love Letters de Strachey et les questions de Machine, Unlearning [Zilles, 2018], lesquelles sont générées par des réseaux neuronaux probabilistes, autrement dit par les techniques contemporaines dites d’apprentissage machine (machine learning) ? De fait, ces deux types de texte relèvent bien de l’IA mais ne recouvrent pourtant pas du tout la même réalité. En 1952, les méthodes de génération de textes étaient pour l’essentiel combinatoires [Bootz, 2009] : les « générateurs », des programmes informatiques fondés sur l’utilisation de techniques pseudo-aléatoires2, mélangeaient ainsi un certain nombre d’éléments textuels à partir de bases de données établies par un programmeur, formant ainsi de nouvelles combinaisons de mots et donnant l’illusion d’une capacité d’écriture. Certains de ces générateurs ont fait date, comme Calliope d’Albert Ducrocq en France [1953] ou le générateur de lettres de Christopher Strachey. De façon remarquable, aucun de ces générateurs n’avait pourtant réellement besoin d’être informatique, ce dont avaient bien conscience leurs auteurs3. Comme l’indique l’historien de la littérature numérique Christopher Funkhouser [2007], ce type de production a été rapidement doublé d’un nouveau mode de génération, généralement qualifié dans le monde francophone de génération automatique [Bootz, 2009 ; Balpe, 1991]. Les artistes et les programmeurs ont cette fois fourbi leurs armes et tiré avantage des capacités accrues de la programmation pour inculquer à des logiciels dédiés des « règles » grammaticales ou narratives (citons rapidement les Stochastic Texts de Théo Lutz en Allemagne [1959] et La machine à écrire de Jean Baudot au Québec [1964]). Ce mode de génération, bien plus intéressant que l’ancien modèle combinatoire, connut un certain succès au tournant des années 90 avec l’Alamo et l’avènement des littéraciels, sortes de « systèmes experts » dédiés à la génération de textes, l’idée étant alors simplement de formuler informatiquement un certain nombre d’instructions que suivra le système (ce que l’on qualifie d’IA « symbolique », ou good-old fashioned AI [Haugeland, 1985])4.

Ces deux modes qui dominaient la génération informatique de textes du début des années 50 jusqu’aux années 90 – la génération combinatoire et la génération automatique – étaient donc foncièrement déductifs. Dans les deux cas, les auteurs agissaient (et agissent encore, puisque ces techniques sont toujours utilisées aujourd’hui [voir Mexica, 2018 ; Boring Tales from Tiny Places, 2018, etc.]) comme programmeurs et déterminaient par le biais d’un code informatique ce que la machine pouvait écrire. La logique, mise en œuvre au travers du programme informatique, donne l’illusion que la machine crée d’elle-même une écriture cohérente, qui n’est cependant que le fruit du travail des programmeurs à l’origine des textes. Si ces derniers n’ont pas un contrôle exact sur le texte qui sera généré (ce contrôle étant souvent ôté par le caractère aléatoire ou interactif du programme), ils déterminent néanmoins par la structure du code le caractère possible du texte à venir.

Ce caractère de texte en puissance, fondé par un travail d’auteur sur le programme (alors qualifié de méta-texte ou de méta-structure), semble de prime abord se prolonger avec les plus récentes créations textuelles par apprentissage profond, soit l’ensemble des méthodes technologiques actuellement qualifiées d’intelligences artificielles. Ce n’est pourtant plus exactement le cas. Dominique Cardon, Jean-Philippe Cointet et Antoine Mazières, dans leur article « La revanche des neurones – l’invention des machines inductives et la controverse de l’intelligence artificielle »5, ont très bien décrit le passage d’une technologie déductive à une technologie inductive que provoque l’avènement de l’apprentissage profond et de l’apprentissage machine dans nos sociétés. Ces technologies sont en effet fondées sur une acception stricte de la théorie de l’information de Shannon (laquelle n’attribue aucun caractère symbolique à l’information traitée), remettant au goût du jour de nombreux aspects de l’ancien projet cybernétique qu’avait en partie développé Norbert Wiener à la fin des années 40. Spécifiquement, cette IA – qualifiée de « connexionniste » – n’est pas à proprement parler « programmée », et tire seule les règles des données sur lesquelles elle aura été entraînée. L’intervention humaine se limite alors le plus souvent à la composition du jeu de données nécessaire à l’entraînement des algorithmes, à l’établissement d’un certain nombre de paramètres (la température6, par exemple, ou encore la durée de l’entraînement), et éventuellement, on le verra, à des modifications postérieures à la génération du texte par le modèle.

Ce basculement de l’utilisation de technologies déductives (explicitement programmées) à des technologies inductives (non explicitement programmées, et qui infèrent elles-mêmes les règles nécessaires à partir du jeu de données utilisées pour l’entraînement) est lourd de conséquences sur la production de textes générés par informatique. D’un point de vue littéraire, le texte procède alors avant tout de façon rigide d’une matière artistique, soit de l’ensemble de données utilisées (que l’on qualifiera d’hypotextes, afin de faciliter la lecture)7. Cette dépendance du texte généré envers les hypotextes manifeste une certaine forme d’appropriation, d’autant plus problématique lorsqu’une partie ou la totalité des données en question sont des œuvres littéraires [Lebrun, 2018]. Sans surprise, une telle possibilité d’utiliser le texte comme matière a amené de nombreux programmeurs, artistes et auteurs à s’intéresser à l’IA contemporaine pour générer du texte. Ces expérimentations nombreuses et singulières ont produit des résultats d’intérêts variables, que je souhaiterais examiner ici au travers de trois types distincts : le texte œuvre d’art, le texte édité et le texte appropriant.

Sans trop m’attarder aux questions d’autorité (néanmoins fondamentales [voir Lebrun, 2017]) ou de réception [Henrickson, 2018], je privilégierai pour l’établissement de ma typologie une approche formaliste, notamment fondée sur la dépendance des œuvres générées envers les hypotextes utilisés pour leur génération. Pour exemplifier cette dépendance, je présenterai – outre différents exemples d’œuvres –, comment des techniques d’IA contemporaine m’ont permis de générer un texte (Proust_unlimited) à partir de l’hypotexte de La recherche du temps perdu. Au travers de l’étude des différents processus de production concernés, j’examinerai les problématiques documentaires singulières qui régissent ces œuvres, tout en réfléchissant aux enjeux de littérarité spécifiques qui en découlent, principalement en raison de cette dépendance hypotextuelle singulière. Pour ce faire, je ferai notamment appel à certains éléments d’approche sémiotiques et de philosophie des techniques, afin de replacer mon étude dans un contexte plus général d’histoire de la littérature numérique.

Le texte œuvre d’art : 1 the Road de Ross Goodwin [2018]

Le texte œuvre d’art peut être défini comme un type de texte généré par IA dont l’objet n’est pas tant littéraire qu’artistique, et dont le travail porte généralement plus sur la forme que sur le fond (ou sur la forme en tant qu’elle exprime le fond de l’œuvre). S’inscrivent dans un tel registre les œuvres de Sofian Audry [For the Sleepers in this Quiet Earth, 2018], de Yuxi Liu [Poet on the Shore, 2017] ou encore de Li Zilles [Machine, Unlearning, 2018]. Que de tels textes fassent ou non montre de cohérence diégétique ou syntaxique8 n’est résolument pas un objectif visé : le texte est avant tout présenté comme le fruit d’une démarche dont il est le témoin. Ce phénomène inscrit certainement le texte « œuvre d’art » dans le registre des œuvres dites « natives » du numérique (soit celles dont on ne peut enlever la dimension numérique sans ôter une des caractéristiques esthétiques essentielles), et dont l’intérêt est résolument déplacé du texte même vers le processus de production [Audet, 2015 ; Bouchardon, 2015 ; Saemmer, 2007]. L’exemple sur lequel je souhaiterais me concentrer ici est celui d’1 the Road de Ross Goodwin, publié en 2018 par les éditions Jean Boîte. Il s’agit d’un texte présenté comme étant rédigé par une IA embarquée sur une voiture9, et à partir d’un corpus de deux cents hypotextes appropriés :

Un réseau de reconnaissance [alimente] un réseau de neurones générateur de texte par association libre (en termes mathématiques – un modèle d’environ 36 000 dimensions de l’espace linguistique d’une sélection de presque 200 ouvrages incités à produire une série de caractères statistiquement probables par rapport à la description initiale [Goodwin, 2018, p. 27].

Avant d’approfondir cette étude de cas, j’aimerais m’attarder sur la question du support. Si 1 the Road existe en format papier, la plupart des publications de textes œuvres d’art sont strictement numériques (sur des sites web dédiés ou sur des plateformes comme GitHub), ou ne subsistent que sous forme de traces (Poet on the Shore, par exemple). Le transfert sur un support physique papier – pour 1 the Road, For the Sleepers in this Quiet Earth ou encore Machine, Unlearning par exemple –, a toutefois un triple avantage : il fait d’abord la preuve du concept, il le diffuse ensuite en transformant une œuvre autographe en œuvre allographe, et enfin, il inscrit l’œuvre dans un double registre artistique (non plus seulement une installation, mais aussi un candidat au statut d’œuvre littéraire). Ne forçons donc pas la lecture d’une œuvre comme native du numérique comme 1 the Road – ce qui du reste serait bien peu enrichissant – et intéressons-nous davantage au processus qu’au texte. Plus particulièrement, portons attention au paratexte, qui recèle de nombreux indices et pistes d’analyses permettant de le caractériser.

Il est d’abord significatif de nous attarder rapidement sur une certaine confusion des genres qui régit sa présentation dans l’espace public. Sur la quatrième de couverture, la présentation du texte est bilingue : le texte anglais parle d’un manuscrit (manuscript), tandis que le texte français vante qu’ « 1 the Road s’impose comme le premier roman écrit par une IA »10. Cette confusion s’accentue dans les préfaces, où Kenric McDowell, ingénieur chez Google, qualifie le texte de machine poetry, ou de poésie tout court (p. 18-19), tandis que Ross Goodwin préfère parler de “manuscript […] written by the car itself” (p. 12), ce terme étant traduit en français de façon plus générique et prudente par le terme « texte »11. 1 the Road, roman ou poésie ? Texte avant toute chose, mais un tel flou est à ce qu’il me semble signifiant quant à une revendication d’un statut qui n’est pas tant littéraire qu’artistique.

Quant au corps du texte, chaque page se présente comme suit : à gauche ou à droite, l’heure, les minutes et les secondes durant lesquelles le texte a été généré. À l’opposé de l’heure, le texte à proprement parler, souvent entrecoupé d’« images », en réalité des paysages composés d’une matrice de symboles censés représenter ce que voit la machine12.

Figure 1. Exemple d'une page d'1 the Road : heure, vision machinique et texte généré par le système Wordcar

Image

L’ensemble est donc considérablement fragmenté, seulement tenu par la ligne – fine – menée par le trajet de la voiture (non autonome) entre Brooklyn et la Nouvelle-Orléans, seul élément imprimant une diégèse à l’ensemble du texte de Goodwin. Car le texte, sinon, se propose davantage comme une succession de courtes narrations de trois à six lignes (jamais plus de sept), offrant une vue d’ensemble tronquée du voyage, forcément limitée par les « sens » choisis pour le système. Ces courts paragraphes n’ont de lien les uns avec les autres que dans leur forme, dans le canevas de départ choisi par les programmeurs. Aux pages 73-74, on peut ainsi lire une succession (qui provient de la génération pseudo-aléatoire qui lance chaque génération) de deux paragraphes débutant par l’énoncé de l’heure : “It was eleven forty-one in the morning… The faces of the boys were […]” ; “It was eleven forty-two in the morning, the cold was like a pair of painted bars […]” : cette structure, proposée par le programmeur, se retrouve de nombreuses fois dans le texte, comme d’autres éléments tels que les données GPS (« 37.2757113 N, -77.391111171 W […] », p. 56, ou encore la structure d’énoncé d’un lieu tout de suite suivie d’une description (“95 South Spotsylvania : a moving target in Leavells Black Forest.”, p. 54, “Urban South Brewery : a brewery in New Orleans and a steamer and a children’s shoes […] ”, p. 135) qui sont monnaie courante dans l’ouvrage. Si « le babillage du cerveau artificiel de Wordcar [montre] des ressemblances troublantes » avec les textes ayant servi d’inspiration au projet (Sur la route, Acid Test, Las Vegas Parano, lesquels n’auraient toutefois selon l’auteur aucunement servi d’hypotextes pour l’entraînement des algorithmes utilisés13), le texte relève « plus du dada que de Brautigan [écrivain et poète américain de la contre-culture] » [McDowell, dans Goodwin, p. 25]. Autrement dit, le texte n’est ni cohérent ni pertinent d’un point de vue littéraire. Comme le confie McDowell, le texte de Goodwin advient par l’image, par la vue mécanique d’une caméra de surveillance : c’est elle qui, en capturant une image de son environnement toutes les vingt secondes (et en la traduisant de façon littérale, comme on le voit sur la capture ci-dessus), déclenche le processus d’écriture du texte. L’image est décrite, puis sert de matière à l’IA utilisée, ce qui signifie plus précisément qu’elle sert de base au « modèle », lequel est entraîné sur 200 œuvres littéraires. L’hybridité des données sources (ce mélange entre images, sons, position GPS, heure et textes) est donc conséquente, mais parmi ces dernières, les œuvres littéraires nous intéressent davantage que le reste. Malheureusement, leur liste n’est proposée nulle part dans l’ouvrage… Et il me semble que l’on peut assez légitimement penser que cette absence relève d’une stratégie artistique, et non d’un simple oubli. C’est que l’identité du texte doit être – ou plutôt, doit apparaître – comme la plus singulière et autonome possible. Ce point est sans doute une caractéristique majeure du type de texte « œuvre d’art » : la quête d’un tel statut limite en effet la publicisation quant aux hypotextes utilisés, dont la dépendance (stylistique, voire éventuellement sémantique, etc.) pourrait ternir la qualité de singularité, essentielle pour l’acquisition d’un statut d’œuvre d’art. À ce sujet, si le texte en lui-même est allographe de par sa publication, le processus (l’IA utilisée sur la voiture, voire l’ensemble avec la voiture elle-même) est lui bien autographe : comme pour Poet on the Shore, le « robot » à l’origine de l’œuvre pourrait lui-même faire l’objet d’une exposition (la décision de nommer le système « Wordcar » est à cet égard signifiante), même s’il ne faut pas y voir une règle, mais plus une incidence, ou une opportunité artistique saisie ou non par son auteur, en fonction du matériel utilisé pour la génération14. Un tel type de texte est donc tout à fait singulier, et largement distinct du texte édité que j’aimerais maintenant décrire.

Le texte édité : ReRites de David « Jhave » Johnston [2019]

Le texte édité est un type de texte généré pour lequel l’IA sert avant tout de méthode permettant de générer un premier jet, lequel sera (re)travaillé ensuite par un ou plusieurs auteurs. Il s’agit du type de texte le plus facilement assimilable à de la littérature classique – c’est-à-dire revêtant une véritable qualité littéraire15 – au sens où une réécriture et donc une éventuelle sémantisation du texte généré par IA interviennent postérieurement à sa génération, venant procurer un certain caractère diégétique à l’ensemble. ReRites de David « Jhave » Johnston (2018-2019) apparaît ainsi comme un exemple d’édition conséquente, relevant à proprement parler d’un travail d’écriture ou, pour être plus juste, de ré-écriture (l’écriture première, celle du premier jet, provenant du travail de l’IA)16. L’aspect éditorial de ce type de texte généré par apprentissage se manifeste ainsi notamment par le soin apporté à la composition du corpus d’hypotextes qui servira à l’entraînement du système. Dans le cas de ReRites, le système est entraîné sur un corpus d’hypotextes divers, modifié pour chacun des mois (donc singulier à chacun des recueils), approximativement composé d’environ 90 % de poésie contemporaine17, ainsi que de “10 % song lyrics, rap, science articles, tech terms and other internet detritus”, d’extraits d’ouvrages de Yuval Noah Harari, d’articles du New York Times ou de sites comme Aeon.co ou de DeepMind blog18. Il me semble que ce texte exemplifie particulièrement ce que l’on peut qualifier de littérature cyborg, hybride, soit une littérature dont l’écriture a été assistée par IA (et non supposément générée de façon quasi autonome). Le titre même de l’œuvre marque d’ailleurs le travail d’édition à venir : il annonce un programme (ré-écrire, ReRites), et garantit par là même aussi un intérêt non plus seulement pour le processus, mais aussi pour le texte lui-même. Cette intention d’édition se remarque également de façon récurrente dans le paratexte de ReRites. Dans les textes d’analyse intégrés à l’œuvre que nous avons pu consulter (dix textes représentant approximativement 79 pages), nombreux sont ceux qui tiennent pour acquis cette dimension d’édition du texte19, et reconnaissent par là même la qualité littéraire de l’ensemble. La première analyse critique, laquelle concerne les poèmes du mois d’octobre, est proposée par Kyle Booten et s’intitule “Harvesting ReRites”. Le vocable de la moisson, fréquent en informatique20, est utilisé pour indiquer l’autonomie du processus de production, les poèmes croissant seuls avant d’être moissonnés puis transformés par l’auteur-éditeur21. La critique de Mairéad Byrne “Light in July” rappelle de son côté que la sélection des éléments poétiques générés est une partie importante du processus d’écriture de ReRites, puisque les poèmes publiés ne représentent en proportion qu’un cinquième des hypotextes utilisés – la sélection apparaissant ainsi comme une partie fondamentale du processus éditorial22. De façon pertinente, l’article compare les différentes occurrences de termes entre les textes sources (les hypotextes) et le texte produit examiné23, cet examen des proportionnalités respectives indiquant également le travail éditorial conséquent entre les hypotextes et la version finale produite par Johnston. Plus clair encore quant au statut de texte édité qu’est ReRites, Lai-Tze Fan intitule son article “Symbiotic Authorship: A Comparative Textual Criticism of A.I.-Generated and Human-Edited Poetry”, actant par là même de la dimension fortement hybride, cyborg du texte produit. Dans la même lignée, Lai-Tze Fan, Allison Parrish et John Cayley reconnaissent le caractère profondément personnel de ReRites amené par le travail d’édition du texte. Fan note ainsi :

Jhave’s decisions to carve away much nonsense suggests a move away from arbitrary sweeps of language. Even if the machine sucks and sweeps, Jhave carve-writes with authorial intent. His is a voice that is not only playing within the chaos – this voice wants to mean what it says. [Fan, 2019, p. 61]

De son côté, Parrish mentionne que “ReRites is deeply personal. Regardless of whether or not it is biographical, the process of carving out the text is Jhave’s choice and reflects his linguistic sway” [Parrish, 2019, p. 63]. Enfin, Cayley indique que :

By the time that Jhave has intervened and edited or, perhaps, composed the output, the reader of ReRites (March) hears-and-understands an individual poetic voice in the text, one that is fully capable of sustaining extended, rhythmically coherent passages from the focus of a lyric “I”. [Cayley, 2019, p. 50]

Johnston remarque lui-même la spécificité de son travail d’écriture au travers du terme qu’il utilise pour la qualifier : to carve (sculpter). Il sculpte ainsi les fragments qui émergent du texte comme de la pierre : “[a]n hour or two of generated text could require over 60 hours of meditative cutting away of excess. I called it carving. A block of generated text, massive and incomprehensible, can exude the presence of solid stone” [Johnston, 2019, p. 78]. Comme Michel-Ange cherchant les aspérités et les rondeurs du bloc de marbre, respectant les fissures et les singularités de la roche choisie pour travailler, Johnston dépend de la substance de ce « matériau » que sont les textes générés. Ce sont eux qui conduiront son travail d’édition :

During the one year of ReRites’ creation, many of the poems I carved had the sense of remote dreams or warped aphorisms, collaged fragments or cryptic morsels. Most did not speak in a direct way to my life or my thoughts, yet the poems emerged as talismans, oracles, runes, and mirrors. [Johnston, 2019, p. 78]

On l’aura saisi, l’intérêt principal du texte édité est sa qualité littéraire propre, justement amenée par le travail d’édition de l’auteur sur le texte. Il en va différemment du texte appropriant, dernier segment de la typologie que je souhaiterais proposer ici.

Le texte appropriant : Proust_unlimited [Lebrun, 2018]

Le texte appropriant est un type de texte qui s’inscrit avant tout dans un rapport de référence avec le ou les textes sources (les hypotextes) utilisés pour l’entraînement des algorithmes ayant servi à sa génération. Le texte appropriant utilise la capacité d’appropriation stylistique des nouvelles technologies d’IA [Lebrun, 2018] afin de capter des éléments esthétiques des hypotextes pour en reproduire certains aspects, qui peuvent être résumés sous le terme générique de « style », terme se limitant par contre ici au champ lexical et à la forme syntaxique des hypotextes. Au contraire du texte édité ou du texte œuvre d’art, le texte appropriant ne souhaite pas s’extraire de ce paradigme d’appropriation ; il se présente toujours dans un rapport de référence aux hypotextes, ce qui l’inscrit assez logiquement dans le registre de la fan fiction24. Plusieurs exemples récents de textes appropriant permettront au lecteur de s’en convaincre.

Fondé sur la série des Harry Potter, Harry Potter and the Portrait of what Looked Like a Large Pile of Ash [Botnik Studio, 2018] est présenté comme un court chapitre (trois pages) généré par IA – les algorithmes étant entraînés sur les sept tomes rédigés par J. K. Rowling. Harry Potter and the Cream Cake of Dumbledore [Deutsch, 2016] est, quant à lui, un chapitre dont les algorithmes ont été entraînés cette fois sur les quatre premiers tomes de la saga. The Winds of Winter [Thoutt, 2017] se présente de son côté comme un ensemble de cinq chapitres générés par IA dont les algorithmes ont été entrainés sur les cinq premiers ouvrages de la série Game of Thrones de Georges R. R. Martin. Des sites comme Literai.com, ou des concours sur plateformes comme le NaNoGenMo (National Novel Generation Month) abritent également des dizaines de textes fondés sur les mêmes stratégies d’appropriation25.

Le premier élément qui saute aux yeux lors de l’examen de ces textes est que, contrairement aux textes œuvres d’art et aux textes édités, les textes appropriant ne font généralement pas l’objet de publications papiers26. Il y a sans doute plusieurs raisons à cela ; la plus évidente est que toute maison d’édition dotée d’un éditeur un minimum responsable – et a fortiori toute maison d’édition dotée d’un service juridique – serait bien peu avisée de publier des textes violant ouvertement le droit d’auteur et certaines de ses composantes. De fait, ces textes appropriant sont essentiellement en ligne. Que ce soit sur des plateformes dédiées, sur GitHub ou sur des sites personnels importe finalement peu : leur disponibilité sur les réseaux, en plus de les rendre accessibles gratuitement au plus grand nombre, permet une publication extensive. Et du reste, le texte appropriant est de loin le type de texte généré par IA le plus fréquemment rencontré… Aspect qui dépend très vraisemblablement d’un double facteur : à la fois celui de la publication en ligne (aucun filtre d’édition n’intervient) et à la fois celui de la dimension de fan fiction, qui pousse de nombreux lecteurs à souhaiter utiliser les capacités appropriantes de l’IA pour générer des textes à partir de leurs auteurs ou héros préférés, qu’il s’agisse d’un test (simple jeu avec les algorithmes, pour les programmeurs souhaitant s’entraîner sur des cas de traitement automatique du langage naturel [TALN]), d’une écriture assimilable à celle des fan fictions ou, plus vraisemblablement, d’un mélange des deux.

En guise d’exemple, j’aimerais m’attarder sur un texte intitulé Proust_unlimited, que j’ai généré en suivant le protocole proposé sur le site Literai.com. J’ai ainsi entraîné un réseau de neurones récurrents de type LSTM (pour Long Short-Term Memory) sur un corpus d’hypotextes comprenant la totalité des œuvres de La recherche du temps perdu de Marcel Proust27. Le texte produit, disponible sur deux plateformes différentes28, approprie une grande partie des éléments stylistiques de Proust, principalement d’ordre lexical et syntaxique. Le texte peut (doit ?) ainsi être vu comme le fruit d’une génération probabiliste à partir de La recherche. Cet exemple – en plus d’illustrer certains des éléments préalablement mentionnés au sujet de la typologie du texte appropriant – montre également une dimension notable des textes générés par IA, soit la relative « pureté » (le terme plus correct serait celui d’« identité », au sens d’unicité) des hypotextes utilisés pour l’entraînement des algorithmes. L’inscription dans le registre de la fan fiction oblige en effet à une certaine reconnaissance de l’univers fictionnel approprié, ce qui ne peut se faire en diluant trop au cours du processus la matière première que constituent les hypotextes. Certains textes appropriant peuvent toutefois être des mélanges, mais ces derniers mettront généralement toujours en avant l’identité forte des hypotextes utilisés : A Noise Such as a Man Might Make [Läufer, 2018]29, est par exemple un hybride de La Route de Cormac McCarthy (2006) et Le vieil homme et la mer d’Hemingway (1952), tandis que The Fall of the House of Alice (Oliver, 2018) se nourrit sans vergogne de La chute de la maison Usher d’Edgar Alan Poe (1839) et de la moitié des Aventures d’Alice au pays des merveilles (1865). Les textes appropriant mélangent ainsi rarement des ouvrages de plus de deux auteurs distincts, afin de maintenir un certain degré de reconnaissance identitaire dans le texte généré. Cette appropriation sera revendiquée de différentes façons.

D’abord dans les titres des textes : les références pourront avoir trait à certains des personnages principaux appropriés, par exemple The Adventures of Cyborg Holmes [Sahai, 2017] ou les exemples précités de Harry Potter. Ils peuvent également être des références à des leitmotivs fréquents des textes appropriés (The Winds of Winter rappelle le fameux “Winter is coming” de la série des Game of Thrones) ou à l’auteur des textes, comme c’est le cas pour notre exemple Proust_unlimited. D’autres titres mélangent plusieurs de ces éléments, comme Pride, Sensibility and Emma… [Pittman, 2018], texte qui mélange trois ouvrages distincts de Jane Austen. Le paratexte marque logiquement à son tour l’appropriation. Pour l’auteur de The Winds of Winter, “[…] the network is able to learn the basics of the English language and structure of George R.R. Martin's style on its own” [Thoutt, cité par Hill, 2017]. De son côté, l’auteure d’Of Crying and Captains, Isadora Lamego, mentionne également combien elle est impressionnée par la manière dont son modèle a capturé le style de Jane Austen30. Mais c’est surtout dans le texte lui-même que l’appropriation, largement documentée et connue par les utilisateurs des techniques actuelles d’IA31, se révèle de la façon la plus pertinente. Dans l’exemple de Proust_unlimited, on retrouve par exemple les personnages de La recherche, qualifiés de façons parfois différentes : madame de Guermantes est ainsi nommée dans l’extrait que nous avons généré successivement de « Mme de Guermantes », puis de « la princesse de Guermantes » et enfin « la duchesse de Guermantes ». Le type de texte généré correspond également sans surprise au « roman » que représente La recherche. Le narrateur autodiégétique (non seulement témoin de l’action, mais aussi acteur de celle-ci) est ainsi constamment relevé (« Non seulement j’aurais… » ; « [v]ous dîtes qu’il me dit […] » ; « [q]ue si je ne lui demandais plus […] »). Le vocabulaire du texte appropriant reprend également certains des termes les plus couramment cités dans La recherche, mettant en évidence les préoccupations de l’auteur Proust : on trouve par exemple à la deuxième ligne de l’extrait les mots « nostalgie » et « souvenir ». Sans surprise, certaines phrases sont également d’une longueur conséquente : une de 192 mots, une autre de 156, chaque fois précédée ou suivie de phrases beaucoup plus courtes (28 et 29 mots pour la première, 13 et 44 pour la seconde), à l’image de l’hypotexte que constitue La recherche32. S’il ne faut pas oublier que le texte est avant tout un objet qui se développe dans le temps par l’effet même de la narration [Delbouille, 1972, p. 177], le texte généré présenté ici ne présente aucune diégèse (ou narration de bon sens, c’est-à-dire acceptable par un lecteur idéal), rendant inopérants bien des outils habituels de l’analyse littéraire. Il n’empêche, le texte appropriant apparaît bel et bien comme un type singulier, construit par l’outil qui le supporte avant tout comme une capture stylistique des hypotextes. La principale distinction avec les textes de fan fictions a alors surtout trait à l’absence d’une nécessaire maîtrise de l’univers fictionnel par l’utilisateur de la technologie, la tâche d’appropriation et de rédaction étant effectuée par la machine seule.

Conclusion

Au vu de la typologie présentée dans les lignes précédentes (le texte œuvre d’art, le texte édité et le texte appropriant), un certain nombre de conclusions émergent. La première est que l’intérêt textuel n’est généralement maintenu – à quelques exceptions près – que pour les textes découlant d’un travail de réécriture par un auteur humain (le texte édité, en somme). Pour le texte œuvre d’art, l’intérêt tient plutôt du processus de génération, tandis que pour le texte appropriant, l’intérêt tient plus du rapport aux hypotextes utilisés. Bien entendu, cette typologie est loin d’être rigide, et de nombreux éléments de discours (dans le paratexte, par exemple) permettent d’en effacer certaines frontières. Certains éléments d’édition de l’ouvrage Machine, Unlearning de Li Zilles [2018] pourraient par exemple pousser le chercheur à placer ce dernier dans la typologie du texte édité, alors que j’ai choisi de le présenter comme un texte œuvre d’art. De la même manière, des éléments de discours suffisamment maîtrisés autour de Proust_unlimited me permettraient de le présenter comme relevant du texte œuvre d’art33, alors que je l’ai présenté comme exemple du type de texte appropriant. Il est donc important de considérer la typologie proposée comme un ensemble de tendances mouvantes, sujettes à interprétations et forcément amenées à évoluer du fait des avancées technologiques à venir, et non comme un régime fixe, qui n’aurait que l’apparence de la rigueur mais viendrait en réalité scléroser l’analyse de pratiques aussi multiples que singulières. Une autre conclusion a trait à l’aspect fortement documentaire de ces œuvres, qui participent nettement du phénomène des œuvres-archives, selon le terme forgé par René Audet et Simon Brousseau [Audet & Brousseau, 2011]. En effet, l’utilisation d’hypotextes nécessairement intégrés dans les œuvres générées propose une appréhension inédite de leur conservation et de leur diffusion : des hypotextes réduits à leur expression statistique, excluant et intégrant dès lors des dimensions singulières de leurs identités ; en somme, des hypotextes « concentrés » selon les méthodes contemporaines d’apprentissage machine.

1 Pour faciliter la lisibilité de cet article, je me concentrerai uniquement sur cette définition anthropocentrique, fondée sur l’approche d’Alan

2 Soit la technique informatique donnant l’illusion du hasard, à partir d’une suite de chiffres établie au préalable.

3 Albert Ducrocq, tout d’abord, lorsqu’il s’interroge de façon quasiment rhétorique sur le fait de savoir : « [c]es suites de 0 et de 1

4 Jean-Pierre Balpe, qui a produit un grand nombre de textes générés automatiquement dans le courant de ces années-là, a assez largement décrit le

5 « Une manière simple de figurer ce renversement est de le caractériser comme le passage d’une machine hypothético-déductive à une machine inductive

6 Dans l’une des préfaces de ReRites [Jhave, 2019, p. 66], Allison Parrish décrit plus précisément le paramètre de température : “The word ‘

7 Cette qualification est une simplification, dans le sens où certains textes générés n’utilisent pas seulement des hypotextes comme matière, mais

8 Ce qui est un lieu commun de l’utilisation d’apprentissage machine pour la création textuelle – une situation potentiellement amenée à changer

9 « […] une caméra de surveillance fixée sur le coffre, un système GPS sur le toit (avec une base de données géographique à bord), un microphone pour

10 Il n’en est rien ; j’ai rapidement montré en introduction que de nombreux textes existent depuis les années 50-60, qui pourraient tout à fait se

11 Je m’attarderai peu sur l’utilisation malheureuse du terme “manuscript”, dont l’étymologie reste la même en français et en anglais : manu scriptus

12 Bien qu’aucun élément du paratexte ne l’explicite, une telle représentation fait fortement écho à l’esthétique de générique comme celui du film

13 Il faut toutefois le croire sur parole, les indications concernant les sources ayant servi à entraîner les algorithmes (les fameux 200 ouvrages

14 For the Sleepers in this Quiet Earth, par exemple, est simplement issu d’un ordinateur : si c’est bien le processus qui intéresse ici (et si le

15 Avec toutes les conséquences que cela implique, en termes de possibilité d’analyse et de réception notamment.

16 Un accès à l’ensemble de ReRites est disponible ici : < http://glia.ca/rerites/rerites_read_txt.html >. D’autres initiatives d’auteurs comme celle

17 Ces derniers provenant selon les indications de Johnston de sites comme Poetry Magazine, Jacket2, Capa, ABZ, Two River, NSU Creative Writing 323

18http://glia.ca/rerites/rerites_read_txt.html >. Pour produire ses premiers jets, Johnston indique sur son site faire appel à différentes techn

19 Afin d’en faciliter l’analyse, je suivrai l’ordre de ces textes proposé par les éditeurs d’Anteism Press dans la préface qu’ils m’ont

20 On parle ainsi de « moissonner » les données pour désigner une collecte massive d’informations.

21 “ […] another silent crop of almost-poems having reached their maturity, waiting to be nurtured and trimmed and further transformed into the poems

22 “ReRites (July) is approximately one-fifth the size of its source text. With an 80 % rejection rate, selection becomes poetics” [Byrne, 2019, p. 

23 “ReRites (July) inherits five of its top ten nouns from its source textes top ten: light, love, heart, time, and night. It’s no surprise that

24 J’ai indiqué en introduction que je souhaitais autant que possible limiter dans cet article mes références à la question de l’autorité des textes

25 Un aperçu peut en être obtenu sur les sites Literai.com ou sur la plateforme GitHub abritant le concours NaNoGenMo.

26 Le cas particulier de Just this Once [French, 1993] doit être mentionné ici : ce texte (publié par les éditions Carol Publishing Group) où

27 Les hypotextes en question sont les sept ouvrages suivant : Du côté de chez Swann, À l’ombre des jeunes filles en fleur, Le côté de Guermantes

28 Soit le site < https://www.literai.com/ > ainsi que mon site personnel, < http://www.culturia.info/ >.

29 Il s’agit là d’un exemple de texte appropriant publié par une maison d’édition.

30 “A Jane Austen book has a certains styles, a certains flairs for both the underrated and the dramatic. I was certainly impressed with how this

31 Jon McCormack, Olivier Bown et Alain Dorin expliquent ainsi que les algorithmes vont ni plus ni moins « encoder » l’esthétique de l’œuvre

32 La technique de génération étant fondée sur un régime de probabilités et non de moyennes statistiques, le texte appropriant n’est pas fondé sur

33 Je pourrais ainsi imaginer un discours expliquant qu’alors que toute l’œuvre de Proust est fondée sur l’idée de mémoire et celle de souvenir, l’

Bibliography

Audet, R. (2015). « Écrire numérique : du texte littéraire entendu comme processus ». Itinéraires LTC (Paris-13). Dossier « Textualités numériques » dirigé par Paveau M.-A., 2014-1. < https://journals.openedition.org/itineraires/2267 >.

Audet, R. et Brousseau, S. (2011). « Pour une poétique de la diffraction de l’œuvre littéraire numérique : l’archive, le texte et l’œuvre à l’estompe ». Protée. Dossier « Esthétiques du numérique », vol. 39, n° 1, p. 9-22. < https://www.erudit.org/fr/revues/pr/2011-v39-n1-pr5004899/1006723ar/ >.

Audry, S. (2019). For the Sleepers in this Quiet Earth. Boston & New York, États-Unis: BadQuarto, p. 272-282.

Balpe, J.-P. (1991). « Macro-structures et micro-univers dans la génération automatique de textes à orientation littéraire ». In L’imagination informatique de la littérature, Colloque de Cerisy, Saint-Denis, France : Presses universitaires de Vincennes, p. 128-149.

Baudot, J. (1964). La machine à écrire. Montréal, Canada : Éditions du jour, 95 p.

Bhatnagar R. (2018). Encomials: Sonnets from Pentametron, Counterpath, 72 p.

Bootz, Ph. (2013). « Un historique de la génération numérique de textes ». < www.ieeff.org/f18bootz.pdf >.

Botnik Studio. (2018). Harry Potter and the Portrait of what Looked Like a Large Pile of Ash.https://botnik.org/content/harry-potter.html >.

Bouchardon, S. (2014). La valeur heuristique de la littérature numérique. Paris, France : Hermann, 344 p.

Bouchardon, S. (2015). « Recherche, ingénierie, création artistique : processus, prototypes, productions ». Hermès, La Revue, p. 187-197.

Braffort, P. et Joncquel-Patris, J. (1995). « ALAMO, une expérience de douze ans ». In Littérature et informatique : la littérature générée par ordinateur. Arras, France : Artois Presses université, p. 171-188.

Brunet, É. (1981). « La phrase de Proust. Longueur et rythme ». Travaux du cercle linguistique de Nice, p. 97-117.

Cardon, D., Cointet, J.-Ph. et Mazières, A. (2018). « La revanche des neurones – L’intention des machines inductives et la controverse de l’intelligence artificielle ». Réseaux, vol. 5, n° 211, p. 173-220.

Carter, R. A. (2018). “Waves to Waveforms: Performing the Thresholds of Sensors and Sense-Making in the Anthropocene”. Arts, 7 (4), 70, 15 p. < https://www.mdpi.com/2076-0752/7/4/70 >.

Delbouille, P. (1972). « L’analyse textuelle ». Études littéraires, 5 (2), p. 169-187. < https://doi.org/10.7202/500235ar >.

Deutsch, M. (2017). Harry Potter and the Cream Cake of Dumbledore. < https://www.literai.com/story/2dd7d9c1c7 >.

Ducrocq, A. (1953). L'ère des robots. Paris, France : Julliard, 287 p.

Funkhouser, Ch. T. and Baldwin, S. (2007). Prehistoric digital poetry: an archaeology of forms, 1959-1995. Tuscaloosa, États-Unis: The University of Alabama Press, 376 p.

French, S. (1993). Just this Once. New York, États-Unis: Birch Lane, 295 p.

Goodwin, R. (2018). 1 the Road. [Français, Anglais]. Paris, France : Jean Boîte Éditions, 143 p.

Guadamuz, A. (2017). “Do androids dream of electric copyright? Comparative analysis of originality in Artificial Intelligence generated works”. Intellectual Property Quarterly, 19 p.

Haugeland, J. (1985). Artificial Intelligence: The Very Idea. Cambridge, États-Unis: MIT Press, 299 p.

Henrickson, L. (À paraître). “Authorship in Computer-Generated Texts”. New York, États-Unis: Oxford Research Encyclopedia of Literature.

Henrickson, L. (2018). “Computer-Generated Fiction in a Literary Lineage: Breaking the hermeneutic contract”. Logos, vol. 29, n° 2-3, p. 54-63.

Henrickson, L. (2019). Towards a New Sociology of the Text: The Hermeneutics of Algorithmic Authorship. Thèse de doctorat, Loughborough University.

Johnston, D. (À paraître). ReRites, 2018-2019. Outremont, Canada: Anteism Press.

Lamego, I. (2016). Of Crying and Captains. < https://www.literai.com/story/fa2d1de33f >.

Lebrun, T. (2018). « L’apprentissage machine est une appropriation ». Cahiers de propriété intellectuelle, vol. 30, n° 3, p. 895-924.

Lebrun, T. (2018). Proust_unlimited. < http://www.culturia.info/litterature/ >.

Lebrun, T. (2017). “Who Is the Artificial Author?” In Mouhoub M., Langlais P. (éds.), Advances in Artificial Intelligence. Canadian AI 2017. Lecture Notes in Computer Science, Springer, vol. 10233, p. 411-415.

Liu, Y. (2017). Poet on the Shore. < http://liuyuxi.xyz/portfolio/items/poet-on-the-shore/ >.

Lutz, T. (1959). Stochastische Texte. < https://auer.netzliteratur.net/0_lutz/lutz_original.html >.

Mccormack, J., Bown, O., Dorin, A. et al. (2014). “Ten questions concerning generative computer art”. Leonardo. vol. 47, n° 2, p. 7. < http://jonmccormack.info/wp-content/uploads/2012/10/TenQuestionsV3.pdf >.

Montfort, N. (2018). Hard West Turn. Boston & New York, États-Unis: BadQuarto, 320 p.

Nillson, N. J. (2010). The Quest for Artificial Intelligence, A History of Ideas and Achievements, Cambridge, États-Unis: Cambridge University Press, 580 p.

Pittman, L. (2018). Pride, Sensibility and Emma…https://github.com/NaNoGenMo/2018/issues/81 >.

Richaudeau, F. (1980). « 248 phrases de Proust ». Communication et langages, n° 45, p. 17-38.

Saemmer, A. (2006). « Le prévisible et l’imprévisible dans la littérature programmée ». Formules 10, Littérature numérique et caetera, Noesis, p. 117-129.

Saemmer, A. (2007). « Littératures numériques : tendances, perspectives, outils d’analyse. ». Études françaises, n° 3, p. 111-131. < https://www.erudit.org/en/journals/etudfr/2007-v43-n3-etudfr1895/016907ar/abstract/ >.

Saemmer, A. (2015). « Réflexions sur les possibilités d’une recherche-création désinstrumentalisée ». Hermès, n° 72, p. 198-205.

Sahai, S. (2017). The Adventures of Cyborg Holmes. < https://www.literai.com/story/99504aa3f9 >.

Sobel, B. (2017). “Artificial Intelligence’s Fair Use Crisis”. Columbia Journal of Law & the Arts, 49 p.

Strachey, Ch. (1954). Love Letters. < http://black2.fri.uni-lj.si/humbug/files/doktorat-vaupotic/zotero/storage/3DHUAH3I/muc.html >.

Thoutt, Z. (2017). The Winds of Winter. < https://github.com/zackthoutt/got-book-6/tree/master/generated-book-v1 >.

Turing, A. (1950). “Computing Machinery and Intelligence”, Mind: A Quaterly review of Psychology and Philosophy, vol. 59, n° 236, p. 433-460.

Turner, J. (2018). Robot Rules: Regulating Artificial Intelligence, New York, États-Unis: Springer, 400 p.

Winston, E. (2018). Boring Tales from Tiny Places. https://github.com/NaNoGenMo/2018/issues/85 >.

Notes

1 Pour faciliter la lisibilité de cet article, je me concentrerai uniquement sur cette définition anthropocentrique, fondée sur l’approche d’Alan Turing dans son article “Computing Machinery and Intelligence” de 1950. Pour d’autres définitions, notamment rationalistes, voir [Turner, 2018] ou [Nilsson, 2010].

2 Soit la technique informatique donnant l’illusion du hasard, à partir d’une suite de chiffres établie au préalable.

3 Albert Ducrocq, tout d’abord, lorsqu’il s’interroge de façon quasiment rhétorique sur le fait de savoir : « [c]es suites de 0 et de 1 auraient-elles pu être aussi obtenues en jouant à pile ou face ? » avant de conclure « Assurément. » [Ducrocq, 1953, p. 262]. Roberta Iadevaia ne dit pas autre chose, lorsqu’elle rappelle que l’auteur Nanni Balestrini, auteur des Tape Marks de 1962 “ […] clarifies that his works could have been made without devices.” [Iadevaia, 2018, p. 96].

4 Jean-Pierre Balpe, qui a produit un grand nombre de textes générés automatiquement dans le courant de ces années-là, a assez largement décrit le procédé qu’il a lui-même mis en œuvre [Balpe, 1991].

5 « Une manière simple de figurer ce renversement est de le caractériser comme le passage d’une machine hypothético-déductive à une machine inductive. […] Ce qui était conçu comme la partie « humaine » de la fabrication des calculateurs, le programme, les règles ou le modèle, n’est plus ce qui est introduit dans le système, mais ce qui en résulte. » [Cardon et al., 2018, p. 3] L’article explique par la suite de façon très explicite le changement de nature entre les anciennes technologies symbolistes et les nouvelles technologies connexionnistes.

6 Dans l’une des préfaces de ReRites [Jhave, 2019, p. 66], Allison Parrish décrit plus précisément le paramètre de température : “The word ‘temperature’ in the context of neural networks refers to a parameter to the softmax function, which affords control over the way probabilities associated with each vocabulary item are weighted. A lower temperature parameter makes already unlikely outcomes even less likely, and is equivalent to a winner-takes-all strategy as it approaches zero; whereas the higher the temperature goes, the more the probabilities are made to resemble a uniform distribution in which any outcome is just as likely as any other”.

7 Cette qualification est une simplification, dans le sens où certains textes générés n’utilisent pas seulement des hypotextes comme matière, mais aussi d’autres types de données (GPS, par exemple). C’est le cas d’1 the Road, pour ne citer que lui.

8 Ce qui est un lieu commun de l’utilisation d’apprentissage machine pour la création textuelle – une situation potentiellement amenée à changer rapidement au vu des avancées les plus récentes. L’association de recherche à but non lucratif OpenAI a ainsi rendu semi-public au mois de février 2019 un modèle de langage intitulé GPT-2, lequel obtient des résultats de génération textuelle suffisamment cohérents (du moins pour une lecture superficielle) pour donner l’apparence de la cognition, et d’une maîtrise du langage. Les choses sont probablement amenées à évoluer dans cette direction dans les mois et les années à venir, ce dont une recherche en cours doit évidemment tenir compte sans pour autant verser dans le prospectif.

9 « […] une caméra de surveillance fixée sur le coffre, un système GPS sur le toit (avec une base de données géographique à bord), un microphone pour capter les conversations à l’intérieur de la voiture, et une horloge. Chacune de ces données a fourni aux réseaux de neurones artificiels des points de départ narratifs : une image à transcrire en texte, un lieu à décrire, une ligne de dialogue à développer ou simplement l’heure de la journée. » [Goodwin, 2018, p. 13].

10 Il n’en est rien ; j’ai rapidement montré en introduction que de nombreux textes existent depuis les années 50-60, qui pourraient tout à fait se qualifier comme étant des œuvres générées par IA.

11 Je m’attarderai peu sur l’utilisation malheureuse du terme “manuscript”, dont l’étymologie reste la même en français et en anglais : manu scriptus, selon le Littré, soit « écrit à la main » ou, dans le latin médiéval du XIe siècle, « charte, acte dont la signature fait foi ». Or non seulement le texte n’est pas écrit à la main – c’est tout son intérêt, diront certains –, mais il est surtout impossible de lui porter foi par l’attribution d’une seule signature, puisque sa constitution même, passant par l’appropriation de textes, dilue l’idée même d’autorité (et donc d’une identité claire mise en évidence par une signature).

12 Bien qu’aucun élément du paratexte ne l’explicite, une telle représentation fait fortement écho à l’esthétique de générique comme celui du film Matrix [Wachowski, 1999], lui-même inspiré du générique du film Ghost in the Shell [Oshii, 1995].

13 Il faut toutefois le croire sur parole, les indications concernant les sources ayant servi à entraîner les algorithmes (les fameux 200 ouvrages utilisés) ne sont proposées ni dans l’édition papier, ni même sur GitHub alors que Goodwin offre tout de même à disposition de tout un chacun les modèles utilisés.

14 For the Sleepers in this Quiet Earth, par exemple, est simplement issu d’un ordinateur : si c’est bien le processus qui intéresse ici (et si le texte sert avant tout de preuve à ce dernier), la démarche n’est pas particulièrement mise en avant dans la version de l’œuvre que j’ai pu consulter. Par contre, le statut d’objet d’art que revêt le livre (numéroté, en production limitée et vendu 160 dollars) participe clairement d’une revendication de type « livre œuvre d’art ».

15 Avec toutes les conséquences que cela implique, en termes de possibilité d’analyse et de réception notamment.

16 Un accès à l’ensemble de ReRites est disponible ici : < http://glia.ca/rerites/rerites_read_txt.html >. D’autres initiatives d’auteurs comme celles de Milton Läufer ou de Robin Sloan s’inscrivent dans cette même dynamique d’édition, mais selon des modalités différentes. Voir “Do Bots Worry About Writer’s Block?” < http://www.miltonlaufer.com.ar/digresiones/digresiones.php?lang=es&texto=subject > ainsi que “Writing with the Machine” < https://www.robinsloan.com/notes/writing-with-the-machine/ >.

17 Ces derniers provenant selon les indications de Johnston de sites comme Poetry Magazine, Jacket2, Capa, ABZ, Two River, NSU Creative Writing 323, voir < http://glia.ca/rerites/rerites_read_txt.html >.

18http://glia.ca/rerites/rerites_read_txt.html >. Pour produire ses premiers jets, Johnston indique sur son site faire appel à différentes technologies développées par Google (Tensorflow), Facebook (PyTorch) ou encore SalesForce (AWSD). Cette utilisation, commune au milieu de la créativité computationnelle qui s’intéresse à la génération de textes, ne va évidemment pas sans soulever nombre d’enjeux, notamment politiques, que nous n’avons malheureusement pas la place de traiter ici. Sur ce sujet, on pourra toutefois se référer à l’article d’Alexandra Saemmer, « Réflexions sur les possibilités d’une recherche-création désintrumentalisée » [Saemmer, 2015] ainsi qu’aux actes en ligne du colloque de Cerisy « Art, littérature et réseaux sociaux » (voir < https://art-et-reseaux.fr/ >).

19 Afin d’en faciliter l’analyse, je suivrai l’ordre de ces textes proposé par les éditeurs d’Anteism Press dans la préface qu’ils m’ont gracieusement fournie. Cet article ayant été rédigé avant leur publication, il est possible que cet ordre ainsi que les numéros de pages indiqués, soient différents de ceux indiqués dans la version finale de l’éditeur.

20 On parle ainsi de « moissonner » les données pour désigner une collecte massive d’informations.

21 “ […] another silent crop of almost-poems having reached their maturity, waiting to be nurtured and trimmed and further transformed into the poems ready for human consumption” [Booten, 2019, p. 10].

22 “ReRites (July) is approximately one-fifth the size of its source text. With an 80 % rejection rate, selection becomes poetics” [Byrne, 2019, p. 24].

23 “ReRites (July) inherits five of its top ten nouns from its source textes top ten: light, love, heart, time, and night. It’s no surprise that ReRites (July) and its source text are closely related” [Byrne, 2019, p. 25].

24 J’ai indiqué en introduction que je souhaitais autant que possible limiter dans cet article mes références à la question de l’autorité des textes générés. En effet, cette question mériterait un questionnement conséquent, et qui excéderait largement le cadre de cet article. Voir toutefois [Lebrun, 2017] ainsi que [Henrickson, “Authorship in Computer-Generated Texts”, à paraître].

25 Un aperçu peut en être obtenu sur les sites Literai.com ou sur la plateforme GitHub abritant le concours NaNoGenMo.

26 Le cas particulier de Just this Once [French, 1993] doit être mentionné ici : ce texte (publié par les éditions Carol Publishing Group) où typiquement il y a tentative.

27 Les hypotextes en question sont les sept ouvrages suivant : Du côté de chez Swann, À l’ombre des jeunes filles en fleur, Le côté de Guermantes, Sodome et Gomorrhe, La Prisonnière, Albertine disparue et Le temps retrouvé.

28 Soit le site < https://www.literai.com/ > ainsi que mon site personnel, < http://www.culturia.info/ >.

29 Il s’agit là d’un exemple de texte appropriant publié par une maison d’édition.

30 “A Jane Austen book has a certains styles, a certains flairs for both the underrated and the dramatic. I was certainly impressed with how this model was able to capture the tone of an Austenian novel – while reading it I could genuinely feel the British wit creeping into me”. < https://www.literai.com/story/fa2d1de33f >.

31 Jon McCormack, Olivier Bown et Alain Dorin expliquent ainsi que les algorithmes vont ni plus ni moins « encoder » l’esthétique de l’œuvre originelle dans l’œuvre générée, un terme repris par de nombreux auteurs [McCormack, et al., 2014, p. 7]. Pour Benjamin Sobel, les algorithmes d’apprentissage « découvrent » les structures internes des œuvres et reproduisent leurs caractéristiques, à tel point qu’on pourrait qualifier ces caractéristiques de « personnalité » [Sobel, 2017, p. 14]. À propos d’un générateur de poèmes de Raymond Kurzweil, Roger Schank et Christopher Owens mentionnent “ [it is] provided with an input file of poems written by a human author or authors. It analyzes these poems and creates a word-sequence model based on the poems it has just read.”, les poètes en question étant T.S. Eliot, Percy Shelley et William Carlos Williams [Schank & Owens, 1991, p. 374]. Andrés Guadamuz explique également à propos du générateur de Kurzweil : “[It] reads an extensive selection of poems from an author, and then uses a type of neural network algorithm to produce recursive poetry that can achieve the language style, rhythm patterns, and poem structure of the original authors” [Guadamuz, 2017, p. 2].

32 La technique de génération étant fondée sur un régime de probabilités et non de moyennes statistiques, le texte appropriant n’est pas fondé sur des moyennes constantes mais plutôt sur des occurrences probables. Un rapide examen des statistiques des hypotextes nous en convaincra : selon Éric Brunet, la phrase proustienne moyenne contient ainsi 31 mots [Brunet, 1981, p. 104] tandis que pour François Richaudeau, la phrase proustienne moyenne en contiendrait 43 [Richaudeau, 1980, p. 21] – l’analyse de Richaudeau étant partielle, on se rapportera avec plus de confiance à celle proposée par Brunet, qui porte, elle, sur l’ensemble de La recherche. Mais l’œuvre de Proust comporte, tout comme Proust_unlimited, des phrases présentant des écarts importants (la plus longue phrase de La recherche contiendrait ainsi 521 mots, le texte étant pourtant également égrené de nombreuses phrases courtes). Pousser l’analyse plus loin serait cependant manquer un peu l’objet de la réflexion que je souhaite développer ici.

33 Je pourrais ainsi imaginer un discours expliquant qu’alors que toute l’œuvre de Proust est fondée sur l’idée de mémoire et celle de souvenir, l’utilisation de technologies probabilistes fait du texte Proust_unlimited une projection dans le futur du souvenir proustien, le faisant survenir selon des modalités inconnues auparavant. La stratégie permettrait alors de flouter le statut de texte appropriant, en faisant potentiellement plus un texte œuvre d’art.

Illustrations

Figure 1. Exemple d'une page d'1 the Road : heure, vision machinique et texte généré par le système Wordcar

Figure 1. Exemple d'une page d'1 the Road : heure, vision machinique et texte généré par le système Wordcar

References

Electronic reference

Tom Lebrun, « Pour une typologie des œuvres littéraires générées par intelligence artificielle », Balisages [Online], 1 | 2020, Online since 24 février 2020, connection on 23 octobre 2020. URL : https://publications-prairial.fr/balisages/index.php?id=304

Author

Tom Lebrun

Juriste et doctorant en littérature à l’Université Laval

Copyright

CC BY SA 4.0