Homogénéité et hétérogénéité dans la création par IA
Cela fait maintenant un an que se répandent sur internet et surtout les réseaux sociaux, des créations visuelles générées par IA (Intelligence artificielle) selon le modèle du CLIP (Contrastive Language–Image Pre-training), à savoir, d’un énoncé (prompt) générant une image. Plusieurs types de logiciels on été donnés de VQGAN-clip,à pitty, de disco-diffusion à Dall.
Il est possible maintenant de réfléchir à une forme de typologie des emplois. Notamment, parce que des créateurs comme Grégory Chatonsky, Yann Minh ou bien Etienne Mineur, entre autres, ont eux-même définis les usages qu’ils en faisaient.
L’usage majeur qui est fait de ce type d’IA fait ne tient pas tant à la recherche de l’imprédictibilité du résultat, mais comme l’exprime parfaitement Yann Minh, à la substitution d’une incompétence par une compétence ordonnée à la génération de l’IA. L’IA vient remplacer une praxis que ne possède pas le créateur afin de permettre une poiesis de l’image : la capacité à illustrer. L’IA est pensée dès lors comme prothèse, augmentation, médiation. La recherche tend à créer le plus possible selon ce que recherche l’imagination du créateur : l’IA est déterminée comme illustratrice, exécutante. C’est en ce sens que Yann Minh crée les personnages de ses romans, leur donne visage.
Dans cette démarche l’imprédictibilité de ce qui survient n’est pas recherchée pour elle-même, elle n’est pas questionnée en tant que processus, même si elle n’est pas non plus ignorée, elle est considérée comme un moyen qui doit tout à la fois surprendre et obéir à l’horizon fixé par le prompt. La puissance propre à l’IA doit correspondre à une attente conceptuelle (celle du prompt) du créateur. Certes, il y a coopération, mais le créateur reste dans la logique du pilotage qui commande une exécution. L’IA est alors un instrument, dont on est pas interrogél’être propre. On est dans une logique proprement cybernétique, au sens que lui confère Aristote originellement : celle du commandement.
Une seconde démarche, parait être davantage celle de Grégory Chatonsky par exemple : celle de l’imprédictibilité du résultat du à l’espace latent de l’IA. Dans le prolongement de ses recherches, ce qu’il questionne n’est pas tant la représentation ou le résultat surréaliste (même si ce terme a été présent et déterminant dans ses premières recherches) que certaines formes de mutation de la forme propres à l’imagination machine plus que l’imaginaire machine. Cette distinction à mon sens est nécessaire. La première démarche recherche l’imaginaire machine, à savoir le résultat du processus. Alors que cette deuxième démarche dans laquelle, je me situe aussi, questionne l’imagination artificielle ou plus précisément l‘imaginer artificiel : le processus et les mécanismes de la machine en tant qu’elle génère de l’image. Comment est constitué un dataset ? Comment se fabrique à partir de bruit de perlin ou bien d’autres images par exemple une image par un processus de GAN (Generative adversarial networks) ? Quelle différence y a t il entre recombiner des formes et constituer une forme par approximation statistique ? Il ne s’agit plus seulement d’utiliser l’IA en tant qu’outil, mais de se questionner en relation à ce qu’elle pose comme réalité algorithmique.
Pour ma part c’est ce qui m’avait amener – à partir de mes propres recherches – à réfléchir sur la question de la différence de la mémoire entre celle de l’IA et celle de l’être humain et à réfléchir sur l’impossibilité du corps ou encore une nouvelle forme d’organologie, au sens où la mémoire la machine ne me semblait aucunement liée à une expérience de corps (Leib) mais à une la computation statistique de l’apprentissage profond. C’est en ce sens que je posais davantage la question du pararéalisme de la création de l’IA, que celle du surréalisme. Ce sur que semble aussi indiqué Grégory Chatonsky par exemple dans cet article où il insiste sur la question du parallélisme des mondes.
Cet horizon, où une forme de dialogue avec les possibles du logiciel est instauré entre le créateur humain et l’ensemble des possibles algorithmiques, est alors ouvert à l’imprédictible de la forme en tant qu’imprédictible pour notre mémoire de monde. La notion de prompt se détache du premier usage. Le prompt ne sera plus prescription, au sens d’une intention qui commande et doit décider, mais par approximation, il questionnera la constitution tout à la fois de la réalité latente possible par le dataset (liaison entre images et catégories linguistiques), mais aussi la manière dont algorithmiquement « l’induction statistique » (Chatonsky) opère. Car en effet, il n’y a qu’à expérimenter avec un même prompt : VQGAN, DISCO ou DALL, pour s’apercevoir qu’il y a des différences spécifiques entre les trois IA, quant à la génération.
Une troisième voie de recherche peut être établie, et elle constitue une part importante de mon travail : celle d’une accidentlité ontologique de la matière générée par l’IA. Lorsque l’on regarde les images générées, et d’autant plus avec les différents logiciels DALL qui circulent depuis peu à la suite d’open-AI, il y a une forme d’homogénéité matérielle qui n’exclue aucunement d’ailleurs une imprédictibilité de la forme. Les images se révèlent dans une forme d’unité ontologique de la matière. Certes elles peuvent être surréalistes, ou bien heroic Fantasy ou SF, mais il y a toujours une forme de simplicité ontologique de la matière, une réduction de la différence. Je n’ai quasi jamais observé de complexité ontologique de la matière dans les créations faites par les IA. Chaque image semble obéir à une détermination qui commande l’ensemble du rendu. C’est ce qui ressort d’ailleurs parfaitement avec les lettrages d’Etienne Mineur et qu’il a lui-même remarqué : chaque lettrage est fait dans un style : mais ce style est d’abord et avant tout une forme d’homogénéité de la matière, de la texture.
Cette homogénéité à mon sens provient de deux spécificités : la forme est privilégiée par rapport à la matière au niveau du prompt. Et deuxièmement, l’IA n’est pensée que comme un simple outil d’exécution, une application, et non pas selon une forme d’expérimentation de ses possibles de texture. C’est en ce sens que beaucoup de création par IA vont même spécifier la référence à un artiste ou bien un mouvement artistique pour créer le rendu. Ce qui est permis spécifiquement avec VQGAN, Disco Diffusion ou bien Pitty entre autres.
Il est évident que pour créer au sein d’une seule image une variation matérielle créant une véritable hétérogénéité, il s’agit de penser l’IA non plus comme une simple application, mais comme un ensemble de potentialités au niveau programmation avec lesquelles il faut entrer en dialogue afin d’en comprendre certains mécanismes, notamment quant à son travail de rendu. Il s’agit de comprendre comment ’opèrent entre autres les différents settings de matrice de rendus (vitB32, vitB16, RN50), de jouer avec, la notion de récurrence, etc… Mais aussi comment s’établit la logique de prompt, non plus du point de vue de la forme mais du possible de la texture et ainsi de laisser apparaître dans ce dialogue avec les potentialités de la machine des possibles, non pas de formes mais de matières. C’est en grande partie la direction que je tente de suivre en la liant la deuxième démarche décrite.
——————————————————————————————————————
It’s been a year now that visual creations generated by AI (Artificial Intelligence) according to the CLIP (Contrastive Language–Image Pre-training) model have been spreading on the Internet and especially on social networks, namely, a statement (prompt ) generating an image. Several kinds of software were donated from VQGAN-clip, to pitty, from disco-diffusion to Dall. It is now possible to think about a form of job typology. In particular, because creators like Grégory Chatonsky, Yann Minh or even Etienne Mineur, among others, have themselves defined the uses they made of it.
The major use that is made of this type of AI is not so much the search for the unpredictability of the result, but as Yann Minh perfectly expresses it, the substitution of an incompetence by a skill ordered to the generation of AI. AI comes to replace a praxis that the creator does not have in order to allow a poiesis of the image: the ability to illustrate. AI is therefore thought of as a prosthesis, augmentation, mediation. Research tends to create as much as possible according to what the creator’s imagination seeks: AI is determined as an illustrator, an executor. It is in this sense that Yann Minh creates the characters of his novels, gives them a face.
In this approach, the unpredictability of what happens is not sought for itself, it is not questioned as a process, even if it is not ignored either, it is considered as a means which must both surprising and obeying the horizon fixed by the prompt. The power specific to the AI must correspond to a conceptual expectation (that of the prompt) of the creator. Admittedly, there is cooperation, but the creator remains in the logic of piloting which commands an execution. AI is then an instrument, whose very being we are not questioned. We are in a strictly cybernetic logic, in the sense originally given to it by Aristotle: that of command.
A second approach, seems to be more that of Grégory Chatonsky for example: that of the unpredictability of the result due to the latent space of AI. In the extension of his research, what he questions is not so much the representation or the surrealist result (even if this term was present and determining in his first research) as certain forms of mutation of the form specific to the machine imagination more than machine imagination. This distinction, in my opinion, is necessary. The first approach seeks the machine imaginary, namely the result of the process. While this second approach in which I also find myself, questions the artificial imagination or more precisely the artificial imagination: the process and the mechanisms of the machine as it generates the image. How is a dataset made? How is it made from pearl noise or other images, for example an image by a GAN process (Generative adversarial networks)? What is the difference between recombining shapes and constituting a shape by statistical approximation? It is no longer just a question of using AI as a tool, but of questioning oneself in relation to what it poses as algorithmic reality.
For my part, this is what led me – from my own research – to reflect on the question of the difference in memory between that of AI and that of human beings and to reflect on the impossibility of the body or even a new form of organology, in the sense that the memory the machine seemed to me in no way linked to an experience of the body (Leib) but to a statistical computation of deep learning. It is in this sense that I posed more the question of the pararealism of the creation of AI, than that of surrealism. This is what Grégory Chatonsky also seems to indicate, for example in this article where he insists on the question of the parallelism of the worlds.
This horizon, where a form of dialogue with the possibilities of the software is established between the human creator and all the algorithmic possibilities, is then open to the unpredictability of the form as unpredictable for our memory of the world. The notion of prompt stands out from the first use. The prompt will no longer be a prescription, in the sense of an intention that commands and must decide, but by approximation, it will question the constitution both of the latent reality possible by the dataset (link between images and linguistic categories), but also the way in which algorithmically “statistical induction” (Chatonsky) operates. Because indeed, you only have to experiment with the same prompt: VQGAN, DISCO or DALL, to realize that there are specific differences between the three AIs, as far as generation is concerned.
A third way of research can be established, and it constitutes an important part of my work: that of an ontological accidentality of matter generated by AI. When we look at the images generated, and all the more so with the various DALL software programs which have recently been circulating following open-AI, there is a form of material homogeneity which in no way excludes a unpredictability of form. The images are revealed in a form of ontological unity of matter. Certainly they can be surreal, or heroic fantasy or SF, but there is always a form of ontological simplicity of matter, a reduction of difference. I have almost never observed any ontological complexity of matter in the creations made by AIs. Each image seems to obey a determination that controls the whole rendering. This is what comes out perfectly with the lettering of Etienne Mineur and which he himself noticed: each lettering is done in a style: but this style is first and foremost a form of homogeneity material, texture.
This homogeneity in my opinion comes from two specificities: the form is privileged compared to the material at the level of the prompt. And secondly, AI is only thought of as a simple execution tool, an application, and not as a form of experimentation with its possible textures. It is in this sense that many AI creations will even specify the reference to an artist or an artistic movement to create the rendering. What is allowed specifically with VQGAN, Disco Diffusion or Pitty among others.
It is obvious that to create within a single image a material variation creating a real heterogeneity, it is a question of thinking of AI no longer as a simple application, but as a set of potentialities at the programming level with which it is necessary to enter into a dialogue in order to understand certain mechanisms, in particular with regard to its rendering work. It is a question of understanding how the different rendering matrix settings (vitB32, vitB16, RN50) operate, among other things, to play with, the notion of recurrence, etc… But also how the logic of prompt is established, either from the point of view of the form but of the possible of the texture and thus to let appear in this dialogue with the potentialities of the machine of the possibilities, not of forms but of materials. This is largely the direction I am trying to follow by linking it to the second approach described.