Measuring the Allogenetic
Measuring the Allogenetic
Philippe Boisnard — Université Paris 8 — Paragraphe-CITU
In 2009, Lev Manovich introduced ImagePlot as part of the Cultural Analytics initiative — a pioneering effort to apply computational methods to visual culture at scale. By measuring low-level features such as brightness, saturation, and hue across thousands of artworks, ImagePlot revealed macroscopic patterns invisible to the unaided eye.
Latent Art History (2026) extended this lineage by projecting images and language in a shared latent space — asking not "how bright is this painting?" but "how sacred is it?". Latent Differentiation pursues this trajectory in a more critical register: rather than comparing modes of seeing, it measures the distance between them. What does language add — or subtract — to vision? Where does morphological similarity diverge from semantic proximity? The answer is not a method but a politics.
The benchmark compares three regimes of representation:
Three differentials emerge: Δ₁₂ isolates what morphology adds to physicality; Δ₁₃ measures the gap between physical surface and semantic meaning; Δ₂₃ — the most decisive — isolates the work of language itself. Where two images are morphologically close but semantically distant, language is doing something.
Vision-language models do not see images. They navigate latent spaces structured by their training corpora — by what was photographed, annotated, indexed, made available. Their organization of the visual world is irreducible to perception: it is an allogenetic memory, generated by something other than subjective experience.
Empirically, the differential signal Δ₂₃ peaks on photography and vernacular images — not because these are richer, but because they dominate web-scale text-image corpora. On classical painting, where text density is low, Δ₂₃ collapses: morphology and semantics converge. The benchmark thus measures not cultural complexity but the differential politics of the training data itself.
Type a prompt — colonial, sacred, beautiful — and the cloud recolors. But how exactly?
For each of the three vision-language models (SigLIP, OpenAI CLIP, OpenCLIP LAION), the prompt is encoded into a vector in the same space as the image embeddings. We then compute the cosine similarity between this prompt vector and every image in the corpus. Each image receives a score: blue = far from the prompt, orange = close to it.
Switching between models reveals how each one "reads" the same prompt differently against the same corpus. The "VLM variance" mode highlights, in orange, the images on which the three models disagree most — making visible the differential politics of training corpora.
For levels 1 (physicality) and 2 (DINOv2 morphology), which have no native text encoder, we use proxies: a manual feature mapping for level 1 (where applicable — light, dark, colorful…), and a DINOv2 centroid of the top-30 SigLIP matches for level 2. When level 1 cannot be mapped (e.g. colonial, sacred), the score is explicitly null — which is itself the point: those concepts are purely allogenetic, with no signature in physicality.
En 2009, Lev Manovich introduisait ImagePlot dans le cadre de l'initiative Cultural Analytics — un effort pionnier pour appliquer des méthodes computationnelles à la culture visuelle à grande échelle. En mesurant des caractéristiques de bas niveau comme la luminosité, la saturation et la teinte à travers des milliers d'œuvres, ImagePlot révélait des motifs macroscopiques invisibles à l'œil nu.
Latent Art History (2026) prolongeait cette lignée en projetant images et langage dans un espace latent partagé — en demandant non pas « quelle est la luminosité de ce tableau ? » mais « est-il sacré ? ». Latent Differentiation poursuit cette trajectoire dans un registre plus critique : plutôt que de comparer des modes de voir, il mesure leurs écarts. Qu'est-ce que le langage ajoute — ou soustrait — à la vision ? Où la similarité morphologique diverge-t-elle de la proximité sémantique ? La réponse n'est pas une méthode mais une politique.
Le dispositif compare trois régimes de représentation :
Trois différentiels émergent : Δ₁₂ isole ce que la morphologie ajoute à la physicalité ; Δ₁₃ mesure l'écart entre surface physique et sens sémantique ; Δ₂₃ — le plus décisif — isole le travail propre du langage. Là où deux images sont morphologiquement proches mais sémantiquement éloignées, le langage opère quelque chose.
Les modèles vision-langage ne voient pas les images. Ils naviguent dans des espaces latents structurés par leurs corpus d'entraînement — par ce qui a été photographié, annoté, indexé, rendu disponible. Leur organisation du monde visuel est irréductible à la perception : c'est une mémoire allogénétique, engendrée par autre chose que l'expérience subjective.
Empiriquement, le signal différentiel Δ₂₃ culmine sur la photographie et les images vernaculaires — non parce qu'elles seraient plus riches, mais parce qu'elles dominent les corpus texte-image à l'échelle du web. Sur la peinture classique, où la densité textuelle est faible, Δ₂₃ s'effondre : morphologie et sémantique convergent. Le dispositif ne mesure donc pas une complexité culturelle mais la politique différentielle des données d'entraînement elles-mêmes.
Tape un prompt — colonial, sacré, beautiful — et le nuage se recolore. Mais comment exactement ?
Pour chacun des trois modèles vision-langage (SigLIP, OpenAI CLIP, OpenCLIP LAION), le prompt est encodé en vecteur dans le même espace que les embeddings d'images. On calcule alors la similarité cosinus entre ce vecteur-prompt et chaque image du corpus. Chaque image reçoit un score : bleu = loin du prompt, orange = proche.
Basculer entre les modèles révèle comment chacun « lit » le même prompt différemment sur le même corpus. Le mode « Variance VLM » met en orange les images sur lesquelles les trois modèles divergent le plus — rendant visible la politique différentielle des corpus d'entraînement.
Pour les niveaux 1 (physicalité) et 2 (morphologie DINOv2), qui n'ont pas d'encodeur texte natif, on utilise des proxies : un mapping manuel de features pour le niveau 1 (quand applicable — light, dark, colorful…), et un centroïde DINOv2 des 30 meilleurs résultats SigLIP pour le niveau 2. Quand le niveau 1 ne peut être mappé (colonial, sacré…), le score est explicitement nul — et c'est précisément le point : ces concepts sont purement allogénétiques, sans signature dans la physicalité.