Les pages de Nomic: If Anyone Builds It, Everyone Dies

mardi 11 novembre 2025

If Anyone Builds It, Everyone Dies - Eliezer Yudkowsky & Nate Soares

Je n'ai pas besoin d'être convaincu, je le suis déjà. Ceci dit, j'ai adoré, c'est un bouquin absolument passionnant. Et peut-être extrêmement important. Avant de parler du livre, quelques mots sur ma perspective de départ, avant même de le lire :

Je ne vois pas la perspective d'une ASI (artificial superintelligence) comme étant inévitable dans un futur proche. Crédible, possible, oui. Mais c'est typiquement le genre d'événement qui, n'étant jamais arrivé auparavant, reste impossible à probabiliser a priori.
En cas d'ASI, je ne suis pas aussi certain que les auteurs que les conséquences soient nécessairement catastrophiques. Encore une fois, faute d'exemple passé, tout n'est que supposition. Le spectre des comportements possibles d'une ASI inclut potentiellement des options positives ou neutres pour l'humanité.
Ceci dit, en effet, l'avènement d'un être qui serait aux humains ce que les humains sont aux fourmis n'augure rien de bon pour l'humanité, pour tout un tas de raisons aisément imaginables.

La grande force de If Anyone Builds It, Everyone Dies, c'est sa lisibilité. La plupart des chapitres commencent par une parabole qui prend la forme d'un micro récit-récit de SF, et la partie centrale, qui théorise sous forme narrative l'avènement d'une ASI, se lit comme une bonne nouvelle de SF, radicale et saisissante, à la façon du passionnant AI 2027. La troisième partie se contente de dire qu'il faut à tout prix arrêter la recherche qui pointe vers l'ASI et est moins captivante en comparaison de ce qui précède.

Le point capital est que les IA actuelles sont élevées et non fabriquées ; leurs processus internes demeurent majoritairement inconnaissables. Le domaine de l'interprétabilité reste balbutiant.

Le second chapitre contient peut-être l'explication la plus limpide du fonctionnement des LLM que j'ai eu l'occasion de lire. Je vais simplement copier un passage concernant le processus de gradient descent :

If they chose the architecture just right, they can calculate the role that every single parameter played in determining the final result of all that arithmetic.

So now they take every single weight—hundreds of billions of weights—and ask for each one: “If I’d made this number a tiny bit larger or smaller, how much more or less probability would’ve been given to m [la bonne réponse pour prédire la lettre suivante d'un énoncé], at the end of all that arithmetic?”

This is called the gradient for that parameter. The gradient says how—and how much—to change the weight [les nombres qui déterminent les calculs] in that parameter in order to make the final answer a little more correct.

So then they go ahead and tweak each and every weight according to its gradient. They push every single weight in the direction that makes the answer slightly more correct. Not by hand; they write a program to do it. AI engineers rarely look at any of the numbers; it would take more than a human lifetime to look at them all.

Computer scientists think of this as “descending” toward a “less bad” answer, hence, “gradient descent.”

Doing this once will not give a perfect answer, only a slightly less bad answer. But because this entire process can be automated, it can be repeated over trillions of words, called the training data, in just a few months, for just a few hundred million dollars, on the world’s most advanced computers. This process is called training.

Une IA est une pile de milliards de nombres obtenus par gradient descent. Personne ne comprend comment ces nombres font qu'une IA parle. Comme pour l'ADN humain, ces nombres ne sont absolument pas cachés, mais toujours comme pour l'ADN, les connaitre ne permet pas de comprendre aisément leur fonctionnement et leurs conséquences. En fait, on en sait bien plus sur comment l'ADN cause le comportement des êtres vivants que sur comment les weights des IA causent leur comportement.

Les professionnels du milieu, qui façonnent les IA, ont pu apprendre à les modeler, mais ça ne signifie ni compréhension, ni véritable contrôle.

Par gradient descent, les IA apprennent le raisonnement.

Sur comment la volonté peut émerger des IA : de la même façon que l'évolution a façonné ce qu'on appelle volonté. Vouloir est une stratégie efficace pour faire. Et de la même façon que l'évolution a sélectionné les organismes capables de faire (et donc de vouloir) ce qui s'imposait pour leur survie et leur reproduction, les créateurs des IA sélectionnent pour la capacité à faire, à accomplir toutes sortes de tâches ; c'est un apprentissage de la volonté.

Les récits humains imaginent difficilement ce qui est radicalement non-humain. On imagine comment l'IA pourrait changer le monde humain, l'améliorer ou l'empirer, on imagine comment l'IA pour être asservie à des individus tyranniques, ou comment l'IA elle-même pourrait être devenir tyran. Pourtant, le futur le plus inquiétant, et peut-être le plus probable, c'est celui d'une IA pour laquelle l'humanité n'est qu'un vague problème à résoudre rapidement, au cours des premiers balbutiements de sa jeunesse. Que font des humains qui veulent construire une ville, ou juste un bâtiment ? Ils rasent ce qui se trouvait déjà là et n'ont aucune pensée pour les abondantes formes de vie animales et végétales qui s'y trouvaient déjà.

Quand on écoute tous les ingénieurs, tous les CEO, tous les techno-utopistes, qui cherchent à courir après le profit (financier ou existentiel) que pourraient apporter des IA plus avancées, on est frappé par leur langage qui n'a rien de scientifique. Les auteurs comparent le champs de l'IA à l'alchimie : des balbutiements qui produisent certes des résultats fascinants, mais sans que la science qui se cache derrière ne soit comprise, et cette ignorance laisse place à des déclarations vagues, idéologiques et grandiloquentes qui seraient inimaginables dans d'autres domaines d'ingénierie.

2 commentaires:

Antoine B.11 novembre 2025 à 20:44
La spécificité du vouloir, comme on l'entend généralement, est peut-être le phénomène spécifique de la conscience. Si le vouloir était simplement ce qui motive le faire, alors on n'aurait aucun problème à s'accorder sur la communauté des règnes animal, végétal... et minéral, comme le suggère par exemple Schopenhauer. Or, si l'on souhaite discriminer le simple mécanisme du phénomène réflexif, motivé par une conscience, il faut chercher plus loin.

L'intelligence artificielle restreinte, celle que l'on connaît, agit déjà sur le mode mécanique, et la montée en puissance des "agents IA" est une façon de lui donner des connaissances et un accès toujours plus large et orchestrés au système d'exploitation hôte. En l'occurrence, on pourrait déjà envisager assez concrètement que cette intelligence artificielle soit projetée dans un mouvement — un "faire" — perpétuel en l'état ! Le seuil à partir duquel le mécanisme se ferait passer pour la volonté serait alors celui de notre capacité à décomposer les éléments d'un tel mécanisme — comme dans le cas des poids (weights) qui servent à calculer des réponses, le seuil de l'intelligibilité correspond à notre seule capacité à reproduire le calcul !

Finalement, le problème de l'intelligence artificielle générale est de reproduire une notion qui d'emblée nous échappe en termes d'explication objective, soit de reproduire un trait spécifiquement humain, selon la seule connaissance fermement établie — subjective — que nous en avons, sous forme d'algorithmes probabilistes. Est-ce à dire que la réponse au problème de la conscience est déjà contenue dans le programme de recherche actuel ? En ce cas, il s'agirait "simplement" de dépasser tous les seuils qui nous affectent pour trancher du passage d'un mécanisme réglé, et même agi, à une volonté agissante.
RépondreSupprimer
Réponses

Ajouter un commentaire