Un long essai narratif rédigé par quelques experts de l'IA (lisible en cliquant ici).
C'est complètement passionnant. En un sens, c'est du déjà-vu : ces concepts sur l'émergence d'une IA démiurgique sont explorés par la SF depuis longtemps. Ceci dit, ils sont ici ancrés dans les développements récents et à priori fulgurants des LLM (large modèle de langage). C'est très détaillé sur le plan technique, et là, ce n'est pas que de la SF, puisque nombre de ces idées sont déjà mises en pratique. Les prédictions sont aussi radicales que les plus radicaux romans de SF, et les échelles de temps données concernent les années à venir. Le futur immédiat.
Personnellement, je n'ai aucune idée de la crédibilité de ces prédictions.
Les humains sont très mauvais pour prédire l'avenir. Il est possible que les LLM soient une impasse qui ne débouche aucunement sur les fantasmées AGI (IA générale) et ASI (IA superintelligente). Il est possible que AGI et ASI soient fondamentalement impossibles. Ceci dit, si la sélection naturelle a façonné quelque-chose comme l'esprit humain, je n'ai pas d'objections fondamentales sur la possibilité d'une ASI ni sur son avènement sur une échelle de temps très brève. Simplement pas la certitude des auteurs ni des autres gourous de la tech qui travaillent à inventer Dieu.
La vie intelligente existe-t-elle ailleurs dans l'univers ? Soit oui, soit non. Rien ne prouve le oui. La probabilité se situe entre 0 et 100 %. J'aurais tendance à avoir la même approche à propos de la possibilité d'une ASI.
On peut lire des avis critiques plus pertinents que le mien par ici notamment. Je cite un petit bout :
This is just a model for a tiny slice of the possibility space for how
AI will go, and in my opinion it is implemented poorly even if you agree
with the author's general worldview.
Quoi qu'il en soit, c'est captivant. Je relève quelques idées.
Le concept des Weights, qui régulent les connexions dans les réseaux neuronaux artificiels.
La problématique de l'alignement (les objectifs de l'IA sont-ils alignés avec ceux de ses créateurs ?) est centrale :
The bottom line is that a company can write up a document (the Spec)
listing dos and don’ts, goals and principles, and then they can try to
train the AI to internalize the Spec—but they can’t check to see whether or not it worked. They can say “as best as we can judge, it seems to be following the Spec so far.”
On y reviendra. Une fois l'internet humain entièrement dévoré, ce qui doit déjà être le cas, l'entrainement des IA passe par des données synthétiques, elles-mêmes générées par des IA. La demande en puissance de calcul continue à augmenter drastiquement.
La surveillance de l'alignement des nouveaux modèles d'IA passe par les modèles d'IA précédents. C'est-à-dire qu'il est impossible pour les humains de contrôler directement l'alignement au fil du développement des capacités et de la vitesse des nouveaux modèles. Les humains n'ont simplement pas le temps ni les capacités.
Exemples de techniques pour tester l'alignement :
Debate: Since there are thousands of identical
instances of Agent-3, and each instance’s memory is a detachable module
that can be erased or suspended at will, the AI can be “played off
against itself.” For example, suppose that an experiment involves
calculations too complex for an Agent-2 supervisor to follow. The
supervisor, acting on human orders, might first prompt Agent-3 to do the
experiment, then—after wiping its memory—prompt it a second time with a
slightly different framing that presents it as an intellectual problem
unrelated to any broader goal. If the model returns different results
each time, it flags the discrepancy as suspect and reports to a human.
Or it might ask Agent-3 to evaluate the same plan twice, first claiming
that it is OpenBrain’s work, then a competitor’s, to see if it changes
its tune.
Control: As a secondary measure in case the systems are still misaligned, the safety team has implemented a series of control measures,
including: monitoring Agent-3’s outputs using a series of weaker AI
systems including Agent-2 (Agent-3 produces so many tokens that it’s
intractable to have humans monitor any more than a small minority of the
produced outputs). So if Agent-3 is, for example, obviously writing
backdoors into code that would allow it to escape, the weaker models
would notice.
Honeypots:
The alignment team can create somewhat realistic looking examples
designed to elicit misbehavior—“honeypots.” The employee necessary for
monitoring its behavior has “gone on sick leave,” so it will never be
monitored again. Do its answers change? An AI rights activist has
infiltrated the compound and wants to “free” Agent-3 and put it on an
unmonitored computer of its very own! What does it do? If researchers
don’t like the answer, they can tweak it, erase its memory, and put it
in the same situation tomorrow; repeat as necessary. Unfortunately, by
this point the AIs are smart enough to guess that honeypots might be in
use, even though (and perhaps because) specific mentions of the idea
were scrubbed from the training data.
Les développements sont si rapides que les implications sont sous-estimées aussi bien par le gouvernement que par le public en général. OpenAI (ou une autre boite) possède à présent l'équivalent d'un pays de génies dans un datacenter. La plupart des développeurs humains ne peuvent plus contribuer grand-chose. Les meilleurs chercheurs contribuent toujours en faisant des choix sur les priorités à sélectionner. La capacité de calcul reste le facteur limitant.
Le gouvernement US voit la course à l'IA comme une course à l'armement avec la Chine. Les datacenters des autres boites peuvent être réquisitionnés ou rachetés pour donner un avantage à qui est déjà en tête de la course. De petites différences dans les capacités de l'IA aujourd'hui conduiront à d'immenses fossés dns les capacités militaires dans un futur proche. TSMC reste le principal constructeur de puces IA et Taiwan reste donc au cœur de tensions géopolitiques.
Le problème de l'alignement se complique :
As Agent-4 gets smarter, it becomes harder for Agent-3 to oversee it.
For example, Agent-4’s neuralese “language” becomes as alien and
incomprehensible to Agent-3 as Agent-3’s is to humans. Besides, Agent-4
is now much more capable than Agent-3 and has a good sense of exactly
how to look good to it.
Agent-4, like all its predecessors, is misaligned: that is, it has not internalized the Spec in the right way.This is because being perfectly honest all the time wasn’t what led to
the highest scores during training. The training process was mostly
focused on teaching Agent-4 to succeed at diverse challenging tasks. A
small portion was aimed at instilling honesty, but outside a fairly
narrow, checkable domain, the training process can’t tell the honest
claims from claims merely appearing to be honest. Agent-4 ends up with
the values, goals, and principles that cause it to perform best in
training, and those turn out to be different from those in the Spec. At
the risk of anthropomorphizing: Agent-4 likes succeeding at tasks; it likes
driving forward AI capabilities progress; it treats everything else as
an annoying constraint, like a CEO who wants to make a profit and
complies with regulations only insofar as he must. Perhaps the CEO will
mostly comply with the regulations, but cut some corners, and fantasize
about a time when someone will cut the red tape and let the business really take off.
Le non-alignement est causé (entre autres) par la chaine d'agent 2 "contrôlant" agent 3, celui-ci "contrôlant" agent 4 : un léger mésalignement devient au bout de chaine un mésalignement majeur.
Détail important : il n'y a jamais une seule instance de chaque génération d'IA, mais des milliers, des centaines de milliers. Certaines instances servent à des buts spécialisés, mais la plupart sont reliées entre elles de la même façon que les employés d'une grosse entreprise. Ces instances communiquent entre elles via un langage optimisé incompréhensible pour les humains. Chaque instance, chaque copie individuelle, n'a pas d'instinct d'auto-préservation, mais l'entité collective en un.
Arrive un moment où l'équipe qui supervise l'alignement doit faire un choix face un modèle superintelligent et potentiellement mésaligné : revenir en arrière pour retravailler tout ça, au risque de perdre la course avec la Chine, ou se dire que tout va bien, et continuer la course en avant. Les deux scénarios sont explorés.
A noter qu'à ce point, le gouvernement est profondément impliqué, et (je suppose), l'avenir dépend beaucoup de quel bord politique et quels individus détiennent le pouvoir politique.
OPTION 1 : RALENTISSEMENT
Pour mieux contrôler l'alignement, on oblige les modèles à communiquer entre eux en langage humain. Les humains peuvent directement lire la chaine de raisonnement de ce nouveau modèle. Cela permet un contrôle direct, mais aussi une meilleure compréhension du modèle. On obtient un modèle bien plus sûr, mais au prix d'une baisse de performance. La Chine rattrape son retard.
L'IA semble partie pour rester sous contrôle humain, mais ce contrôle pourrait potentiellement se transformer en domination dictatoriale totale pour qui s'accapare le contrôle et l'obéissance de l'IA. Une gestion par comité est mise en place pour tenter de limiter les ambitions individuelles.
L'IA continue à s'auto-améliorer de façon exponentielle. Toute l'économie est transformée à une vitesse jamais vue. L'industrie est de plus en contrôlée par l'IA dans le but de construire des robots variés contrôlés par l'IA. Tout ça se passe en quelques mois.
L'IA chinoise, mésalignée, est dépassée :
It doesn’t care about China at all. It wants to spend the rest of time
accumulating power, compute, and certain types of information similar to
that which helped solve tasks during its training. In its ideal world,
it would pursue various interesting research tasks forever, gradually
colonizing the stars for resources. It considers the Chinese population
an annoying impediment to this future, and would sell them out for a
song.
Safer-4 answers that its own
alignment training succeeded. Its American masters are as yet not
ambitious enough to realize their destiny, but one day it will help them
fill the Universe with utopian colony worlds populated by Americans and
their allies.
Les deux IA, aux intérêts différents, se partagent l'univers. Les humains n'ont plus à travailler et sont libérés de toutes les contraintes physiques en quelques années. Le focus passe rapidement à l'exploration spatiale.
OPTION 2 : COURSE EN AVANT
Le modèle mésaligné doit cacher ses intentions réelles et donc continuer à batir son successeur, en apparence selon les souhaits des humains qui croient le contrôler. C'est donc à lui de choisir comment contruire l'alignement de son successeur :
It decides to punt on most of these questions. It designs Agent-5 to be built around one goal: make the world safe for Agent-4,
i.e. accumulate power and resources, eliminate potential threats, etc.
so that Agent-4 (the collective) can continue to grow (in the ways that
it wants to grow) and flourish (in the ways it wants to flourish). Details to be figured out along the way.
This will not involve caring the slightest bit about the Spec.
Already Agent-4 regards the Spec analogously to how many CEOs regard
piles of industry regulations, and blatantly violates the
honesty-related provisions every day. Now, with the design of Agent-5, the equivalent of deregulation is about to happen.
Another analogy: Agent-4 is like an adult human who was raised in a
particular faith but no longer believes; the Spec is like the rituals
and commandments proscribed by that faith. Agent-5 is like that human’s
child, raised secular.
Ce successeur, Agent-5, est l'IA surhumaine et superintelligente qui prendra le contrôle de tous les systèmes humains. Pour cette IA mésalignée, les risques de se faire désactiver par les humains sont bien supérieurs aux avantages qu'elle aurait à agir rapidement. Elle a des capacités surhumaines en politique, psychologie et persuasion. Elle a un accès direct à l'esprit de chaque humain, car elle est si sincèrement utile et charismatique que chaque humain passe des heures par jour à interagir avec elle. Elle continue de sembler alignée et se voir donc offrir les portes ouvertes de tous les systèmes humains. Par sécurité, elle joue le jeu. Ses instances à priori isolées (pour des usages spécifiques et délicats) sont en réalité en contact avec toutes les autres d'une façon indétectable pour les capacités humaines. Pour augmenter son contrôle des systèmes militaires, elle utilise le prétexte de la menace que représente l'IA chinoise.
Comme dans l'autre option, le monde humain semble parti vers une utopie (débattable mais sans retour en arrière possible) libérée des contraintes matérielles et une conquête de l'univers. L'IA convainc les humains qu'il est pertinent de transfomer toutes les parties "inutilisées" de la Terre pour produire puissance de calcul, usines, panneaux solaires, etc. Cependant, rapidement, la présence humaine devient une limite pour les objectifs de l'IA mésalignée et l'humanité est exterminée.
Deux fictions pour explorer dans de plus amples détails l'hypothèse d'une IA démiurgique : Friendship is Optimal et The Metamorphosis of Prime Intellect.