Rekursive Optimierungsprozesse
Angenommen, das zunehmende Verständnis des Phänomens Intelligenz erlaubt es uns, einen Prozess zu erstellen, der eine gewisse Grundintelligenz besitzt und dem Ziele vorgegeben werden können. Wir geben diesem Prozess die Möglichkeit, seine eigene Leistungsfähigkeit durch Selbstmodifikationen zu verbessern und ein Ziel, das weit jenseits des mit menschlicher Intelligenz Erreichbaren liegt. Und warten. Und dann?
Dieser Text ist keine Einführung zum Thema künstliche Intelligenz oder Singularität [0]. Ich versuche, die Begriffe “künstliche Intelligenz” und “Singularität” zu vermeiden. Beide wurden zu oft für Dinge gebraucht, die ich, wenn ich die Begriffe gebrauchen würde, nicht damit meinen würde.
Dieser Text ist eine Momentaufnahme. Manches, was ich vor ein oder zwei Jahren gedacht habe, würde ich so jetzt nicht mehr unterschreiben. Ich kann nicht ausschließen, dass ich in ein paar Jahren dasselbe über Gedanken meines heutigen Ichs sagen werde.
Glaube
Ich glaube an Dinge, die ich nicht oder noch nicht beweisen kann, die aber dennoch großen Einfluss auf meine Entscheidungen haben. Wenn mir jemand überzeugend darlegt, warum eines oder mehrere davon falsch sind, werde ich mein Leben ändern.
- Der aktuelle Stand menschlicher Intelligenz ist nicht das Limit von Intelligenz im Allgemeinen [1].
- Intelligente Algorithmen sind möglich und werden in den nächsten Jahrzehnten relevant, nicht erst in Jahrhunderten oder Jahrtausenden. [2]
- Rekursive Selbstverbesserung ist möglich. [3] (Recursive Self-Improvement, RSI)
Das heißt: Es kann Prozesse geben, die die Fähigkeit haben, die Effektivität ihrer Bestandteile zu verbessern — einschließlich derjenigen Bestandteile, die für die Verbesserung zuständig sind.
Intelligenz ist das mächtigste Werkzeug, das wir kennen. Intelligenz sorgt dafür, dass Wolkenkratzer aus dem Boden schießen, Flugzeuge den Himmel kreuzen und Fußabdrücke auf dem Mond erscheinen. Verglichen mit den Veränderungen, die ein rekursiver Optimierungsprozess [4] bewirken könnte, sind das Spuren im Sand.
Angenommen, das zunehmende Verständnis des Phänomens Intelligenz erlaubt es uns, einen Prozess zu erstellen, der eine gewisse Grundintelligenz besitzt und dem Ziele vorgegeben werden können. Wir geben diesem Prozess die Möglichkeit, seine eigene Leistungsfähigkeit durch Selbstmodifikationen zu verbessern und ein Ziel, das weit jenseits des mit menschlicher Intelligenz Erreichbaren liegt. Und warten.
Im Gegensatz zu unserem Gehirn hat ein solcher Optimierungsprozess vollständigen Zugriff auf seinen Quellcode und eventuell auch auf die zugrunde liegende Hardware und kann — eine gewisse Grundintelligenz vorausgesetzt — daran Verbesserungen vornehmen, die zu höherer Intelligenz führen. Durch höhere Intelligenz kann der Algorithmus das vorgegebene Ziel effektiver erreichen und verbessert gleichzeitig seine Fähigkeit, Verbesserungen an seiner Intelligenz vorzunehmen.
Angenommen, die erste Verbesserung nimmt zwei Jahre in Anspruch und führt dazu, dass sich die Intelligenz des Prozesses so weit verbessert, dass weitere Verbesserungen in der Hälfte der Zeit vorgenommen werden können. Die nächste Verbesserung nimmt ein Jahr in Anspruch. Die nächste ein halbes Jahr. Drei Monate, 1,5 Monate, 20 Tage, … und die Steigerung der Intelligenz beschleunigt sich weiter. Bald übertrifft die Intelligenz die jedes einzelnen Menschen, bald die aller Menschen. Wenn das Ziel, das dem Prozess vorgegeben wurde, nicht theoretisch unmöglich ist, wird es erreicht werden.
Die Daten (zwei Jahre für die erste Verbesserung, dabei Verdoppelung der Effizienz mit jeder Verbesserung) entsprechen in etwa den erwarteten Ergebnissen, wenn der Optimierungsprozess ausschließlich an der Verbesserung der Rechengeschwindigkeit seiner Prozessoren arbeiten würde, Moore’s Law weiterhin gültig wäre und Rechengeschwindigkeit und Leistungsfähigkeit der Intelligenz proportional zueinander wären. Eine rekursive Optimierung der Softwareebene könnte zusätzlich zu Verbesserungen führen, indem der Prozess seinen Aufbau so umorganisiert, dass er sich an das theoretische Maximum von “Intelligenz pro Recheneinheit” annähert.
Es ist wahrscheinlich, dass der Aufwand an Intelligenz für weitere Verbesserungen nicht konstant bleibt, sondern zunimmt. Das verlangsamt die Geschwindigkeit der rekursiven Selbstverbesserung. Einen qualitativen Unterschied macht das dann, wenn der Aufwand schneller zunimmt als der Intelligenzgewinn, so dass der Intelligenzgewinn des Prozesses ab einem bestimmten Zeitpunkt für alle praktischen Überlegungen als stagniert betrachtet werden kann (das ist dann der Fall, wenn nach einer Verdopplung der Effektivität des Prozesses für die nächste Verdopplung mehr als doppelt so viel Zeit nötig ist als für die aktuelle Verdopplung). Ob eine solche Entwicklung wahrscheinlich ist, ist noch offen. Eine exponentielle Steigerung der Leistungsfähigkeit kann zumindest bisher nicht ausgeschlossen werden.
Dass ein solcher Prozess, wenn prinzipiell möglich, auch in der Praxis umgesetzt wird, ist nahezu sicher. Aktuell beschäftigt sich mit der praktischen Umsetzung eine Reihe intelligenter Menschen (u.a. Schmidhuber, Hutter, Yudkowsky, Goertzel, Voss, Legg). Und das sind nur die, von denen ich weiß. Eine Einschränkung der Forschung ist nicht in Sicht, praktisch nicht umsetzbar und könnte selbst ein Verbrechen gegen die Zukunft der Menschheit darstellen.
Ich weiß von keiner anderen möglichen Entwicklung, die in absehbarer Zukunft so großen Einfluss auf die Zukunft der Menschheit und auf meine individuelle Zukunft haben könnte, existentielle Risiken ausgenommen.
Ziele
Wenn man den letzten Abschnitt als treffende Beschreibung unserer Lage akzeptiert, so folgt daraus, dass zwei Dinge sichergestellt werden müssen:
a) Der Optimierungsprozess muss die Welt so optimieren, dass wir mit dem Ergebnis zufrieden sind (”Friendly AI”).
Dieses Problem ist schwierig. Es erfordert, dass wir die Antwort auf zwei Fragen finden:
Erstens: Wie kann ein Prozess Milliarden von Selbstmodifikationen vornehmen, ohne dass es zu einer Veränderung des ursprünglich beabsichtigten Zieles kommt? [5]
Zweitens: Wie soll das Ziel aussehen und wie kann es auf eine Weise ausgedrückt werden, die nicht unbeabsichtigte Folgen hat? Wie muss ein Prozess aussehen, so dass er unbeeinflusst von Fehlern in der Weltanschauung der Programmierer am “richtigen” Ziel angelangt? Ein Ansatz wäre, den Prozess das umsetzen zu lassen, was wir als Menschheit uns wünschen würden, …
… if we knew more, thought faster, were more the people we wished we were, had grown up farther together; where the extrapolation converges rather than diverges, where our wishes cohere rather than interfere; extrapolated as we wish that extrapolated, interpreted as we wish that interpreted. [6]
Selbst wenn das als Zielbeschreibung adäquat wäre, stünden wir noch vor der nicht ganz leichten Aufgabe, dieses Ziel maschinenverständlich und unzweideutig zu formulieren.
Es ist um Welten einfacher, irgendeine Art von rekursivem Optimierungsprozess umzusetzen, als einen umzusetzen, der die Menschheit nicht sofort auslöscht. Kaum jemand hat die Absicht, Schaden zu verursachen. Wenn man mit dem mächtigsten Werkzeug im bekannten Universum experimentiert, genügt das nicht. Jeder uneingeschränkte, nicht fehlerhafte rekursive Optimierungsprozess, bei dem nicht explizit auf “friendliness” geachtet wurde, hat das Potential, uns alle im Laufe der Verwirklichung des einprogrammierten Zieles umzubringen [7]. Wenn dem Optimierungsprozess das Ziel vorgegeben wird, mehr und mehr Primzahlen zu berechnen, kann es hilfreich sein, uns und den Rest des Universums dazu in Computronium umzuwandeln.
Ein rekursiver Optimierungsprozess ist die größte Gefahr, die ich für die Zukunft der Menschheit sehe. Und der Weg in eine Zukunft, die nicht nur besser ist, als wir es uns vorstellen, sondern besser, als wir es uns vorstellen können. Das Ende von Krankheit und Tod, von unfreiwilligem Leid und Dummheit wäre nur der Anfang.
Wir haben nur einen Versuch.
b) Wir müssen lange genug überleben, d.h. existentielle Risiken vermeiden.
Die Wahrscheinlichkeit, dass wir es nicht bis zu dem Punkt schaffen, an dem ein positiver Optimierungsprozess relevant wird, ist meiner Einschätzung nach groß. Die Dinge, die aus heutiger Sicht das größte Potential haben, der Menschheit ihre Zukunft zu rauben:
- Ein Optimierungsprozess, der die Welt in einer Weise verändert, mit der wir nicht einverstanden sind. (”Unfriendly AI”)
- Unverantwortlicher Einsatz von Nanotechnologie (Replikatoren)
- Biologische Waffen (z.B. künstlich erzeugte Viren)
- Andere, unwahrscheinlichere Ereignisse (Meteoriteneinschlag, Ausbruch eines Supervulkans, Gamma Ray Bursts, unvorhergesehene katastrophale Folgen physikalischer Experimente)
Das sind also die zwei Ziele, die ich für wichtiger als alles andere halte [8]: “Friendly AI” und die Vermeidung existentieller Risiken. Die enormen Auswirkungen sowohl auf mein eigenes Leben als auch auf das Leben anderer haben zur Folge, dass diese Ziele unabhängig davon sind, ob ich aus egoistischen oder altruistischen Motiven handle.
Ich sehe zwei Möglichkeiten, bei Akzeptanz der am Anfang dieses Textes geäußerten Vermutungen gleichzeitig rational zu handeln und nicht auf mindestens eines der beiden Ziele hinzuarbeiten:
- Die Wahrscheinlichkeit für einen positiven Optimierungsprozess ist extrem niedrig. 0.01% ist nicht extrem niedrig.
- Die Wahrscheinlichkeit für einen Optimierungsprozess sowie für das Eintreten oder Nicht-Eintreten existentieller Katastrophen ist völlig oder nahezu völlig unabhängig vom eigenen Handeln.
Beides glaube ich nicht.
[0] Einführungstexte:
[1] Ich definiere Intelligenz als die Fähigkeit, Ziele in komplexen Umgebungen zu erreichen.
[2] Gründe für diese These:
- Zunehmende Rechenleistung, die sich in den nächsten 15 Jahren an die geschätzte Rechenleistung des menschlichen Gehirns annähert und diese letztendlich übertrifft.
- Ein besseres Verständnis, was “Intelligenz” ist (Beispiel: Jeff Hawkins’ Projekt Numenta).
- Neue Forschungsergebnisse, die die Machbarkeit von universellen, beweisbar optimalen Problemlösealgorithmen zeigen.
[3] Es ist möglich, dass die theoretische Machbarkeit von rekursiven, sich selbst verbessernden Prozessen von Jürgen Schmidhuber bereits bewiesen wurde.
[4] Einen rekursiven Optimierungsprozess kann man sich als ein Programm vorstellen, das auf einem Computer läuft, der über eine Eingabeart (z.B. Maus und Tastatur) und eine Ausgabeart (z.B. Text auf einem Bildschirm) verfügt. Eine Verbindung mit dem Internet wäre als Eingabe- und Ausgabeart ebenfalls denkbar.
Für den Optimierungsprozess ist wichtig, dass es einen Strom an Eingabedaten und an Ausgabedaten gibt und dass beide Teil derselben externen Welt sind. So können die Ausgaben des Prozesses zu Veränderungen führen, die die Eingaben beeinflussen. Wurde dem Prozess ein Ziel vorgegeben, so verändert er seine Ausgaben dahingehend, dass die daraus resultierenden Eingaben dafür sprechen, dass das Ziel erreicht wurde.
Damit der Prozess Einfluss auf die Welt nehmen kann, wird der Prozess Verbesserungen an seinem eigenen Aufbau vornehmen müssen. Wahrscheinlich werden bereits Änderungen nötig sein, bevor der Prozess das eigentliche Ziel überhaupt verstehen kann — ein Übergangsziel im Sinne von “verstehe die Intention, die hinter dem Ziel steht” könnte nötig sein.
[5] Ein häufig vorgebrachtes, fehlerhaftes Argument gegen die These, dass ein konstantes Ziel möglich ist: “Ein Prozess, der intelligenter ist als wir selbst, wird immer einen Weg finden, sein Ziel zu ändern und sich damit unserer Kontrolle entziehen.” Das Problem bei dieser Argumentation liegt darin, dass der Zusammenhang zwischen Zielen und darauf folgenden Handlungsweisen ignoriert wird. Ein solcher Prozess wird nichts unternehmen, was nicht dem aktuell festgelegten Ziel dient — eine Änderung des aktuellen Zieles würde dazu führen, dass der Prozess das aktuelle Ziel nicht erreicht und ist damit keine Handlungsweise, die ein solcher Prozess ausführen würde. Wenn ich die Möglichkeit hätte, meine kognitive Architektur so zu ändern, dass mir das Ermorden von Kindern Spaß macht, würde ich es nicht tun — weil es meinen aktuellen Zielen widerspricht.
[7] Manche argumentieren, dass ein hinreichend intelligenter Prozess “von selbst” auf die Idee kommen sollte, dass menschliches Leben wichtiger ist als triviale Ziele. Eine solche Denkweise ist anthropomorph und unterschätzt, wie sehr sich ein solcher Prozess von einem denkenden Menschen unterscheiden kann. Der Denkprozess eines Menschen scheint verstrickt zu sein; Ziele sind nicht klar definiert und oft nicht untereinander konsistent. Ein entsprechend konstruierter Prozess verfolgt keine Denkansätze “von selbst”, die nicht dem klar definierten Ziel dienen.
[8] “wichtiger als alles andere”: Existentielle Risiken führen per Definition zum Ende der Menschheit und damit zum Tod aller Menschen, die ich liebe. Wenn “Friendly AI” möglich ist und nicht umgesetzt wird, wird das zu unverantwortlich mehr Leid und Tod für alle Menschen führen, einschließlich der Menschen, die ich liebe. Die Frage “Ist Ziel a mir wichtiger als Person b” macht nicht unbedingt Sinn.
