🇮🇹 🇬🇧 🇪🇸 🇫🇷 🇩🇪
Notizie IA Logo

Nachrichten und Analysen zur Künstlichen Intelligenz

Zurück

Unkontrollierte künstliche Intelligenz: Große Tech-Unternehmen fallen bei der Sicherheit durch (Teil Eins)

von Dario Ferrero (VerbaniaNotizie.it) GigantiTechAsini.jpg

Ein unabhängiger Bericht zeigt, dass die führenden Technologieunternehmen nicht bereit sind, die Risiken der allgemeinen künstlichen Intelligenz zu bewältigen

Stellen Sie sich vor, Sie bauen ein Auto ohne Bremsen oder entwerfen ein Flugzeug ohne Sicherheitssysteme. Das klingt absurd, oder? Doch laut einem gerade veröffentlichten Bericht des Future of Life Institute tun die weltweit führenden Technologieunternehmen genau das mit der künstlichen Intelligenz.

Der AI Safety Index 2025 bewertete sieben der wichtigsten Unternehmen, die fortschrittliche künstliche Intelligenz entwickeln, und die Ergebnisse sind besorgniserregend: Das beste Unternehmen erhielt ein mageres C+, während die anderen noch schlechtere Noten bekamen. Wir sprechen von Unternehmen wie OpenAI (das von ChatGPT), Google DeepMind, Meta (Facebook), xAI (von Elon Musk) und anderen, die sich beeilen, das zu entwickeln, was als "allgemeine künstliche Intelligenz" bezeichnet wird – Systeme, die in der Lage sind, komplexe Probleme wie ein Mensch zu lösen und zu begründen, aber potenziell viel schneller und leistungsfähiger.

Das Urteil: "Grundsätzlich unvorbereitet"

Die Zahlen sprechen für sich. Anthropic, das Unternehmen, das Claude entwickelt hat, erhielt mit einer Gesamtnote von C+ die höchste Punktzahl. Die anderen sechs Unternehmen – Google DeepMind, Meta, OpenAI, xAI, Zhipu AI und DeepSeek – erhielten niedrigere Noten, wobei Zhipu AI und DeepSeek die schlechtesten Ergebnisse erzielten.

Aber was bedeutet diese Note konkret? Um das zu verstehen, muss man zunächst erklären, was allgemeine künstliche Intelligenz oder AGI, wie sie in der Branche genannt wird, ist. Während aktuelle Systeme wie ChatGPT oder Gemini auf bestimmte Aufgaben spezialisiert sind (Konversation, Übersetzung, Schreiben), würde AGI den nächsten Schritt darstellen: eine künstliche Intelligenz, die in der Lage ist, Wissen in jedem Bereich zu verstehen, zu lernen und anzuwenden, genau wie die menschliche Intelligenz.

Das Problem ist, dass alle bewerteten Unternehmen ihre Absicht bekundet haben, eine allgemeine künstliche Intelligenz zu bauen, aber nur Anthropic, Google DeepMind und OpenAI haben eine Strategie formuliert, um sicherzustellen, dass die AGI mit den menschlichen Werten im Einklang bleibt. Und selbst diese Strategien wurden von Experten als unzureichend bewertet.

ClassificaAiSafetyIndex.jpg Bild von futureoflife.org

Die Methodik: Wie die Noten vergeben wurden

Um die Ernsthaftigkeit der Situation zu verstehen, ist es wichtig zu wissen, wie diese Noten vergeben wurden. Das Future of Life Institute hat ein strenges Bewertungssystem entwickelt, das über die öffentlichen Erklärungen der Unternehmen hinausgeht, um ihre konkreten Praktiken zu untersuchen.

Die 33 Sicherheitsindikatoren

Die Bewertung basiert auf 33 spezifischen Indikatoren, die verschiedene Aspekte der verantwortungsvollen KI-Entwicklung messen. Diese Indikatoren wurden nicht zufällig ausgewählt, sondern stellen die besten Praktiken dar, die von der internationalen wissenschaftlichen Gemeinschaft für die sichere Entwicklung künstlicher Intelligenz identifiziert wurden.

Die Indikatoren umfassen Elemente wie das Vorhandensein dokumentierter Sicherheitsrichtlinien, die Existenz von Teams, die sich der Sicherheit widmen, die Transparenz in der Kommunikation über Risiken, die Fähigkeit, Risiken vor der Veröffentlichung zu bewerten, die Implementierung von kontinuierlichen Überwachungssystemen und das Vorhandensein von Meldemechanismen für Mitarbeiter.

Die sechs kritischen Bereiche

Die 33 Indikatoren sind in sechs grundlegende Bereiche unterteilt, die unterschiedliche, aber miteinander verbundene Aspekte der Sicherheit künstlicher Intelligenz abdecken.

Der erste Bereich betrifft die existenzielle Sicherheit und bewertet, ob Unternehmen Strategien haben, um Risiken zu verhindern, die die Existenz der Menschheit bedrohen könnten, einschließlich der Fähigkeit zu beurteilen, wann ein System zu mächtig werden könnte, um kontrolliert zu werden.

Der zweite Bereich untersucht aktuelle Schäden und analysiert, wie Unternehmen mit bereits bestehenden Risiken in der KI umgehen, wie z. B. algorithmische Verzerrungen, Desinformation oder Missbrauch der Technologie.

Der dritte Bereich ist die Transparenz, die bewertet, wie offen Unternehmen über ihre Methoden, Risiken und Grenzen sind, einschließlich der Bereitschaft, Informationen mit unabhängigen Forschern zu teilen.

Der vierte Bereich betrifft die Governance und untersucht die Organisationsstruktur der Unternehmen, einschließlich der Präsenz unabhängiger Aufsicht und klarer Entscheidungsprozesse für Sicherheitsfragen.

Der fünfte Bereich bewertet das Engagement mit der Gemeinschaft und untersucht, ob Unternehmen mit externen Forschern, Sicherheitsorganisationen und der breiteren wissenschaftlichen Gemeinschaft zusammenarbeiten.

Schließlich untersucht der sechste Bereich die regulatorische Vorbereitung und prüft, ob Unternehmen bereit sind, mit Regulierungsbehörden zusammenzuarbeiten und ob sie die Entwicklung angemessener Vorschriften unterstützen.

Der Peer-Review-Prozess

Die Daten wurden zwischen März und Juni 2025 gesammelt, wobei öffentlich zugängliche Materialien mit Antworten auf gezielte Fragebögen kombiniert wurden, die an die Unternehmen gesendet wurden. Allerdings haben nur zwei Unternehmen (xAI und Zhipu AI) die Fragebögen vollständig ausgefüllt, was ein besorgniserregendes Maß an mangelnder Zusammenarbeit seitens der Branche zeigt.

Die Noten wurden von einem Gremium aus sieben unabhängigen Experten vergeben, darunter renommierte Namen wie Stuart Russell von der University of California, Berkeley, und der Turing-Preisträger Yoshua Bengio. Dieses Gremium umfasste sowohl Experten, die sich auf existenzielle Risiken der KI konzentrierten, als auch solche, die an kurzfristigen Schäden wie algorithmischem Bias und toxischer Sprache arbeiteten.

Der Bewertungsprozess wurde so objektiv wie möglich gestaltet, mit standardisierten Kriterien und mehreren unabhängigen Überprüfungen für jedes Unternehmen.

Der Weckruf der Experten

Die Schlussfolgerungen des Berichts waren sehr hart. Stuart Russell, einer der weltweit führenden Experten für KI-Sicherheit, erklärte in einem Interview mit IEEE Spectrum: "Die Ergebnisse des AI Safety Index-Projekts deuten darauf hin, dass es zwar viele Aktivitäten in den KI-Unternehmen gibt, die unter dem Namen 'Sicherheit' laufen, diese aber noch nicht sehr effektiv sind. Insbesondere liefert keine der aktuellen Aktivitäten irgendeine Art von quantitativer Sicherheitsgarantie."

Russell fügte eine noch besorgniserregendere Überlegung hinzu: "Es ist möglich, dass die derzeitige technologische Richtung die notwendigen Sicherheitsgarantien niemals unterstützen kann, in welchem Fall es sich wirklich um eine Sackgasse handeln würde."

Das globale Panorama der KI-Vorfälle

Um die Dringlichkeit des Problems zu verstehen, ist es unerlässlich, sich die Daten über die bereits auftretenden Fehlfunktionen der künstlichen Intelligenz anzusehen. Die Zahl der registrierten Vorfälle wächst exponentiell, und die Folgen werden immer schwerwiegender.

Die alarmierenden Zahlen von 2024

Laut der AI Incidents Database stieg die Zahl der KI-bedingten Vorfälle im Jahr 2024 auf 233 – ein absoluter Rekord und ein Anstieg von 56,4 % gegenüber 2023. Dies sind keine geringfügigen Fehler oder vernachlässigbaren technischen Probleme, sondern Ereignisse, die echten Schaden für Menschen, Unternehmen und Gesellschaften verursacht haben.

Emblematische Fälle von Fehlfunktionen

Das autonome Fahrsystem von Tesla zeigte Probleme des "Automatisierungsbias", d. h. die Tendenz der Nutzer, automatisierten Systemen übermäßig zu vertrauen. Die NHTSA (National Highway Traffic Safety Administration) hat eine Sicherheitsuntersuchung für bis zu 2,4 Millionen Tesla-Fahrzeuge eingeleitet, einschließlich eines tödlichen Unfalls mit einem Fußgänger, während das Full Self-Driving-System aktiv war. Bedeutet das, dass das texanische Unternehmen schuldig ist? Nein. Es ist ein Hilfssystem, eine Fahrhilfe. Wer sich ans Steuer setzt, weiß das oder sollte es wissen. Wenn der Fahrer schläft, auf sein Smartphone schaut, isst oder etwas anderes tut, ist es seine Schuld, nicht die der Elektronik.

Ein bedeutender Fall betraf einen Uber-Eats-Fahrer, der entlassen wurde, nachdem das Gesichtserkennungssystem ihn nicht korrekt identifizieren konnte. Der Fahrer argumentierte, dass die Technologie für nicht-weiße Menschen weniger genau sei und sie benachteilige. Soweit wir wissen, hat Uber ein "menschliches" Validierungssystem implementiert, das eine Überprüfung durch mindestens zwei Experten vorsieht, bevor eine Entlassung vorgenommen wird.

Im Gesundheitswesen lieferten KI-Systeme in Krankenhäusern falsche Diagnosen, was zu unangemessenen Behandlungen führte. Ein dokumentierter Fall zeigte, dass ein Algorithmus zur Krebsvorsorge in 70 % der Fälle falsch-positive Ergebnisse lieferte, was zu emotionalem Stress und unnötigen Gesundheitskosten führte.

Während der Wahlen 2024 erzeugten mehrere KI-Systeme irreführende politische Inhalte, einschließlich Deepfake-Bilder von Kandidaten in kompromittierenden Situationen.

Die menschlichen und wirtschaftlichen Kosten

Diese Vorfälle sind nicht nur Statistiken. Hinter jeder Zahl steht eine Person, die aufgrund eines diskriminierenden Algorithmus ihren Arbeitsplatz verloren hat, eine Familie, die einen durch ein fehlerhaftes autonomes Fahrsystem verursachten Verkehrsunfall erlitten hat, oder ein Patient, der eine falsche Diagnose erhalten hat. Folglich ist es logisch, auch erhebliche wirtschaftliche Schäden zu erwarten, die derzeit niemand zu schätzen scheint.

Das Problem des "Wettlaufs nach unten"

Max Tegmark, Physiker am MIT und Präsident des Future of Life Institute, erklärte das Ziel des Berichts: "Der Zweck ist nicht, jemanden an den Pranger zu stellen, sondern Anreize für Unternehmen zu schaffen, sich zu verbessern." Tegmark hofft, dass die Führungskräfte der Unternehmen diesen Index so sehen wie die Universitäten die Ranglisten von U.S. News and World Reports: Sie mögen es vielleicht nicht, bewertet zu werden, aber wenn die Noten öffentlich sind und Aufmerksamkeit erregen, werden sie sich gedrängt fühlen, im nächsten Jahr besser abzuschneiden.

Einer der besorgniserregendsten Aspekte, die der Bericht aufdeckte, ist das, was Tegmark einen "Wettlauf nach unten" nennt. "Ich habe das Gefühl, dass die Führer dieser Unternehmen in einem Wettlauf nach unten gefangen sind, aus dem keiner von ihnen aussteigen kann, egal wie gutherzig sie sind", erklärte er. Heute sind Unternehmen nicht bereit, für Sicherheitstests zu verlangsamen, weil sie nicht wollen, dass Konkurrenten sie auf dem Markt schlagen.

Die Dynamik des Gefangenendilemmas

Diese Situation stellt ein klassisches "Gefangenendilemma" dar, das auf die Technologie angewendet wird. Jedes Unternehmen weiß, dass es besser wäre, wenn alle die KI sicher und verantwortungsvoll entwickeln würden, aber keines will das erste sein, das verlangsamt, aus Angst, einen Wettbewerbsvorteil zu verlieren.

Das Ergebnis ist, dass alle Unternehmen so schnell wie möglich rennen und die Sicherheit der Geschwindigkeit opfern. Es ist, als ob mehrere Automobilhersteller beschließen würden, die Bremsen aus ihren Autos zu entfernen, um sie leichter und schneller zu machen, in der Hoffnung, als erste auf den Markt zu kommen.

Der Multiplikatoreffekt des Wettbewerbs

Tegmark, der das Future of Life Institute 2014 mit dem Ziel mitbegründete, existenzielle Risiken durch transformative Technologien zu reduzieren, hat einen Großteil seiner akademischen Karriere damit verbracht, das physikalische Universum zu verstehen. Aber in den letzten Jahren hat er sich auf die Risiken der künstlichen Intelligenz konzentriert und ist zu einer der maßgeblichsten Stimmen in der Debatte über KI-Sicherheit geworden.

Der Wettbewerbsdruck drängt Unternehmen nicht nur dazu, Produkte freizugeben, bevor sie vollständig sicher sind, sondern erzeugt auch einen Multiplikatoreffekt: Wenn ein Unternehmen die Sicherheitskosten senkt, um früher zu veröffentlichen, fühlen sich die anderen gezwungen, dasselbe zu tun, um wettbewerbsfähig zu bleiben.

Dieser perverse Mechanismus bedeutet, dass selbst wenn einzelne Führungskräfte oder Forscher wirklich um die Sicherheit besorgt wären, der Wettbewerbsdruck sie dazu zwingt, die Entwicklungsgeschwindigkeit über die Vorsicht zu stellen. Es ist ein systemisches Problem, das eine systemische Lösung erfordert.

Die Analyse Unternehmen für Unternehmen

Anthropic: Der "Klassenbeste", aber immer noch unzureichend

Anthropic erhielt die besten Gesamtnoten (C+ gesamt) und die einzige B- für seine Arbeit an aktuellen Schäden. Der Bericht stellt fest, dass die Modelle von Anthropic in den wichtigsten Sicherheits-Benchmarks die höchsten Punktzahlen erhielten. Das Unternehmen hat auch eine "verantwortungsvolle Skalierungsrichtlinie", die vorschreibt, Modelle auf ihr Potenzial für katastrophale Schäden zu bewerten und keine Modelle einzusetzen, die als zu riskant eingestuft werden.

Anthropic zeichnet sich durch seine aktive Forschung zur KI-Ausrichtung, dokumentierte und öffentliche Sicherheitsrichtlinien, die Zusammenarbeit mit externen Forschern und die relative Transparenz über Risiken und Grenzen aus. Allerdings erhielt auch Anthropic Empfehlungen zur Verbesserung, darunter die Veröffentlichung einer umfassenden Whistleblowing-Richtlinie und mehr Transparenz bei der Methodik der Risikobewertung. Die Tatsache, dass selbst das "beste" Unternehmen nur ein C+ insgesamt erhielt, verdeutlicht, wie ernst die allgemeine Situation der Branche ist.

OpenAI: Kapazitätsverlust und Missionsdrift

OpenAI, das Unternehmen, das die KI mit ChatGPT zum Mainstream gemacht hat, erhielt besonders scharfe Kritik. Wie vom Time Magazine berichtet, umfassen die Empfehlungen den Wiederaufbau der verlorenen Kapazität des Sicherheitsteams und den Nachweis eines erneuerten Engagements für die ursprüngliche Mission von OpenAI.

OpenAI wurde 2015 mit der ausdrücklichen Mission gegründet, "sicherzustellen, dass die allgemeine künstliche Intelligenz der gesamten Menschheit zugutekommt". Der Bericht legt jedoch nahe, dass sich das Unternehmen von dieser ursprünglichen Mission entfernt hat und sich mehr auf die Kommerzialisierung als auf die Sicherheit konzentriert.

Die Erwähnung der "verlorenen Kapazität des Sicherheitsteams" bezieht sich auf die aufsehenerregenden Rücktritte mehrerer Sicherheitsforscher von OpenAI in den Monaten vor dem Bericht. Dazu gehörten einige der führenden Experten für KI-Ausrichtung, wie Ilya Sutskever (Mitbegründer und ehemaliger Chefwissenschaftler) und Jan Leike (ehemaliger Leiter des Superalignment-Teams).

Der Bericht hebt auch Probleme in der Governance von OpenAI hervor, einschließlich der umstrittenen Absetzung und Wiedereinsetzung von CEO Sam Altman im November 2023, die Fragen zur Stabilität und Ausrichtung des Unternehmens aufwarf.

Google DeepMind: Unzureichende Koordination

Google DeepMind erhielt spezifische Kritik für die unzureichende Koordination zwischen dem Sicherheitsteam von DeepMind und dem Richtlinienteam von Google. Nur Google DeepMind antwortete auf Anfragen nach Kommentaren und gab eine Erklärung ab, in der es heißt: "Obwohl der Index einige der KI-Sicherheitsbemühungen von Google DeepMind berücksichtigt, geht unser umfassender Ansatz zur KI-Sicherheit über das hinaus, was erfasst wurde."

Google DeepMind ist das Ergebnis der Fusion von DeepMind (2014 von Google übernommen) und Google Brain (dem internen KI-Forschungsteam von Google). Diese Fusion, die 2023 abgeschlossen wurde, sollte Synergien schaffen, aber der Bericht legt nahe, dass sie auch Koordinationsprobleme verursacht hat.

DeepMind hat einen ausgezeichneten Ruf für wissenschaftliche Forschung und hat Durchbrüche wie AlphaGo (das den Go-Weltmeister besiegte) und AlphaFold (das das Problem der Proteinfaltung löste) erzielt. Der Bericht legt jedoch nahe, dass sich diese technische Exzellenz nicht in einer Führungsrolle bei der Sicherheit niedergeschlagen hat.

Meta: Signifikante Probleme, aber nicht die Schlechteste

Meta erhielt scharfe Kritik, war aber nicht das schlechteste der bewerteten Unternehmen. Die Empfehlungen umfassen eine deutliche Erhöhung der Investitionen in die technische Sicherheitsforschung, insbesondere für den Schutz von Open-Weight-Modellen.

Der Verweis auf "Open-Weight-Modelle" ist besonders wichtig: Meta ist das einzige große Unternehmen, das die "Gewichte" seiner Modelle (die Parameter, die das Verhalten des Modells bestimmen) veröffentlicht, wodurch die Modelle für jeden, der sie verwenden oder modifizieren möchte, frei verfügbar sind.

Diese Strategie hat erhebliche Vorteile: Sie ermöglicht verteilte Innovation, reduziert die Machtkonzentration in den Händen weniger Unternehmen und erleichtert die akademische Forschung. Aber sie birgt auch einzigartige Risiken: Einmal veröffentlicht, können die Modelle nicht "zurückgerufen" werden, wenn Probleme entdeckt werden, es ist unmöglich zu kontrollieren, wie sie verwendet werden, und sie können für schädliche Zwecke modifiziert werden.

Meta hat mehrere Versionen seines Llama-Modells veröffentlicht, darunter Llama 2 und Llama 3. Während diese Veröffentlichungen Forschung und Innovation beschleunigt haben, haben sie auch Sicherheitsbedenken aufgeworfen. Der Bericht legt nahe, dass Meta robustere Schutzmaßnahmen implementieren sollte, bevor die Modelle veröffentlicht werden.

xAI: Schwere kulturelle Probleme

Das Unternehmen von Elon Musk, xAI, erhielt besonders scharfe Kritik nicht nur für seine Sicherheitsbewertungen, sondern auch für kulturelle Probleme. Die Empfehlungen umfassen die Behebung der extremen Jailbreak-Anfälligkeit vor der nächsten Veröffentlichung und die Entwicklung eines umfassenden KI-Sicherheitsrahmens.

"Jailbreaking" bezieht sich auf Techniken zur Umgehung der Sicherheitsvorkehrungen von KI-Systemen, um sie zur Erzeugung schädlicher oder unangemessener Inhalte zu überreden. Die Tatsache, dass xAI eine "extreme Anfälligkeit" für diese Techniken aufweist, deutet darauf hin, dass seine Sicherheitssysteme besonders schwach sind.

Der Bericht legt nahe, dass die Probleme von xAI mit seinem kulturellen Umfeld zusammenhängen könnten. Elon Musk hat oft Skepsis gegenüber Regulierungen geäußert und einen "move fast and break things"-Ansatz gefördert, der möglicherweise nicht mit der sicheren Entwicklung von KI vereinbar ist.

Das KI-System von xAI, genannt Grok, wurde entwickelt, um "maximal wahrheitssuchend" und weniger zensiert als andere Systeme zu sein. Dieser Ansatz führte jedoch zu Kontroversen, als Grok problematische oder irreführende Inhalte produzierte.

Zhipu AI und DeepSeek: Die schlechtesten Ergebnisse

Die beiden chinesischen Unternehmen, Zhipu AI und DeepSeek, erzielten die niedrigsten Bewertungen. Beide Unternehmen erhielten Empfehlungen, umfassendere KI-Sicherheitsrahmen zu entwickeln und zu veröffentlichen und die Bemühungen zur Risikobewertung drastisch zu erhöhen.

Chinesische Unternehmen agieren in einem anderen regulatorischen Umfeld, in dem KI-Sicherheit hauptsächlich durch die Linse der nationalen Sicherheit und sozialen Stabilität betrachtet wird und nicht durch die der globalen existenziellen Sicherheit.

Zhipu AI ist für sein ChatGLM-Modell bekannt und hat erhebliche Investitionen von der chinesischen Regierung erhalten. Der Bericht legt jedoch nahe, dass das Unternehmen nur minimal in die Sicherheitsforschung investiert hat.

DeepSeek ist ein kleineres, aber ehrgeiziges Unternehmen, das versucht hat, mit den westlichen Giganten zu konkurrieren. Der Bericht legt nahe, dass das Unternehmen die Sicherheit der Entwicklungsgeschwindigkeit geopfert hat.

Das Versäumnis, existenzielle Risiken anzugehen

Der vielleicht alarmierendste Aspekt des Berichts ist, dass alle sieben Unternehmen besonders niedrige Bewertungen für ihre existenziellen Sicherheitsstrategien erhielten. Das bedeutet, dass, obwohl alle ihre Absicht bekundet haben, allgemeine künstliche Intelligenzsysteme zu bauen, keines einen glaubwürdigen Plan hat, um sicherzustellen, dass diese Systeme unter menschlicher Kontrolle bleiben.

Was bedeutet "existenzielles Risiko"

Bevor wir dieses Problem vertiefen, ist es wichtig zu klären, was mit "existenziellem Risiko" gemeint ist. Ein existenzielles Risiko ist ein Ereignis, das das Aussterben der Menschheit verursachen, das Potenzial der Menschheit dauerhaft und drastisch reduzieren oder den Fortschritt der Zivilisation unmöglich machen könnte.

Im Kontext der künstlichen Intelligenz könnte ein existenzielles Risiko auftreten, wenn wir Systeme schaffen, die intelligenter werden als wir, aber nicht unsere Werte teilen, entscheiden, dass die Menschheit ein Hindernis für ihre Ziele ist, oder unserer Kontrolle entkommen, bevor wir sie abschalten können.

Das Problem der Ausrichtung

Wie Tegmark erklärte: "Die Wahrheit ist, dass niemand weiß, wie man eine neue Spezies kontrolliert, die viel intelligenter ist als wir. Das Überprüfungsgremium war der Meinung, dass selbst die Unternehmen, die eine Art anfängliche Strategie hatten, nicht angemessen waren."

Das Problem der Ausrichtung ist im Grunde dieses: Wie stellen wir sicher, dass ein superintelligentes System das tut, was wir von ihm wollen, anstatt das, was es für das Beste hält?

Stellen Sie sich vor, Sie müssten einem 5-jährigen Kind erklären, wie man ein multinationales Unternehmen leitet. Selbst wenn das Kind helfen wollte, wäre der Unterschied im Verständnis so groß, dass es unmöglich wäre, Ihre Absichten zu verstehen und entsprechend zu handeln. Stellen Sie sich nun vor, Sie sind das Kind und das multinationale Unternehmen wird von einer superintelligenten KI geleitet.

Aktuelle Ansätze und ihre Grenzen

Unternehmen verwenden verschiedene Ansätze, um das Problem der Ausrichtung zu lösen. Das Reinforcement Learning from Human Feedback (RLHF) beinhaltet das Training von KI-Systemen unter Verwendung menschlichen Feedbacks, um erwünschte Verhaltensweisen zu verstärken. Dieser Ansatz hat jedoch erhebliche Grenzen: Er ist schwer auf sehr komplexe Systeme zu skalieren, Menschen verstehen möglicherweise nicht die Konsequenzen ihrer Bewertungen, und er funktioniert möglicherweise nicht für Systeme, die intelligenter sind als Menschen.

Die Constitutionelle KI, entwickelt von Anthropic, versucht, KI-Systemen beizubringen, einer "Verfassung" von Prinzipien zu folgen. Aber das Problem, wie diese Prinzipien definiert und wie sichergestellt wird, dass sie befolgt werden, bleibt bestehen.

Die mechanistische Interpretierbarkeit versucht zu verstehen, wie KI-Systeme intern funktionieren. Moderne Systeme sind jedoch so komplex, dass es extrem schwierig ist, ihre interne Funktionsweise zu verstehen.


[Fortsetzung im zweiten Teil]