300 Mrd. Dollar für KI — und das ist erst der Anfang?

TL;DR — Was du nach diesem Artikel weißt

Ein Reddit-Clip auf r/singularity mit 1.666 Upvotes behauptet, KI sei “erst am Anfang” — die Zahlen geben ihm größtenteils recht.

Trainings-Compute verdoppelt sich laut Epoch AI alle 6 Monate, deutlich schneller als das Mooresche Gesetz.

Microsoft, Meta, Google und Amazon haben für 2025 zusammen 300 Mrd. Dollar KI-Infrastruktur angekündigt — mehr als das Apollo-Programm inflationsbereinigt.

Bremsen sind nicht Software, sondern Physik: Strom, Chips, Datenqualität.

“Früh” heißt nicht “kurz vor dem Durchbruch” — es heißt: vieles ist noch ungelöst, und die Form, die KI in zehn Jahren annimmt, ist heute nicht sichtbar.

Ein 30-Sekunden-Clip auf r/singularity hat innerhalb weniger Tage 1.666 Upvotes und 462 Kommentare gesammelt. Die Kernaussage: Was wir heute an Künstlicher Intelligenz sehen, ist erst die früheste Phase. Klingt erstmal nach Singularity-Hype.

Wer sich aber die nackten Zahlen ansieht — Compute-Verdopplung alle sechs Monate, dreistellige Milliarden-Investitionen, SWE-bench-Sprung von 2 % auf 55 % in zwei Jahren — merkt: Das Statement hat mehr Substanz, als seine Skeptiker einräumen. Trotzdem ist “früh” ein verräterisches Wort. Es kann gleichzeitig stimmen und in die Irre führen. Hier die Einordnung.

KI-Compute verdoppelt sich alle 6 Monate

Die Forschungsgruppe Epoch AI trackt seit Jahren, wie viel Rechenleistung in das Training neuer Modelle fließt. Ergebnis: Über die letzten zehn Jahre hat sich die eingesetzte Compute-Menge etwa alle sechs Monate verdoppelt. Das ist deutlich schneller als das klassische Mooresche Gesetz, das Verdopplung alle 18–24 Monate vorhersagt.

Wenn dieser Trend nur drei bis fünf Jahre weiterläuft, sprechen wir nicht über inkrementelle Verbesserungen. Wir sprechen über völlig neue Größenordnungen an Modellfähigkeit. Ein Modell, das 2028 mit dem 64-fachen Compute trainiert wird wie das beste Modell von 2026, wird nicht 64-mal “ein bisschen besser” — es wird Aufgaben lösen, die heute als unmöglich gelten.

Genau dieser Sprung-Charakter ist es, was die Singularity-Community auf Reddit meint, wenn sie von “früh” spricht: nicht eine lineare Kurve, sondern Stufen, bei denen Modelle plötzlich Dinge können, die im Vorjahr noch ausgeschlossen schienen. Wer in den letzten zwei Jahren beobachtet hat, wie sich Coding-Benchmarks verschoben haben, kennt das Muster.

Nicht nur größer — auch anders

Skalierung ist aber nur eine Achse. Die zweite ist die Architektur. Seit 2017 dominieren Transformer das Feld, doch parallel sind mehrere ernstzunehmende Alternativen in der aktiven Entwicklung:

Mixture-of-Experts (MoE) aktiviert pro Anfrage nur einen Bruchteil der Parameter eines Modells. Mixtral 8×7B hat insgesamt 47 Milliarden Parameter, nutzt aber nur ~13 Milliarden gleichzeitig — billiger und schneller bei vergleichbarer Qualität.
State-Space-Modelle wie Mamba ersetzen den quadratischen Attention-Mechanismus durch einen mit linearer Komplexität. Heißt: deutlich längerer Context bei weniger Memory-Bedarf.
Diffusion-Sprachmodelle generieren Text in mehreren Schritten parallel statt Token-für-Token. Frühe Versuche zeigen interessante Eigenschaften bei kontrollierbarem Output.

Jede dieser Richtungen könnte den nächsten großen Sprung auslösen — und das ist der Punkt: Wir wissen noch nicht, welche. In einer reifen Phase einer Technologie gibt es einen klaren Architektur-Standard. Heute gibt es vier Kandidaten, die alle aktiv weiterentwickelt werden, plus diverse Hybride. Das ist ein klassisches Zeichen für eine Technologie, die ihre finale Form noch nicht gefunden hat.

Die Daten-Frage und die synthetische Antwort

Es gibt eine Bremse, die Compute-Skalierung allein nicht löst: hochwertige Trainingsdaten. Eine Studie von Epoch AI aus 2024 schätzt, dass die hochwertigen Textdaten im offenen Web bis etwa 2028 erschöpft sein könnten. Wenn das stimmt, läuft die naive Skalierungs-Rezeptur in eine Wand.

Die Antwort der Industrie heißt synthetische Daten. Ein großes Modell erzeugt Beispiele, ein kleineres Reward-Modell filtert die guten heraus, und das gefilterte Material trainiert die nächste Generation. Das ist kein theoretisches Konzept mehr — Anthropic, OpenAI und Meta nutzen es nachweislich, sowohl für Pretraining als auch für RLHF. Damit verändert sich die Spielregel: Datenknappheit wird vom physikalischen Limit zum Engineering-Problem.

Skeptiker werfen ein, dass synthetische Daten in Feedback-Loops irgendwann zu “Modell-Kollaps” führen — Modelle verlieren Diversität und fixieren sich auf die Muster, die das Quell-Modell ohnehin schon hatte. Ob das praktisch passiert oder ob bessere Filter-Methoden das verhindern, ist eine offene Forschungsfrage. Klar ist nur: Die Daten-Wand ist nicht mehr das Argument, das sie 2023 noch war.

300 Milliarden Dollar in einem Jahr

Microsoft, Meta, Google und Amazon haben für 2025 zusammen Investitionen in Rechenzentren und KI-Hardware von über 300 Milliarden Dollar angekündigt. Zum Vergleich: Das gesamte Apollo-Programm hat in heutigen Preisen rund 280 Milliarden Dollar gekostet. Vier Tech-Konzerne investieren in einem einzigen Jahr mehr in KI-Infrastruktur, als die USA in zwölf Jahre Mondlandung gesteckt haben.

Das ist die ehrlichste Antwort auf die Frage, ob die Branche selbst KI für “früh” hält. Wer 300 Milliarden bewegt, geht nicht davon aus, dass die interessanten Anwendungen schon gebaut sind. Sondern davon, dass sie erst noch kommen — und dass derjenige, der zu spät einsteigt, draußen bleibt.

Das heißt nicht automatisch, dass dieses Investment auch aufgeht. In der Dotcom-Blase wurden Milliarden in Geschäftsmodelle gesteckt, die zwanzig Jahre später trivial wurden. “Früh” kann auch sehr lange dauern und sehr teuer sein, bevor sich der Markt sortiert. Wer Kapital bewegt, bestätigt nur eines: dass er die Risiken für überschaubarer hält als die Kosten des Nicht-Investierens.

Die andere Seite: Strom, Chips, Skepsis

Die Zahlen, die für “wir sind noch früh” sprechen, haben eine harte Gegenseite. Die International Energy Agency schätzt, dass Rechenzentren bis 2030 mehr Strom verbrauchen könnten als ganz Japan. Hochleistungs-Chips wie NVIDIAs H100 oder Blackwell sind Mangelware mit Lieferzeiten von vielen Monaten. Geopolitische Spannungen rund um Taiwan und die Halbleiterproduktion machen die Lieferkette unsicher.

Das sind keine Software-Probleme. Sie lassen sich nicht durch besseres Prompting oder neue Architekturen lösen. Sie sind physikalische und politische Grenzen, an denen die Skalierungs-Rezeptur irgendwann auflaufen muss.

Auf der theoretischen Seite hält der Meta-AI-Chef Yann LeCun seit Jahren dagegen, dass aktuelle Sprachmodelle kein echtes Weltmodell und kein Verständnis von Kausalität hätten. Sie seien beeindruckende Statistik-Maschinen, aber kein Pfad zu allgemeiner Intelligenz. Wer bei aktuellen Modellen die typischen Fehler beobachtet — Halluzinationen, fehlende physikalische Intuition, schwache Kausal-Schlüsse — sieht in seiner Position einiges Wahres.

Auch auf der Anwendungsseite zeigt sich der Frühphasen-Charakter deutlich. Programmier-Assistenten sind beeindruckend, aber autonome Agenten, die mehrstündige Aufgaben fehlerfrei erledigen, bleiben Forschungsthema. In Benchmarks wie SWE-bench Verified schaffen Top-Modelle inzwischen über 55 Prozent realer Software-Tickets — vor zwei Jahren waren es unter 5 Prozent. Die Kurve ist steil, aber das Plateau ist nicht erreicht. Was das praktisch heißt: Vieles, was heute als “KI-Agent” verkauft wird, ist Glasrohr unter Hochdruck. Es funktioniert, solange niemand zu fest dagegen drückt.

Was das praktisch für Builder bedeutet

Wer heute beruflich oder privat mit KI arbeitet, hat aus dieser Lage eine klare Implikation zu ziehen: Wer auf konkrete Tools setzt, wird ständig umlernen müssen. Wer auf Fähigkeiten setzt, baut Vorsprung auf.

Drei Kompetenzen tragen über Modell-Generationen hinweg:

Promptdesign. Klar formulieren, Rollen definieren, Few-Shot-Beispiele liefern. Die Sprache, in der man mit LLMs spricht, ist relativ stabil — die Modelle ändern sich darunter.
Output-Bewertung. Halluzinationen erkennen, fact-checken, sinnvolle Tests bauen. Das ist Schwerstarbeit, aber genau hier scheitern die meisten Pipelines, die “produktiv” wirken.
Workflow-Integration. Ein Modell ist nur ein Baustein. Wer weiß, wie man es in echte Prozesse einbaut — als Teil eines Claude-Code-Workflows, eines lokalen Setups mit Ollama oder einer eigenen Pipeline — hat den größten Hebel.

Wer das jetzt aufbaut, bleibt anschlussfähig, egal ob in zwei Jahren GPT-7, Claude 6 oder ein Open-Source-Modell aus China dominiert. Das gilt sowohl für Solo-Selbstständige, die KI in ihren Alltag holen, als auch für Indie-Hacker, die eigene Produkte bauen.

Was tatsächlich dran ist an “wir sind noch früh”

Technisch gesehen viel. Die Kombination aus wachsender Rechenleistung, neuen Architekturen, synthetischen Daten und massivem Kapital spricht dafür, dass die heutigen Modelle in fünf Jahren tatsächlich altmodisch wirken könnten. Was die Aussage nicht beantwortet: ob diese Entwicklung gleichmäßig verläuft, ob sie an Strom oder Daten scheitert, oder ob ein regulatorischer Schock alles bremst.

Die Singularity-Community auf Reddit und Skeptiker wie LeCun sehen also dieselben Modelle und kommen zu völlig unterschiedlichen Schlüssen. Beide haben gute Argumente. “Früh” ist in dieser Lesart kein einheitliches Phänomen, sondern ein Begriff, der je nach Brille anders aussieht. Das ist die ehrlichste Zusammenfassung der aktuellen Lage — und die unbequemste für jeden, der eine klare Prognose haben will.

Wenn du es lieber als Video schaust

Die Kurzfassung dieser Einordnung gibt es als 5-Minuten-Video auf YouTube: Wir sind noch am Anfang — und so sieht “früh” bei KI aus. Mit Visualisierungen zu Compute-Wachstum, SWE-bench-Kurve, Energieverbrauch und der eingeblendeten Reddit-Quelle.

Meine Einschätzung

Ich halte die These “wir sind noch am Anfang” für technisch korrekt und gleichzeitig gefährlich irreführend. In meiner täglichen Pipeline-Arbeit sehe ich sowohl das Potenzial als auch die harten Grenzen — Halluzinationen, fehlende Kausalitäts-Erkennung, Agents die bei unerwarteten Edge-Cases komplett aussteigen. “Früh” heißt nicht “kurz vor der Revolution”, sondern “vieles ist ungelöst und die nächsten fünf Jahre werden anders aussehen als die Hype-Propheten es versprechen”. Was ich aus diesen Tests ableiten rate: Investiere in Fähigkeiten, nicht in Tools. Wer heute Prompt-Design, Output-Bewertung und Workflow-Integration lernt, ist in drei Jahren unabhängig davon relevant, welches Modell gerade dominiert.

Quellen und Disclaimer

Ausgangspunkt war ein Clip auf r/singularity. Die Compute-Skalierungs-Daten stammen von Epoch AI, die Energiezahlen aus dem IEA Electricity 2024 Report, die SWE-bench-Performance von swebench.com. Investitionsangaben der Big Four basieren auf den jeweiligen Earnings-Calls und Pressemitteilungen für das Geschäftsjahr 2025.

Das Thema entwickelt sich schnell — wenn du