TL;DR — Was du nach diesem Artikel weißt
- Welcher der 15 Agenten der christianohle-Pipeline wirklich was kostet — pro Video, pro Monat.
- Wo die größten Kosten-Hebel liegen (Spoiler: nicht beim Script-Generator).
- Welche Sub-Stages 0 € kosten und warum lokales Setup hier eine bewusste Entscheidung ist.
- Was bei Skalierung auf 30, 50, 100 Videos/Tag passiert — Bottlenecks und Lösungen.
- Welche Sparpotenziale ich heute aktiv nicht ausschöpfe und warum.
Im vorherigen Teil ging es um den Assembly-Agent — der finale Konsolidator, der alle vorherigen Outputs zu einem Master-MP4 zusammenfügt. Heute der letzte Teil der Build-in-Public-Serie: die vollständige Kosten-Analyse der Multi-Agent-Pipeline. Pro Agent, pro Video, mit Skalierungs-Rechnung.
Ich habe die letzten 6 Wochen mit dem aktuellen Setup gearbeitet, alle Anthropic-Logs, ElevenLabs-Quotas und Replicate-Sidecars gesammelt. Was hier steht, sind echte Zahlen aus echten Pipeline-Runs. Keine Schätzungen, keine “circa”. Die einzigen Mittelwerte sind über 12 Videos hinweg gerechnet, weil einzelne Runs natürlich variieren.
“Die Frage ‘was kostet ein Video’ ist die häufigste in meinem Posteingang. Ich sage immer: ‘1,96 €.’ Dann kommen ungläubige Rückfragen. Wer einmal die Aufschlüsselung pro Agent sieht, versteht: Multi-Agent-Architektur erlaubt extrem günstige Setups, weil jeder Agent das billigste angemessene Tool nutzt.”
Pro-Agent-Kosten im Überblick
Zuerst die Tabelle. Pro Agent, gemittelt über 12 Videos in der letzten 6-Wochen-Periode (Stand Mai 2026):
| # | Agent | Tool / LLM | Kosten / Video |
|---|---|---|---|
| 1 | News-Scraper | Python feed-parser | 0,00 € |
| 2 | Topic-Ranker | Claude Haiku 4.5 | 0,02 € |
| 3 | Script-Generator | Claude Opus 4.7 | 0,15 € |
| 4 | Visual-Orchestrator | Python (lokal) | 0,00 € |
| 5 | Manim-Agent | Manim (lokal) | 0,00 € |
| 6 | Slide-Agent | Claude + Playwright | 0,02 € |
| 7 | Comfy-Agent | Replicate Flux Schnell | 0,30 € |
| 8 | Fal-Video-Agent | Kling 2.5 Turbo Pro | 0,80 € |
| 9 | Stock-Agent | Pexels API | 0,00 € |
| 10 | B-Roll-Agent | Claude Haiku 4.5 | 0,005 € |
| 11 | Voice-Agent | ElevenLabs Turbo v2.5 | 0,40 € |
| 12 | Subtitle-Agent | Whisper lokal | 0,00 € |
| 13 | Assembly-Agent | ffmpeg lokal | 0,00 € |
| 14 | Thumbnail-Agent | Claude + Replicate + Playwright | 0,15 € |
| 15 | Metadata-Agent | Claude Sonnet 4.6 | 0,03 € |
| 16 | Upload-Agent | YouTube Data API | 0,00 € |
| GESAMT | ~1,96 € |
Sechs Agents kosten 0 €. Sieben Agents kosten unter 0,05 €. Drei Agents (Comfy, Fal-Video, Voice) machen zusammen 1,50 € aus — also 77 % der Gesamtkosten.
Wer wirklich teuer ist: Fal-Video, Voice, Comfy
Drei Agents bestimmen das Budget. Lass mich erklären, warum.
Fal-Video-Agent: 0,80 € pro Video (41 % der Gesamtkosten)
Der teuerste Agent in der Pipeline. Kling 2.5 Turbo Pro kostet ~0,27 € pro 5-Sekunden-Clip auf fal.ai. Bei 3 Promotionen pro Video sind das 0,80 €.
Warum ich das in Kauf nehme: Kling-Animationen heben die Hook-Phase auf ein Niveau, das mit Replicate-Comfy nicht erreichbar ist. Eine animierte Szene in den ersten 30 Sekunden steigert YouTube-Retention messbar — meine letzten 4 Videos mit Fal-Promotionen haben durchschnittlich 12 % höhere Retention nach 60 Sek als die 3 Videos davor ohne Fal.
Sparpotenzial: --no-fal-video-Flag setzen. Dann fallen alle Comfy-Szenen auf Replicate Flux zurück (statisch + Ken-Burns-Pan). Spart 0,80 €/Video, kostet ~12 % Retention. Bei kleinem Channel würde ich abschalten, bei wachsendem Channel ist 0,80 € der Preis für besseren Algorithmus-Push.
“Diese 12 %-Retention-Differenz war für mich der Tipping-Point. Auf einem kleinen Channel hätte ich 0,80 € sofort gespart. Mit christianohle im Aufbau brauche ich jeden Algorithmus-Vorteil. In 6 Monaten — wenn der Channel etabliert ist — werde ich Fal-Video wahrscheinlich teilweise zurückfahren.”
Voice-Agent: 0,40 € pro Video (20 %)
ElevenLabs Turbo v2.5 kostet 0,30 USD pro 1.000 Zeichen. Bei einem 6-Min-Skript mit ~600 deutschen Wörtern (≈4.000 Zeichen inklusive Leerzeichen und Satzzeichen) sind das ~0,40 €.
Warum nicht günstiger: ElevenLabs ist die Voice-Quality-Referenz. Konkurrenten wie OpenAI TTS, PlayHT, Cartesia liefern in deutscher Sprache spürbar schlechtere Resultate. Lokales Coqui-XTTS klingt bei deutschen Erklärungen unprofessionell.
Sparpotenzial: Wenn ich ElevenLabs PVC (Professional Voice Clone) statt IVC nutzen würde, wären es ~30 % Multi-Use-Discount = ~0,28 € pro Video. PVC braucht aber 30+ Min hochwertiges Trainings-Audio, das ich noch nicht aufgenommen habe. ROI: 30 Min Aufnahme für ~10 €/Monat Ersparnis = lohnt sich wenn der Channel >50 Videos/Jahr macht.
Comfy-Agent: 0,30 € pro Video (15 %)
Replicate Flux Schnell kostet ~0,003 USD pro Bild. Pro Video werden 6–8 Comfy-Bilder gerendert (alle Comfy-Szenen, abzüglich der zu Fal hochgestuften), also ~0,025 USD = ~0,02 €. Ken-Burns-Pan via ffmpeg lokal kostet 0 €. Dann wo kommen die 0,30 € her?
Antwort: Iterations-Overhead. Ich render im Schnitt 1,5× pro Bild — beim ersten Try kommt manchmal ein Output, der prompt-technisch danebenliegt (z.B. “person at desk” mit drei Köpfen). Der Visual-Orchestrator probiert nicht automatisch nochmal, aber bei manuellen Re-Runs nach Daily-Run-Sichtung sind im Schnitt 2–3 Bilder neu zu rendern. Plus gelegentliche Fal-Fallbacks zu Comfy (siehe Visual-Orchestrator-Artikel).
Sparpotenzial: Strikteres Prompt-Engineering im Script-Generator-Agent würde Re-Renders reduzieren. Aktuell tolerier ich diese 0,30 €, weil der Aufwand für besseres Prompt-Tuning höher wäre als die Ersparnis.
Wo 0 € möglich sind: lokale Stages
Vier Agents kosten exakt nichts. Das ist keine Zufall, sondern bewusste Architektur-Entscheidung.
Whisper lokal statt API
API-Whisper kostet ~0,006 USD pro Minute. Bei 6-Min-Video: 0,036 USD = ~0,04 €. Lokales Whisper Large v3 auf meiner AMD RX 7900 XTX: 0 € Cloud-Kosten, ~90 Sek Render-Zeit, ~5 Cent Strom.
Über 12 Monate gerechnet: ~10 € gespart. Plus DSGVO-Vorteil (deutsche Skript-Inhalte verlassen den Rechner nicht) — der für mich wichtiger ist als die Cent-Beträge.
ffmpeg lokal statt Cloud-Encoder
AWS MediaConvert oder Cloudflare Stream für Concat + Encoding würden 0,30–0,80 € pro Video kosten. Bei 12 Videos: 4–10 €/Monat. ffmpeg auf eigener Maschine: 0 €.
Aber: ffmpeg-Setup hat mich am Anfang ~6 Stunden gekostet (FPS-Normalisierung, Concat-Demuxer, Sidechain-Ducking). Bei einem Solo-Setup ist das Investment einmalig — bei einem Team mit höherer Komplexität wäre Cloud-Encoder sinnvoller.
Manim lokal statt Cloud
Manim Community läuft auf CPU. Manim-Animationen für Erklär-Diagramme: 0 € Kosten, ~10–30 Sek pro Animation Render-Zeit.
Cloud-Alternative: Es gibt keine, weil Manim spezifischer Open-Source-Renderer ist. Wer Manim nutzt, hostet es selbst.
“Diese 0-€-Stages sind das, was meinen Pipeline-Stack so günstig macht. Wer alles auf Cloud-APIs umstellt, würde bei ~3,50 €/Video landen — fast Faktor 2 mehr. Lokale Hardware ist heute eine Sparmaßnahme, in fünf Jahren möglicherweise eine Souveränitäts-Frage.”
Skalierung: was bei 30, 50, 100 Videos pro Tag passiert
Aktuell: 3 Videos pro Woche = ~12 pro Monat. Was wäre, wenn ich auf 100 pro Tag hochskalieren würde?
Bei 30 Videos/Tag (~900/Monat)
Cloud-Kosten: 30 × 1,96 € = 58,80 €/Tag = ~1.760 €/Monat.
Bottlenecks: Anthropic Tier 1 wäre nicht mehr ausreichend (Tier 1 = 100k Output-Tokens/Min, Script-Generator braucht ~4k Tokens × 30 Videos = 120k/Run). Wechsel zu Tier 2 nötig — aber gratis Verfügbar bei höherem Volume. ElevenLabs Volume-Tier sinnvoll (gestaffelter Discount ab ~10.000 Zeichen/Tag).
Hardware-Bottleneck: ComfyUI läuft seriell, ~3 Min pro Bild × 6 Bilder × 30 Videos = 9 Stunden GPU-Zeit/Tag. AMD RX 7900 XTX schafft das gerade. Bei 50 Videos: GPU-Cluster nötig.
Bei 100 Videos/Tag
Cloud-Kosten: 100 × 1,96 € = 196 €/Tag = ~5.880 €/Monat.
Bottlenecks: Lokale GPU reicht nicht mehr. ComfyUI muss auf Cloud-GPU umziehen (Replicate, Modal, RunPod). Whisper-Subtitle parallel auf mehreren Maschinen oder Cloud-API. Assembly-Agent muss parallelisierbar werden (aktuell 1 Run nach dem anderen).
Architektur-Implication: Bei 100/Tag ist die aktuelle Single-Maschine-Pipeline am Ende. Es braucht Job-Queue (Redis/SQS), Worker-Pool, Cloud-Storage statt lokales Filesystem. Das wäre ein anderes Projekt.
“Der aktuelle Stack skaliert ehrlich gesagt bis ~30 Videos/Tag, dann wird’s eng. Für 100/Tag brauchst du eine Server-Architektur, nicht eine Pipeline. Das ist ein wichtiger Realitäts-Check für jeden, der ‘AI-Video-Automation’ als Geschäftsmodell verkauft — die Tools sind unter 50 Videos/Tag perfekt, drüber wird’s massiv komplexer.”
Was ich heute aktiv NICHT optimiere
Drei Sparpotenziale, die ich aktuell nicht ausschöpfe:
1. PVC statt IVC bei ElevenLabs. Ersparnis ~0,12 €/Video, Aufwand 30 Min Aufnahme. Lohnt sich wenn ich >100 Videos/Jahr produziere — aktuell nicht. Wenn ich 2027 wirklich auf 30+ Videos/Monat hochlaufe, mache ich’s.
2. Strikteres Prompt-Engineering im Script-Generator. Würde 0,15 € auf vielleicht 0,10 € drücken. Aufwand: 5–10 Stunden Prompt-Iteration. ROI nicht klar — bei aktuellem Volumen sparen 0,05 €/Video × 12 Videos = 0,60 €/Monat. Lohnt sich nicht.
3. Lokale Comfy statt Replicate. ComfyUI auf meiner RX 7900 XTX würde 0,30 € auf 0 € drücken. Aufwand: erneutes Setup nach dem Crash-Pivot (siehe Faceless-YouTube-Pipeline-Artikel). Risiko: Wan-2.2-mässige Crashes wieder auf Tagesordnung. Aktuell zu hoch.
Pipeline-Total: was christianohle mich monatlich kostet
- API-Kosten (12 Videos/Monat): ~24 €
- Hetzner CX22 für n8n (separates Setup): ~5 €
- Domain (christianohle.de): ~1 €/Monat
- Cloudflare Pages: 0 € (Free-Tier)
- GitHub Repo: 0 € (Public)
- Strom für lokale GPU/CPU: geschätzt ~3 €/Monat
Gesamt: ~33 €/Monat für die komplette christianohle-Multi-Agent-Pipeline plus Site-Hosting plus Newsletter-Workflows.
Was diese Zahl nicht beinhaltet: ElevenLabs Voice-Subscription (10 €/Monat für IVC-Slot), Cursor IDE (20 €/Monat), Claude Pro für Cowork (20 €/Monat). Die sind aber nicht Pipeline-spezifisch — die brauche ich auch ohne christianohle für meine generelle Builder-Arbeit.
“33 €/Monat für ein produktiv laufendes Multi-Agent-System ist günstiger als jeder einzelne Vergleichsdienst. Synthesia kostet 30+ USD/Video, Pictory 19 USD/Monat plus pro Video, HeyGen 30 USD/Monat plus pro-Minute-Cap. Wer selbst baut, hat in 4 Wochen ROI gegenüber jedem Cloud-Service.”
Was als nächstes?
Damit endet die Build-in-Public-Serie. Acht Artikel, jeder mit Multi-Agent-Linse, alle aus echten Repo-Files und Logs. Was du jetzt hast:
- Komplettes Verständnis, wie eine Multi-Agent-Pipeline funktioniert (Teil 1)
- Konkrete Code-Beispiele zum Topic-Ranker, Script-Generator, Visual-Orchestrator, B-Roll, Voice+Subtitle, Assembly
- Vollständige Kosten-Transparenz und Skalierungs-Realität
Was als Nächstes auf christianohle erscheint: Tool-Portraits einzelner Agent-Plattformen (Manus.im, Cowork, Replit Agent), tiefere Use-Case-Stücke (Solo-Business-Agents), und gelegentliche Build-Logs zu neuen Pipeline-Erweiterungen.
Wenn du eigene Multi-Agent-Pipeline bauen willst: das Tutorial mit der Claude API ist dein Einstieg. Der erste Agent läuft in unter 60 Min — und der Lernkurve danach ist erstaunlich flach.
Meine Einschätzung
Ich veröffentliche diese Zahlen bewusst, weil in der KI-Szene zu viel über Möglichkeiten und zu wenig über reale Kosten gesprochen wird. 1,96 Euro pro Video klingt nach nichts — aber in eigenen Experimenten werden die versteckten Kosten schnell sichtbar: Setup-Zeit, Re-Runs bei Fehlern, API-Kosten beim Ausprobieren. Meine Faustregel: Rechne immer mit dem Dreifachen des theoretischen Minimums, dann liegst du realistischer. Die Pipeline lohnt sich trotzdem — aber nur wenn du sie langfristig betreibst. Für drei Videos und dann aufhören ist Selbstbau der falsche Weg.
Quellen
- Anthropic API Pricing
- [ElevenLabs Pricing](https://elevenlabs.io/pr


