Eine Sache vorweg: Diese Liste ist eine Momentaufnahme aus unserem Maschinenraum bei Flavored Media. Nichts davon ist eine objektive Best-Practice-Empfehlung. Wir nutzen diese Tools, weil sie für unseren Workflow gerade funktionieren — euer Workflow ist anders.
Trotzdem teilen wir das, weil "was nutzt du eigentlich?" eine der häufigsten Fragen in jedem Erstgespräch ist. Hier also die ehrliche Antwort.
Modelle
Anthropic Claude (Opus 4.7 + Sonnet 4.6 + Haiku 4.5)
Unser Daily Driver. Opus für alles, was Reasoning oder lange Kontexte braucht — Recherche-Aufträge, Code-Generierung, strategische Analysen. Sonnet für die meisten Routine-Tasks (Mail-Klassifikation, Drafts, Zusammenfassungen). Haiku für alles, wo Geschwindigkeit zählt und Tiefe egal ist.
Warum Anthropic statt OpenAI als Default? Drei Gründe: Bessere Instruction-Following bei langen Prompts, transparenter mit Limits und Änderungen, und die EU-Server-Region funktioniert ohne Theater.
OpenAI GPT-4o + GPT-4.1
Für strukturierte Outputs (JSON-Schema-Modus ist immer noch besser als bei Anthropic) und für Image-Verständnis. Voice-Setup läuft komplett auf GPT-4o-Realtime, weil Latenz und Stimm-Qualität für Telefon-Anwendungen unerreicht sind.
Open Source (lokal via Ollama)
Für alles, was lokal bleiben muss. Aktuell Qwen-2.5-Coder für Code-Klassifizierung, Llama 3.3 für allgemeine Tasks ohne Kontext-Sensitivität. Läuft auf einem M1 Max Mac Studio mit 64GB RAM, der dauerhaft online ist.
Orchestrierung
n8n (selbst gehostet)
Unser Workhorse für alles, was nach Workflow aussieht. Mail kommt rein, wird klassifiziert, wird abgelegt — n8n. Webhook trifft ein, KI bewertet, Slack-Notification raus — n8n. Wir hosten auf einem Hetzner-Server, weil die Cloud-Version teuer wird sobald mehr als ein paar Workflows laufen.
Claude Code (im tmux)
Für alles, wo wir einen Agent brauchen, der wirklich Tools nutzt und Entscheidungen trifft. Claude Code ist eigentlich ein CLI-Coding-Tool, aber wir nutzen es als General-Purpose-Agent-Framework, weil es Tool-Aufrufe, Sub-Agents und Memory besser handhabt als die meisten "Agent-Frameworks" am Markt.
Make
Für ein paar Legacy-Integrationen, die wir nicht migriert haben. Wandert peu à peu zu n8n. Make ist okay, aber die Pricing-Struktur (pro Operation) wird bei KI-lastigen Workflows schnell unangenehm.
Storage und Memory
Qdrant (Vector DB)
Für alles, was nach RAG riecht. Self-hosted, weil wir Daten nicht an Pinecone schicken wollen. Performance ist auf unserer Größenordnung kein Thema, Setup ist überschaubar.
SQLite + Postgres
SQLite für lokale Agent-Memory (jeder Agent hat seine eigene Datei). Postgres für alles, was geteilt wird oder skaliert. Wir vermeiden Hosted-Datenbank-Lösungen, wo es geht — Daten-Souveränität ist ein echter Verkaufspunkt für KMU-Kunden.
Voice und Telefonie
Twilio + OpenAI Realtime
Für ausgehende und eingehende Anrufe. Twilio handhabt die Telefonie-Seite, OpenAI Realtime macht den Sprach-Teil. Latenz ist akzeptabel (unter 500ms in den meisten Fällen), Stimm-Qualität ist überraschend gut.
ElevenLabs (für Pre-Recorded TTS)
Wenn wir TTS nicht real-time brauchen — z.B. für Voice-Notes oder Podcast-Intros — nehmen wir ElevenLabs. Die Stimmen sind deutlich besser als alles, was OpenAI oder Anthropic on-the-fly liefert.
Infrastruktur
Hetzner Cloud
Wo unsere selbst-gehosteten Services laufen — n8n, Qdrant, Datenbanken. Deutsche Server, ordentliche Preise, IPv6 ist nicht kaputt. Nicht so chic wie AWS, aber für 90% unserer Anforderungen vollkommen ausreichend.
Cloudflare (DNS + Pages + R2)
Alle Domains laufen über Cloudflare. Alle statischen Websites werden auf Pages deployed. R2 für Object-Storage, wo wir keine S3-API-Sperren wollen. Auch hier: KMU-tauglich, transparent gepreist, läuft.
Apple Silicon (M1 Max + M3 Ultra)
Lokale Modelle, Voice-Verarbeitung, Build-Server. Wir glauben nicht an "Cloud first" für alles. Manche Workloads laufen schneller und billiger auf Hardware, die schon da ist.
Was wir nicht nutzen (und warum)
- LangChain. Zu komplex, zu viele Abstraktionen, ändert sich zu schnell. Wir schreiben lieber 50 Zeilen eigenes Python als 5 Zeilen Framework-Code, der in drei Monaten anders heißt.
- Pinecone, Weaviate Cloud. Vendor-Lock-in für Vector-DBs ist es uns nicht wert. Qdrant macht alles, was wir brauchen.
- Hosted Agent-Builder à la Voiceflow, Botpress. Wenn der Anwendungsfall einfach genug ist, reicht ein Custom-GPT. Wenn er komplex ist, reichen die Tools nicht aus.
- Vercel, Netlify. Cloudflare Pages reicht und kostet weniger. Vendor-Sprawl vermeiden.
Wichtig: Dieser Stack ist nicht universal. Wenn ihr ein Krankenhaus seid, gelten andere Compliance-Regeln. Wenn ihr eine Bank seid, kommt Anthropic in dieser Form vermutlich nicht in Frage. Wenn ihr Solo-Selbstständige seid, könnt ihr 80% davon weglassen. Das hier ist unser Stack für unsere Use Cases.
Was sich in den letzten 3 Monaten geändert hat
- Claude Opus 4.7 ist Daily Driver geworden, davor war es Sonnet 4.6.
- GPT-4o-Realtime hat eine ältere Voice-Lösung mit Whisper + GPT-4 + Eleven ersetzt — ein Tool statt drei, deutlich niedrigere Latenz.
- Qwen-2.5-Coder hat Llama-3-Coder lokal abgelöst, weil es bei deutschem Code-Kontext sichtbar besser ist.
Was sich vermutlich in den nächsten 3 Monaten ändern wird: GPT-5 ist released, wir testen ob es Claude in unserem Workflow ersetzt. n8n bekommt nativen MCP-Support, was unsere Custom-Integration vereinfachen würde. Und wir evaluieren gerade, ob wir die lokale Inference auf einen dedizierten GPU-Server auslagern, weil der M1 langsam an seine Grenzen kommt.
Stack-Empfehlung für euer Unternehmen?
Im KI-Audit schauen wir uns euren konkreten Use Case an und sagen euch, welcher Stack für euch Sinn macht — nicht welcher gerade Hype ist.
Audit anfragen