Kontakt aufnehmen
Zurück zur Academy
Skills Privat 9 Min. Lesezeit 23. Mai 2026

Audio & Video mit KI — Transkribieren, Untertitel, Notizen.

Du diktierst 5 Minuten ins Handy, KI macht eine strukturierte Notiz draus. Du hörst einen 90-Minuten-Podcast, KI liefert dir die 10 wichtigsten Erkenntnisse. Du nimmst ein Familien-Interview auf, KI baut daraus eine bearbeitete Transkription mit Sprecher-Erkennung. Hier sind die besten kostenlosen Tools, ihre Grenzen, und der Workflow, mit dem Profis arbeiten.

SR
Snow Academy Redaktion
Privat-Reihe · Skills

Audio und Video sind die letzten großen Datenquellen, die der Mensch früher mühsam von Hand bearbeiten musste. Heute macht KI in einer Minute, was früher eine Stunde dauerte. Und das Beste: Die besten Tools sind kostenlos.

In diesem Artikel lernst du drei Disziplinen: Transkription (Sprache → Text), Sprachausgabe (Text → Sprache), Video-Bearbeitung (mit KI als Editor). Plus die wichtigste Frage: Wann läuft das lokal, wann in der Cloud, und was bedeutet das für deine Daten?

Disziplin 1: Transkription — Sprache wird Text

Das beste Transkriptions-Tool der Welt heißt Whisper und kommt von OpenAI. Es ist kostenlos, läuft lokal, beherrscht 99 Sprachen, und ist genauer als jedes kommerzielle Produkt. Klingt zu schön — ist aber wahr.

So nutzt du Whisper

Was Whisper besonders gut kann

Du diktierst, redest deutlich oder undeutlich, mit Akzent oder Hochdeutsch, mit Hintergrundgeräuschen oder im Studio — Whisper schafft 95 % Genauigkeit. Bei Sprechern mit klarer Aussprache 99 %. Selbst Dialekte sind erstaunlich gut.

Typische Anwendungsfälle Transkription

1. Sprachmemos in Notizen umwandeln

Du gehst spazieren, dir kommt eine Idee. Du sprichst sie ins Handy: 2 Minuten Audio. KI macht in 10 Sekunden eine strukturierte Notiz daraus.

Workflow

Sprich ins iPhone Sprachmemo. Schick die Datei an MacWhisper (oder Whisper Desktop). Whisper transkribiert. Du kopierst den Text in ChatGPT/Claude und sagst: "Strukturier das in Stichpunkte, sortier nach Wichtigkeit, fasse zusammen in einem 3-Satz-Tagebucheintrag.". Fertig.

2. Podcasts & Interviews zusammenfassen

Du hörst regelmäßig 90-Minuten-Podcasts und vergisst hinterher 80 % davon. Mit Transkription + KI machst du dir eine 5-Minuten-Zusammenfassung der Hauptthesen.

Tool-Tipp: NotebookLM von Google. Du lädst die Audio-Datei hoch, bekommst Transkription + Zusammenfassung + Audio-Briefing (zwei KI-Stimmen diskutieren den Inhalt mit dir) — alles kostenlos.

3. Meeting-Notizen automatisieren

Familien-Meeting, Verein-Sitzung, Hausgemeinschafts-Versammlung. Aufnahme starten (mit Einverständnis aller!), hinterher transkribieren, KI macht ein Protokoll.

Wichtig: Heimliche Aufnahmen sind in Deutschland strafbar (§ 201 StGB). Hol immer das Einverständnis aller Beteiligten BEVOR du aufnimmst — auch im Familienkreis. KI ändert daran nichts.

4. Tagebuch / Journal in Audio

Schneller als Tippen, intuitiver als Schreiben. Sprich 5 Minuten ins Handy, KI macht dir eine schöne Tagebuch-Form.

Disziplin 2: Sprachausgabe — Text wird Sprache

Das Gegenteil: Du hast einen Text, willst ihn anhören. Klassischer Anwendungsfall: lange Artikel beim Joggen hören, statt sie lesen zu müssen.

Beste Tools

Anwendungsfälle

Artikel-Audiobook. Lange Substack/Medium-Texte am Handy in deine Lieblings-Stimme verwandeln und beim Walking hören.

Korrektur lesen. Eigene Texte vorlesen lassen — du hörst Stolperer und unschöne Formulierungen, die du beim Lesen überlesen würdest. Profi-Trick aller Schriftsteller.

Kinder-Geschichten. Eigene Geschichten schreiben, von KI in natürlicher Stimme vorlesen lassen.

Disziplin 3: Video-Bearbeitung mit KI

2026 ist KI-Video-Bearbeitung nicht mehr nur für Profis. Drei Tools, die du als Privatperson nutzen kannst:

1. CapCut (Smartphone, kostenlos)

Generiert automatisch Untertitel, schneidet stille Stellen raus, schlägt Musik vor, kann Stimme aus einem Sprecher in einen anderen wandeln. Für Familien-Videos absolut ausreichend.

2. Descript (Desktop, Free-Plan)

Bearbeitet Video wie ein Word-Dokument. Du klickst auf den Text der Transkription, löschst Wörter — das Video wird mitgeschnitten. Revolutionierend für Podcast- und Video-Bearbeitung.

3. RunwayML (Browser, Free-Tier)

Für Spezialeffekte: Hintergrund tauschen, Objekte aus Videos entfernen, Video-zu-Video-Stiltransfers. Für kreative Projekte.

Praktische Workflows

Workflow A: Familien-Erinnerungs-Buch

  1. Interview mit Oma über ihre Jugend, mit Einverständnis aufnehmen (Handy).
  2. Whisper transkribiert.
  3. ChatGPT/Claude: "Mach aus diesem Interview-Transkript einen lebendigen Erzähltext in der ersten Person, gegliedert in 5 Kapitel."
  4. Drucken, einbänden, Familien-Schatz.

Workflow B: Studium / Weiterbildung

  1. Vorlesungs-Aufnahme (Erlaubnis fragen!).
  2. Whisper transkribiert.
  3. ChatGPT: "Erstell mir aus dem Transkript Lernkarten für Anki: pro Karte eine Frage und Antwort, max. 50 Karten."
  4. In Anki importieren, lernen.

Workflow C: Reise-Vlog ohne Bearbeitungsstress

  1. Rohfilme machen, mit Handy.
  2. CapCut: Auto-Untertitel, auto-Schnitt von Pausen, Musik dazu.
  3. In 30 Minuten ein 3-Minuten-Vlog, das du der Familie schicken kannst.

Welches Tool wann (Privatsphäre-Sicht)

Drei goldene Regeln

Was du jetzt damit machen kannst

Fazit: Audio und Video waren bisher die unhandlichsten Datenformen. Mit Whisper, NotebookLM und CapCut wandeln sie sich in genau das, was du brauchst — in Sekunden, oft kostenlos, oft lokal. Das ist eine technische Revolution, von der Privatpersonen sofort profitieren, ohne irgendetwas zu zahlen. Wer das einmal verstanden hat, wundert sich, warum er überhaupt noch tippt.

Lust auf mehr? In der Snow Academy gibt's täglich neue Artikel, Tutorials und Branchen-Specials. Schon ab 14 €/Monat — voller Zugriff.

Lies weiter mit Snow Academy — ab 14 €/Monat.

Dieser Artikel ist Teil der gepflegten Snow Academy. Mit einem Privat- oder Business-Abo bekommst du vollen Zugriff auf alle Artikel, Quizze und das Zertifizierungs-Programm.

Privat
14 € / Monat
Voller Lesezugriff · alle Quizze · monatlich kündbar.
Privat freischalten
Business
44 € / Monat
Bis 5 Mitarbeitende · alle Zertifikate · EU-AI-Act-konform.
Business freischalten