D-ID stellt V4 Expressive Visual Agents vor

D-ID bringt eine neue Generation ausdrucksstarker KI-Avatare auf den Markt, die sich durch geringe Latenz und hohe Kosteneffizienz auszeichnen.
Berlin, 16. März 2026 – D-ID (https://www.d-id.com/de/), ein führender Anbieter von KI-Avatarlösungen für Unternehmen, hat heute die Einführung seines neuesten KI-Modells bekannt gegeben. V4 Expressive Visual Agents ist die neue Generation hochrealistischer digitaler Menschen, die sowohl für Echtzeit-Gespräche mit LLM-Anbindung als auch für die einfache Erstellung längerer Videoinhalte entwickelt wurde.
Die V4 Expressive Visual Agents basieren auf einem neuen diffusionsbasierten Modell, das mit echten Schauspielern trainiert wurde. Das ermöglicht schnellere Generierung, extrem niedrige Gesprächslatenzen (unter 0,5 Sekunden), präzise Lippensynchronität und Auflösungen bis zu 4K. Das Ergebnis sind ausdrucksstarke, natürliche Mensch-Maschine-Interaktionen, skalierbar für verschiedenste Enterprise-Anwendungsfälle.
Bis dato wurden mit früheren D-ID-Modellen bereits mehr als 800.000 visuelle Agenten sowie über 300 Millionen nicht-interaktive Avatare erstellt. Die V4-Avatare stehen ab sofort den 1.500 D-ID-Enterprise-Kunden sowie Nutzern in allen D-ID-Aboplänen bereits ab 5,90 US-Dollar pro Monat zur Verfügung, was die außergewöhnliche Kosteneffizienz des neuen V4-KI-Modells widerspiegelt.
Studien zeigen, dass menschliche Gesichtsausdrücke den Wissenstransfer, die Merkfähigkeit und das Verständnis verbessern. Deshalb setzen Unternehmen zunehmend auf hochrealistische Avatare für Onboarding, Schulungen, Kundeninteraktionen und interne Kommunikation – insbesondere dort, wo Klarheit, Vertrauen und konsistente Botschaften entscheidend sind.
Die V4 Expressive Visual Agents sind die ersten hochwertigen, ausdrucksstarken Avatare, die sich dynamisch an ausgewählte Stimmungen (Sentiments) anpassen. Dadurch stimmen Tonfall und Intention mit der jeweiligen Botschaft überein. Gesprochene Inhalte werden so klarer und überzeugender vermittelt – mit natürlichem Timing und passenden Betonungen.
Visual Agents dienen als visuelle Schnittstelle für KI-Systeme. Statt einseitiger Videowiedergabe ermöglichen sie bidirektionale Echtzeit-Interaktionen. Während ein LLM antwortet, passt der Avatar automatisch Ausdruck und Stimme an den Kontext und die Stimmung an. So wirken KI-Agenten – ob im Kundenkontakt oder intern – natürlicher, vertrauenswürdiger und effektiver.
Darüber hinaus können Nutzer optional ihre Kamera aktivieren. Der Visual Agent erkennt in Echtzeit die Stimmung des Gegenübers und passt seine Antwort entsprechend an. Nonverbale Signale wie Mimik oder Reaktionen fließen dabei sowohl in die Antwort des LLM als auch in den Tonfall und den Gesichtsausdruck des Avatars ein.
Zusätzlich können V4 Expressive Visual Agents interaktive UI-Elemente direkt in der Konversation anzeigen. Dazu gehören visuelle Inhalte wie Bilder, Diagramme und Videos, aber auch strukturierte Interaktionen wie Formulare oder Quizze, ermöglicht durch D-IDs MCP-Apps.
Während viele KI-Videotools nur kurze Clips erzeugen, sind V4-Avatare für längere Inhalte und kontinuierliche Interaktionen entwickelt worden. Unternehmen können mit demselben Avatar Minuten oder Stunden an Video produzieren und gleichzeitig Echtzeit-Gespräche in großem Maßstab führen – und das zu deutlich geringeren Kosten (bis zu 70-mal günstiger als Google VEO 3 Fast).
Das macht V4 besonders wirtschaftlich für Kurse, Erklärvideos, mehrsprachige Trainingsinhalte und wiederkehrende Videoformate. Vor allem bei Echtzeit-Interaktionen summieren sich diese Vorteile, da Gespräche mit D-ID nur wenige Cent pro Chat kosten.
“Seit unseren ersten Modellen, die statische Bilder in sprechende Porträts verwandelt haben, hat sich unsere Technologie enorm weiterentwickelt”, sagt Gil Perry, Mitgründer und CEO von D-ID. “Mit V4 erreichen wir ein neues Niveau an Realismus und Performance. Unsere Avatare können in Echtzeit reagieren und bieten gleichzeitig die Stabilität, Effizienz und Sicherheit, die Unternehmen im großen Maßstab brauchen. Damit wird KI-Kommunikation deutlich natürlicher – und genau darauf kommt es an, wenn Unternehmen KI in ihre Interaktionen integrieren wollen.”
Nach der Übernahme von simpleshow im September 2025 hat D-ID seine Enterprise-Distribution deutlich ausgebaut und seine KI-Avatartechnologie in das Ökosystem für Erklärvideos und Corporate Training von simpleshow integriert. Seitdem ist der jährlich wiederkehrende Umsatz (ARR) von D-ID um 250 % gewachsen, getrieben durch Cross-Selling-Effekte und eine steigende Nachfrage von Unternehmen nach interaktiven, KI-gestützten Videolösungen.
D-ID ist weltweit führend im Bereich generativer KI für Video und digitale Menschen und ermöglicht reibungslose Echtzeit-Interaktion über seine Real-Time Streaming API. Die Technologie des Unternehmens treibt lebensechte digitale Präsentatoren, Lernbegleiter und virtuelle Assistenten für viele Fortune-500-Unternehmen an. Im September 2025 übernahm D-ID das deutsche Unternehmen simpleshow, einen Pionier für KI-basierte Erklärvideo-Erstellung. Zusammen stellt D-ID damit die umfassendste Enterprise-Lösung für KI-Videos und interaktive Echtzeit-Agenten dar.
Kontakt
simpleshow GmbH (a D-ID company)
Viktoria Koleva
Rosenstraße 16
10178 Berlin
+49 30 809 502 133
https://www.d-id.com/
Die Bildrechte liegen bei dem Verfasser der Mitteilung.
AchtungFür den Inhalt des Artikels ist der jeweilige Autor und nicht der Seitenbetreiber verantwortlich. |





