Research · DSGVO-nativ

Semantische Inferenz am Edge

Inferenz dort, wo die Daten entstehen.

Semantic-Edge ist Forschungsprototyp für AI-Inferenz nahe am Endgerät — niedrigere Latenz, Datenhoheit, weniger Cloud-Abhängigkeit. Wir untersuchen, was davon Mithgard-Sub-Apps schneller, günstiger und DSGVO-resilienter macht.

Forschungs-Demo anfragen Status ansehen

Status quo

Cloud-Inferenz ist heute Default — bezahlt mit Latenz und Datenfluss.

Jeder Embed-Call läuft heute durch ein Cloud-LLM, jeder dieser Calls ist Latenz und Datenoffenlegung.
Für DSGVO-empfindliche Use-Cases ist das ein Risiko, für Mobile-Apps eine Performance-Bremse.
Edge-Hardware (M-Chips, NPUs) wird leistungsfähiger — der Software-Stack hinkt hinterher.
Was am Edge laufen kann und was nicht, ist heute oft Fingerübung statt Methodik.

Unsere Antwort

Methodische Untersuchung, was am Edge realistisch läuft.

Semantic-Edge erforscht Inferenz-Splits zwischen Edge und Cloud: Welche Embedding-Modelle laufen auf einem mittleren Mobilgerät akzeptabel? Wo lohnt sich Caching auf einem Mid-Tier-Server in der Region? Welche Latenz-Kurven verträgt eine Sub-App?

Funktionen

Was die App tatsächlich macht.

Latenz-Heatmap pro Modell

Wir messen Latenz und Genauigkeit verschiedener Embedding-Modelle auf realistischer Hardware (M-Chip, Mid-Range-Android, x86-Mid-Tier).

Region-aware Routing

Forschungsprototyp routet Anfragen zum nächstgelegenen Edge-Knoten in DACH und fällt nur bei Bedarf in die zentrale Cloud zurück.

Datenhoheit als Default

Embeddings für sensible Anfragen verlassen das Endgerät nicht. Caches sind region-lokal.

Schnittstelle zu Mithgard-Sub-Apps

Mundart, Schreibtisch, Found-It könnten von Edge-Embeddings profitieren — wir prüfen Anbindung pro App.

So läuft es ab

Vom Briefing zum Live-Betrieb.

Schritt 01
Modell evaluieren
Embedding-Modell wird auf Ziel-Hardware vermessen — Latenz, Genauigkeit, Energie.
Schritt 02
Routing testen
Anfragen werden an Edge-Knoten geroutet, Fallback-Verhalten gemessen.
Schritt 03
Sub-App-Integration prüfen
Eine konkrete Mithgard-Sub-App wird probeweise auf Edge-Inferenz gestellt.
Schritt 04
Findings dokumentieren
Whitepaper-Artikel, der zeigt, wo Edge-Inferenz realistisch ist und wo nicht.

Im Einsatz

Drei typische Konstellationen.

Aus Vertraulichkeits-Gründen anonymisiert.

Mithgard-Sub-App mit DSGVO-Druck

Situation

Embeddings für sensible Mandanten-Texte sollen das Endgerät idealerweise nicht verlassen.

Ergebnis

Semantic-Edge prüft, welche Modelle bei akzeptabler Genauigkeit lokal laufen — und welche zwingend cloudbasiert bleiben müssen.

Mobile-Anwendung mit Latenz-Sensitivität

Situation

Sprach-zu-Text plus Embedding plus Routing kostet aktuell 600+ ms in der Cloud — Nutzer:innen empfinden es als hakelig.

Ergebnis

Edge-Embedding plus Cloud-LLM senkt Latenz auf unter 250 ms in der Forschungsmessung.

Aktueller Status

Research — Stub mit klarem Forschungsfokus

Semantic-Edge ist Doc-only mit klarem Untersuchungsplan. Erste Messreihe konzentriert sich auf Embedding-Modelle für Mundart und Found-It. Forschungs-Demo auf Anfrage.

Whitepaper: 2027.

Häufige Fragen

Was Sie vor dem Pilot wissen.

Ist Semantic-Edge ein Produkt?
Nein. Es ist ein Forschungsprototyp. Erkenntnisse fließen in Mithgard-Sub-Apps ein, sobald sie produktionsreif sind.
Welche Hardware wird getestet?
Aktueller Plan: Apple M-Chip, Mid-Range-Android (Snapdragon 7-Klasse), x86-Mid-Tier-Server in DACH. Nicht: Nvidia-H100-Cloud — das ist die Vergleichsbasis.
Wann gibt es Ergebnisse?
Erste Messreihe für Mundart/Found-It läuft. Vollständiges Whitepaper folgt 2027.

Bereit für einen Semantic-Edge-Pilot?

30-Min-Erstgespräch, kostenlos, unverbindlich. Sie beschreiben den Anwendungsfall — wir sagen, was realistisch in zwei Wochen umsetzbar ist.

Forschungs-Demo anfragen Live-App öffnen