Die modernen Herausforderungen der Bild- und Gesichtserkennung
Die modernen Herausforderungen der Bild- und Gesichtserkennung – und wie KI winzige, konkurrenzfähige Lösungen am Netzwerkrand ermöglicht
Während die Bilderkennung ein leistungsstarkes Tool zur Verbesserung von Sicherheit und Produktivität sein kann, sind Systementwickler ständig gefordert, eine schnellere, differenziertere Klassifizierung von kleineren, stromsparenden Geräten bereitzustellen. Der Trend geht in Richtung KI-basierten Erkennungsalgorithmen, die auf winzigen Mikrocontrollern am IoT-Netzwerkrand ausgeführt werden.
Dieser Artikel untersucht, wie die Bildverarbeitung immer ausgefeilter wird, welche Basistechnologien verfügbar sind und welche praktischen Implementierungsmöglichkeiten es basierend auf der Hardware und den Ökosystemen verschiedener Halbleiterhersteller gibt.
Die Bilderkennung und ihre wichtigste Untergruppe – die Gesichtserkennung – werden seit vielen Jahren in Industrie- und Sicherheitsanwendungen verbreitet eingesetzt. Obwohl Benutzer damit begonnen haben, Kameras für die Bilderkennung zu verwenden, weil die Technologie es ihnen ermöglicht hat, dies zu tun, haben die Ergebnisse oft sehr zu wünschen übrig gelassen. Versuche, Bilder zu klassifizieren, können mit Problemen wie Veränderungen beim Maßstab oder bei der Perspektive, Störungen im Hintergrund oder bei der Beleuchtung behaftet sein.
Daher besteht stets der Druck, die Leistung dieser Systeme zu verbessern, sodass sie differenziertere Erkennungs- und Klassifizierungsfunktionen bieten und gleichzeitig robustere und genauere Ergebnisse bereitstellen können. Und wenn eine bessere Technologie verfügbar sein wird, werden dadurch weitere Möglichkeiten zur Verbesserung der Produktivität oder Sicherheit geschaffen.
Ein hervorragendes Beispiel ist die 3D-Gesichtserkennung. 2D-Systeme waren einst bei Anwendungen wie der Zugangskontrolle ausreichend. Als die Menschen dann gelernt haben, sie mit Spoofing-Techniken wie Gesichtsbildern zu täuschen, wurde die 3D-Erkennung notwendig, um diesem Problem Einhalt zu gebieten. Sie bewältigt auch Schwierigkeiten wie das Erkennen von Menschen, nachdem sie sich einen Bart wachsen lassen, oder wenn sie eine Brille oder eine COVID-Maske tragen.
Eine komplexe Bilderkennungstechnologie macht den Unterschied auch in Bereichen, die nicht nur die Sicherheit betreffen. In der Industrie kann sie zur Verbesserung der Produktqualität bezüglich Form, Größe und Farbe genutzt werden, während sie bei Kfz-Anwendungen zur straßenseitigen Detektion, zur Fahrspurerkennung oder zur Erkennung von Tieren, Menschen oder Objekten auf belebten Fahrspuren verwendet wird. Sie kann auch die Präsenz von Menschen darstellen, zum Beispiel in öffentlichen Verkehrsmitteln.
Leistungsstärkere Hardware und zunehmend ausgefeilte KI-Software ermöglichen außerdem Bilderkennungssysteme mit Funktionen zur Stimmungserkennung. Beispielsweise können Automobilanbieter die Technologie zur Erkennung des Gesichtsausdrucks in intelligenten Fahrzeugen verwenden, sodass der Fahrer gewarnt werden kann, wenn erkannt wird, dass er müde ist.
Allerdings müssen Systemhersteller, die leistungsstärkere Lösungen mit geringer Latenz anbieten möchten, Produkte bereitstellen, die gleichzeitig auch stromsparender, kompakter und kostengünstiger sind. Sie müssen technisch konkurrenzfähig bleiben, während sie umweltfreundlich werden.
In zunehmendem Maße besteht die Lösung darin, Systeme, die einst auf großen Servern in der Cloud ausgeführt wurden, an den Netzwerkrand zu verlagern. Das bedeutet, dass KI-Algorithmen jetzt auf winzigen Mikrocontrollern laufen, die eingehende Bilder sehr schnell und mit großer Genauigkeit darstellen müssen. Obwohl dieser Aspekt in der Industrie, in der Roboter mehr Platz und Leistung zur Verfügung haben, weniger relevant ist, ist diese Technologie bei anderen Anwendungen in der Lage, leistungsstarke Bilderkennungslösungen auf Mobilgeräten und Armbanduhren der Benutzer bereitzustellen.
Wenn Gesichtserkennungssysteme lokal am Netzwerkrand ausgeführt werden, ohne Daten an die Cloud zu senden, können auch Bedenken in Bezug auf den Datenschutz ausgeräumt werden.

Abbildung 1: Screenshots einer Gesichtserkennungsanwendung mit dem Mikrocontroller MAX78000 von Analog Devices
Technologiekonzepte und praktische Ansätze für den Aufbau von Edge-Bilderkennungssystemen
Aus Sicht eines Systementwicklers umfasst ein KI-Bilderkennungssystem, wie jedes andere elektronische Produkt, eine Reihe von Hardware- und Softwarebausteinen, die in eine Basisplattform integriert werden müssen, welche zu einer anwendungsspezifischen Lösung weiterentwickelt werden kann. Dazu gehören Folgende:
Kamera oder andere Eingabevorrichtungen. Kameras gibt es in verschiedenen Technologien. Die Wahl der Kameratechnologie wirkt sich grundlegend auf das gesamte Systemdesign aus.
Ausgabevorrichtungen: Dazu könnte ein Sicherheitstor gehören, das es einem Gesichtserkennungssystem ermöglicht, den Zugang zu einem gesicherten Bereich zu kontrollieren. Es könnte ein Display sein, welches die Ergebnisse der KI-Analyse anzeigt. Zusätzlich wird es eine Netzwerkverbindung geben, wenn das Bilderkennungssystem Teil einer größeren Infrastruktur ist.
Mikrocomputer-Hardware: Dies kann auch lediglich einen Kernprozessor umfassen, wird aber wahrscheinlich zudem über einen KI-Motorbeschleuniger zur Leistungsverbesserung verfügen.
KI-Algorithmus: Viele Bilderkennungsanwendungen könnten die gleiche Hardware verwenden, aber verschiedene KI-Algorithmen können für die Erfüllung unterschiedlicher Anwendungen ausgeführt werden.
Um diese Teile in ein anwendungsspezifisches Bilderkennungssystem zu integrieren, müssen wir
- eine Technologie wie 3D-Gesichtserkennung oder 3D-ToF wählen, um hochwertige Bilddaten zu sammeln.
- einen KI-Algorithmus wie Convolutional Neural Networks (ConvNet/CNN) wählen, um aussagekräftige und verwertbare Informationen aus den Rohbilddaten zu extrahieren.
- einen Halbleiterhersteller finden, der die Hardware- und Entwicklungsumgebung bietet, welche am besten zu dem Bildaufnahme- und Verarbeitungsansatz passt, den Sie verfolgen möchten.
Sammlung hochwertiger Bilddaten
3D-Gesichtserkennung und 3D-ToF sind beliebte Ansätze:
3D-Gesichtserkennung
Bei der 3D-Gesichtserkennung wird mithilfe von Sensoren die Gesichtsform mit mehr Präzision erfasst. Im Gegensatz zu herkömmlichen Gesichtserkennungsmethoden wird die Genauigkeit der 3D-Gesichtserkennung nicht durch die Beleuchtung beeinträchtigt und Abtastungen können sogar im Dunkeln durchgeführt werden. Ein weiterer Vorteil der 3D-Gesichtserkennung ist, dass sie ein Ziel aus mehreren Winkeln und nicht nur ein gerades Profil erkennen kann. Im Gegensatz zur 2D-Gesichtserkennung kann sie nicht von Fotos getäuscht werden, die von Personen verwendet werden, welche versuchen, sich unbefugten Zugang zu einem gesicherten Bereich zu verschaffen.
Das iPhone X (und neuere Versionen) wird mit Face ID-Technologie, die auf 3D-Gesichtserkennung beruht, zur Identifizierung seines Besitzers bereitgestellt.
Der 3D-Gesichtserkennungsprozess besteht aus sechs Hauptschritten: Erkennung, Ausrichtung, Messung, Darstellung, Abgleich und Verifizierung oder Identifizierung
3D-Time-of-Flight
3D-Time-of-Flight (ToF) ist eine Art scannerlose LiDAR-Technologie (Light Detection and Ranging), die optische Impulse hoher Leistung im Nanosekundenbereich verwendet, um Tiefeninformationen (in der Regel über kurze Entfernungen) von einem Geschehen von Interesse zu erfassen.
Eine ToF-Kamera misst die Entfernung, indem sie ein Objekt aktiv mit einer modulierten Lichtquelle, wie einem Laser, beleuchtet, während ein für die Wellenlänge des Lasers empfindlicher Sensor das reflektierte Licht erfasst. Der Sensor misst die Zeitverzögerung ∆ zwischen dem Zeitpunkt, zu dem das Licht emittiert wird, und dem Zeitpunkt, zu dem das reflektierte Licht von der Kamera empfangen wird. Die Zeitverzögerung ist proportional zum doppelten Abstand zwischen Kamera und Objekt (Umlauf), daher kann der Abstand als Tiefe = cΔ/2 geschätzt werden, wobei c die Lichtgeschwindigkeit ist.
Es gibt verschiedene Methoden zur Messung von ∆T, von denen zwei am weitesten verbreitet sind: die Dauerstrichmethode (CW-Methode) und die pulsbasierte Methode. Man beachte, dass die überwiegende Mehrheit der CW-ToF-Systeme, die implementiert wurden und derzeit auf dem Markt erhältlich sind, CMOS-Sensoren verwenden, während gepulste ToF-Systeme Nicht-CMOS-Sensoren (insbesondere CCDs) verwenden.

Abbildung 2: Einfaches Diagramm einer ToF-Messung
Erhalten Sie aussagekräftige und verwertbare Informationen aus den Rohbilddaten
Nachdem wir eine der oben genannten Technologien zum Erfassen von Bilddaten verwendet haben, benötigen wir einen KI-Algorithmus, der auf der ausgewählten Hardware dazu ausgeführt wird, die Daten zu analysieren und aussagekräftige und verwertbare Ergebnisse zu liefern.
Ein Ansatz ist die Verwendung von Convolutional Neural Networks (ConvNet/CNN): Das sind Deep Learning-Algorithmen, die ein Eingangsbild aufnehmen, verschiedenen Aspekten/Objekten im Bild eine Wichtigkeit (erlernbare Gewichte und Neigungen) zuweisen und diese dann voneinander unterscheiden.
Die in einem CNN erforderliche Vorverarbeitung ist wesentlich geringer als bei anderen Klassifizierungsalgorithmen. Während bei primitiven Methoden Filter von Hand entwickelt werden, haben CNNs bei ausreichendem Training die Fähigkeit, diese Filter/Eigenschaften zu erlernen.
Die Architektur eines CNN ist analog zu der des Konnektivitätsmusters von Neuronen im menschlichen Gehirn und wurde von der Gestaltung der Sehrinde inspiriert.
Ein CNN ist in der Lage, die räumlichen und zeitlichen Abhängigkeiten in einem Bild durch die Anwendung relevanter Filter erfolgreich zu erfassen. Die Architektur passt sich aufgrund der Reduzierung der Anzahl der beteiligten Parameter und der Wiederverwendbarkeit von Gewichten besser an den Bilddatensatz an. Das heißt, das Netzwerk kann dazu trainiert werden, die Feinheit des Bildes besser zu verstehen.
Aber auch andere Deep Learning-Algorithmen entwickeln sich schnell weiter, wobei Datentypen mit geringerer Präzision wie INT8, binäre, ternäre und benutzerdefinierte Daten verwendet werden.
Hardware und Ökosysteme von Halbleiterherstellern
Unabhängig davon, welcher KI-Algorithmus gewählt wird, muss er, um effektiv zu sein, auf geeigneter Hardware ausgeführt werden, welche die erforderliche Verarbeitungsleistung bereitstellen kann, ohne übermäßige Anforderungen an elektrische Leistung, Platz, Gewicht oder Kosten zu stellen.
Wenn es um praktische Hardware-Implementierungen geht, neigen Halbleiterhersteller dazu, ihre eigenen Ökosysteme, basierend auf der zugrunde liegenden Hardware, die sie jeweils entwickelt haben, zusammen mit geeigneter Software und Entwicklungstools anzubieten. Wenn sich Entwickler für die Zusammenarbeit mit einem Halbleiterhersteller entscheiden, müssen sie sich bewusst sein, dass sie sich sowohl auf das Entwicklungsökosystem des Herstellers sowie auf dessen Bildverarbeitungshardware verlassen.
Im Folgenden sehen wir Bilderkennungslösungen von drei führenden Unternehmen im Bereich der KI-Hardware – Analog Devices, Xilinx und NXP Semiconductors.
Die Lösung von Analog Devices basiert auf der eigenen Produktfamilie MAX78000, einschließlich MAX78002, einer Convolutional Neural Network (CNN)-Inferenz-Engine mit äußerst geringem Stromverbrauch. Die fortschrittliche System-on-Chip-Architektur von MAX78002 verfügt über einen Arm® Cortex®-M4 mit FPU-CPU und einen Beschleuniger für tiefe neuronale Netze mit äußerst geringer Leistungsaufnahme. (Siehe Textfeld: „Die Rolle von Beschleunigern für neuronale Netze“.)
Der integrierte RISC-V-Core kann Anwendungs- und Steuercodes ausführen sowie den CNN-Beschleuniger ansteuern.
Die Rolle von Beschleunigern für neuronale Netze
Deep Learning ist derzeit einer der bekanntesten maschinellen Lernansätze zur Lösung komplexer Aufgaben, welche bisher nur von Menschen bewerkstelligt werden konnten. Bei Anwendungen wie Computer Vision oder Spracherkennung erreichen Deep Neural Networks (DNNs) eine hohe Genauigkeit im Vergleich zu nicht lernenden Algorithmen und in einigen Fällen sogar eine höhere als menschliche Experten. Die größere Genauigkeit von DNNs im Vergleich zu nicht-lernenden Algorithmen ist auf die Fähigkeit zurückzuführen, hochrangige Merkmale aus den Eingangsdaten zu extrahieren, nachdem statistisches Lernen an einer großen Anzahl von Trainingsdaten verwendet wurde.
Statistisches Lernen führt zu einer effizienten Darstellung des Eingangsraums und einer guten Verallgemeinerung. Diese Fähigkeit erfordert jedoch einen hohen Rechenaufwand. Allerdings kann durch die Erhöhung der Anzahl von Parametern die Präzision eines Netzes verbessert werden. Folglich ist deutlich, dass die Netzgröße bei DNNs tendenziell exponentiell zunimmt. Dies führt zu einem exponentiell steigenden Rechenaufwand und erforderlichen Speicherplatzbedarf.
Aus diesem Grund reichen zentrale Recheneinheiten (CPUs) allein nicht aus, um die Rechenbelastung zu bewältigen. Entsprechend werden strukturell optimierte Hardware-Beschleuniger dazu eingesetzt, die Inferenzleistung neuronaler Netze zu erhöhen. Für die Inferenz eines neuronalen Netzes, das auf Edge-Geräten ausgeführt wird, ist neben dem Durchsatz auch die Energieeffizienz ein wichtiger Faktor, der zu berücksichtigen ist.
Als Folgeprodukt von MAX78000 verfügt MAX78002 über zusätzliche Rechenleistung und Speicher und ist Teil der neuen Generation von Mikrocontrollern mit künstlicher Intelligenz (KI), welche die Ausführung von neuronalen Netzen mit äußerst geringer Leistungsaufnahme ermöglichen und sich am Rande des Internets der Dinge (IoT) ansiedeln.
Dieses Produkt kombiniert die energieeffizienteste KI-Verarbeitung mit den bewährten, äußerst stromsparenden Mikrocontrollern von Analog Device. Mit einem hardwarebasierten CNN-Beschleuniger können batteriebetriebene Anwendungen KI-Inferenzen ausführen, während sie nur Energie im Mikrojoule-Bereich verbrauchen.

Abbildung 3: Architektur des Mikrocontrollers MAX78002 von Analog Devices
Sie können den Mikrocontroller nutzen, indem Sie das Evaluationskit MAX78002 (EV-Kit) verwenden. Dies bietet eine Plattform zur Nutzung der Gerätefunktionen, um neue Generationen von KI-Produkten zu entwickeln. Das Kit verfügt über integrierte Hardware wie ein digitales Mikrofon, serielle Schnittstellen, Unterstützung für DVP- und CSI-Kameramodule sowie ein Farb-TFT-Touch-Display (3,5 Zoll).
Es enthält zudem die Schaltung zur Überwachung und Anzeige des Leistungspegels auf dem sekundären TFT-Display. Der MAX34417 überwacht die Spannung und den Strom des MAX78002 und meldet die akkumulierte Leistung an den MAX32625, der als Leistungsdatenprozessor verwendet wird, welcher auch die Leistungsanzeige steuert.
Entwicklung eines Gesichtsidentifikationsmodells: Entwickler können Gesichtsidentifikationsmodelle mithilfe des Entwicklungsablaufs von Analog Devices auf PyTorch erstellen, die mit verschiedenen offenen Datensätzen trainiert und auf dem Evaluationsboard MAX78000 bereitgestellt werden. Abb. 4 stellt den Entwicklungsablauf dar.

Abbildung 4: Entwicklungsablauf auf dem MAX78000
Der Entwicklungsprozess löst das Problem der Gesichtserkennung in drei wesentlichen Schritten:
- Gesichtsextraktion: Erkennung der Gesichter im Bild, um ein rechteckiges Teilbild zu extrahieren, welches nur ein Gesicht enthält.
- Gesichtsausrichtung: Bestimmung der Drehwinkel (in 3D) des Gesichts im Teilbild zur Kompensation seiner Wirkung durch affine Transformation.
- Gesichtserkennung: Identifikation der Person anhand des extrahierten und ausgerichteten Teilbildes.
Xilinx verwendet einen anderen Hardware-Ansatz, der auf dem Kria K26-System-on-Module (SOM) basiert. Das SOM soll es Entwicklern in ihrer bevorzugten Designumgebung ermöglichen, ihre intelligenten Bildverarbeitungsanwendungen mit einem sofort einsatzbereiten, kostengünstigen Development Kit schneller bereitzustellen.
Das K26-SOM eignet sich gut für Edge-Anwendungen, da seine zugrunde liegende Zynq-MPSoC-Architektur eine hohe Leistung/Watt und niedrige Betriebskosten bietet. Kria-SOMs sind per Hardware konfigurierbar, was sie skalierbar und zukunftssicher macht.
Das Design des Geräts bietet weitere Leistungsvorteile:
Geballte Rechenleistung: Das K26 kann mit verschiedenen DPU-Konfigurationen (Deep Learning Processing Unit) konfiguriert werden. Auf der Grundlage von Leistungsanforderungen kann die am besten anwendbare Konfiguration in das Design integriert werden. Als Beispiel bietet die DPU B3136 bei 300 MHz eine Spitzenleistung von 0,94 TOPS.
Unterstützung von Datentypen mit geringerer Präzision: Angesichts der schnellen Entwicklung von Deep Learning-Algorithmen werden Datentypen mit geringerer Präzision wie INT8, binäre, ternäre und benutzerdefinierte Daten verwendet. Für GPU-Anbieter ist es schwierig, den aktuellen Marktanforderungen gerecht zu werden, da sie ihre Architektur ändern/optimieren müssten, um benutzerdefinierte oder weniger präzise Datentypen zu unterstützen. Das Kria K26-SOM unterstützt eine ganze Reihe von Datentyp-Präzisionsgraden wie FP32, INT8, binäre und andere benutzerdefinierte Datentypen – und der Betrieb mit Datentypen mit geringerer Präzision verbraucht nachweislich viel weniger Strom.
Niedrige Latenz und geringer Verbrauch: Die Rekonfigurierbarkeit der Zynq MPSoC-Architektur ermöglicht es Entwicklern, ihre Anwendung mit reduzierten oder ohne externen Speicherzugriffen zu gestalten. Das trägt nicht nur dazu bei, den Gesamtstromverbrauch der Anwendung zu verringern, sondern auch die Reaktionsfähigkeit bei geringeren End-to-End-Latenzen zu verbessern.
Flexibilität: Im Gegensatz zu GPUs, bei denen der Datenfluss unveränderlich ist, bietet die Hardware von Xilinx Flexibilität, um den Datenpfad einmalig neu zu konfigurieren und so maximalen Durchsatz und geringere Latenzzeiten zu erzielen. Außerdem reduziert der programmierbare Datenpfad die Notwendigkeit für Batching, was ein großer Nachteil bei GPUs ist und zu einer Kompromissentscheidung zwischen niedrigeren Latenzzeiten oder höherem Durchsatz führt.
Zur Evaluierung und Entwicklung bietet Xilinx das Starter-Kit KV260 an, das ein Kria K26-SOM enthält, welches mit einer visionszentrierten Trägerkarte verbunden ist. Die Kombination dieser vordefinierten Vision-Hardware-Plattform und eines robusten und umfassenden Software-Stacks, der auf Yocto oder Ubuntu basiert, zusammen mit vorgefertigten Vision-fähigen beschleunigten Anwendungen bietet Entwicklern eine beispiellose Möglichkeit dazu, Technologien von Xilinx zum Aufbau von Systemen zu nutzen.
Nach Abschluss der Entwicklung ist die Anpassung für Produktionsbereitstellungen einfach. Das Kria-SOM wird mit einer einfachen, vom Endbenutzer gestalteten Trägerkarte kombiniert, welche die Konnektivität und zusätzliche spezifische Bauelemente für das eigene Zielsystem enthält.

Abbildung 5: Vision-KI-Starter-Kit KV260 von Xilinx
Anwendungsbeispiel: Xilinx hat sich mit Uncanny Vision, einem Branchenführer für Videoanalyse-Lösungen für intelligente Städte mit dem Ziel zusammengetan, dem Markt eine erstklassige Erkennungslösung für Kfz-Nummernschilder (Kennzeichen) (ANPR) anzubieten. Die Anwendung kommt in vielen Städten der Welt als Teil des Smart City-Ausbaus weitverbreitet zum Einsatz.
Die ANPR-Anwendung ist eine KI-basierte Pipeline, die Video-Decoding, Bildvorverarbeitung, maschinelles Lernen (Erkennung) und OCR-Zeichenerkennung umfasst. Abb. 6 stellt die Bausteine der Anwendung dar.

Abbildung 6: Bausteine der ANPR-Anwendung
NXP Semiconductors hat sein NXP EdgeReady-Portfolio erweitert und eine Lösung für die sichere Gesichtserkennung hinzugefügt, die eine leistungsstarke 3D-Kamera mit strukturiertem Lichtmodul (SLM) in Kombination mit der Crossover-MCU i.MX RT117F nutzt. Dies ist die erste Lösung, die eine 3D-SLM-Kamera mit einer MCU kombiniert, um die Leistung und Sicherheit der 3D-Gesichtserkennung am Netzwerkrand zu liefern, wodurch die Notwendigkeit entfällt, eine teure und stromhungrige Linux-Implementierung auf einer MPU zu verwenden, wie es traditionell bei leistungsstarken 3D-Kameras erforderlich ist.
Die neueste EdgeReady-Lösung ermöglicht es Entwicklern von Smart Locks und anderen Zugangskontrollsystemen, Smarthome- und Smart Building-Produkten eine auf maschinellem Lernen basierende sichere Gesichtserkennung schnell und einfach hinzuzufügen. Die Lösung bietet eine zuverlässige 3D-Gesichtserkennung für Innen- und Außenanwendungen bei unterschiedlichen Lichtverhältnissen, einschließlich hellem Sonnenlicht, schwachem Nachtlicht oder anderen ungünstigen Lichtverhältnissen, die für herkömmliche Gesichtserkennungssysteme problematisch sind.
Die Verwendung einer 3D-SLM-Kamera ermöglicht eine erweiterte Lebendigkeitserkennung, die dazu beiträgt, eine echte Person von Spoofing-Techniken wie einem Foto, einer Imitatormaske oder einem 3D-Modell zu unterscheiden, sodass ein unbefugter Zugang verhindert wird.
Der i.MX RT117F nutzt ein fortschrittliches Modell für maschinelles Lernen als Teil der eIQ-Software für maschinelles Lernen von NXP, die auf seinem leistungsstarken CPU-Kern läuft und eine schnellere und genauere Gesichtserkennung ermöglicht, um nicht nur die Benutzererfahrung, sondern auch die Energieeffizienz zu verbessern.
Ähnlich wie bei der NXP EdgeReady-Lösung auf Basis der MCU i.MX RT106F für die sichere Gesichtserkennung finden die fortschrittliche Lebendigkeitserkennung und die Gesichtserkennung lokal am Netzwerkrand statt, sodass persönliche biometrische Daten auf dem Gerät verbleiben können. Dies trägt dazu bei, Bedenken hinsichtlich des Datenschutzes der Verbraucher auszuräumen und gleichzeitig die mit Cloud-basierten Lösungen verbundene Latenz zu beseitigen.
Fazit
In diesem Artikel wurden die verfügbaren Technologien zur Entwicklung verbesserter Bilderkennungssysteme erörtert und Beispiele für Hardware-Plattformen und Entwicklungsökosysteme verschiedener Halbleiterhersteller vorgestellt, welche für die Implementierung der Technologien verfügbar sind.
Dies hat deutlich gemacht, dass die Herangehensweise jedes einzelnen Herstellers hinsichtlich bereits vorhandener Hardware-Implementierungen und Bauelementen sehr unterschiedlich ist. Weitere Hersteller, die nicht in diesem Artikel erwähnt wurden, bieten ebenfalls eigene Lösungen an.
Daher ist es sinnvoll, sich an einen Anbieter wie Farnell zu wenden, welcher Zugang zu einer Vielzahl von Herstellern und Lösungen hat. Wir verfügen über Fachleute, welche die Faktoren besprechen können, die bei der Auswahl der richtigen Hardwarearchitektur und Entwicklungsumgebung und dann beim Übergang zur Produktion zu berücksichtigen sind.