Vooruitgang in computervisie stimuleert transportautonomie

Zelfrijdende auto herkent verkeersborden. Computervisie en kunstmatige intelligentie ... [+] concept.

getty

Visie is een krachtige menselijke zintuiglijke input. Het maakt complexe taken en processen mogelijk die we als vanzelfsprekend beschouwen. Met een toename van AoT™ (Autonomy of Things) in diverse toepassingen, variërend van transport en landbouw tot robotica en geneeskunde, wordt de rol van camera's, computers en machine learning bij het bieden van mensachtige visie en cognitie steeds belangrijker. Computervisie als academische discipline nam in de jaren zestig een vlucht, voornamelijk aan universiteiten die zich bezighouden met het opkomende gebied van kunstmatige intelligentie (AI) en machine learning. Het ging dramatisch vooruit in de komende vier decennia toen er aanzienlijke vooruitgang werd geboekt in de halfgeleider- en computertechnologieën. Recente ontwikkelingen op het gebied van deep learning en kunstmatige intelligentie hebben de toepassing van computervisie verder versneld om realtime waarneming en kennis van de omgeving met lage latentie te bieden, waardoor autonomie, veiligheid en efficiëntie in verschillende toepassingen mogelijk worden. Transport is een gebied dat aanzienlijk heeft geprofiteerd.

LiDAR (Light Detection and Ranging) is een actieve optische beeldvormingsmethode die lasers gebruikt om de 3D-omgeving rond een object te bepalen. Het is een van de technologieën die computervisie-oplossingen (die puur afhankelijk zijn van omgevingslicht en geen lasers gebruiken voor 3D-waarneming) proberen te verstoren. Het gemeenschappelijke thema is dat menselijke bestuurders LiDAR niet nodig hebben voor dieptewaarneming, dus machines ook niet. Huidige commerciële L3-functies voor autonoom rijden (volledige autonomie in specifieke regio's en weersomstandigheden, waarbij de bestuurder binnen enkele seconden klaar is om de controle over te nemen) producten van vandaag gebruik LiDAR. Puur op visie gebaseerde technieken hebben deze mogelijkheid nog steeds niet commercieel kunnen aanbieden.

ADVERTENTIE

TeslaTSLA
is een dominante voorstander van het gebruik van passieve camera-gebaseerde computervisie om de autonomie van passagiersvoertuigen te bieden. Tijdens het recente AI Day-evenement van het bedrijf gaven Elon Musk en zijn ingenieurs een indrukwekkende presentatie van zijn AI-, gegevensbeheer- en computermogelijkheden die onder andere de Full Self Driving (FSD)-functie op meerdere Tesla-modellen ondersteunen. FSD vereist dat de menselijke bestuurder te allen tijde betrokken is bij de rijtaak (wat consistent is met L2-autonomie). Momenteel is deze optie beschikbaar op 160,000 voertuigen die zijn gekocht door klanten in de VS en Canada. Een suite van 8 camera's op elk voertuig biedt een 360° bezettingskaart. Cameragegevens (en andere) van deze voertuigen worden gebruikt om het neurale netwerk (dat gebruikmaakt van auto-labeling) te trainen om objecten te herkennen, potentiële voertuigtrajecten uit te zetten, optimale te selecteren en de juiste controleacties te activeren. Er zijn de afgelopen 75 maanden ~12K updates van het neurale netwerk geweest (~1 update elke 7 minuten) omdat er voortdurend nieuwe gegevens worden verzameld en labelfouten of manoeuvreerfouten worden gedetecteerd. Het getrainde netwerk voert plannings- en controleacties uit via een ingebouwde, redundante architectuur van speciaal gebouwde computerelektronica. Tesla verwacht dat FSD uiteindelijk zal leiden tot autonome voertuigen (AV's), die volledige autonomie bieden in bepaalde operationele ontwerpdomeinen zonder dat menselijke betrokkenheid van de bestuurder vereist is (ook wel L4-autonomie genoemd).

Andere bedrijven zoals Phiar, Helm.ai en NODAR volgen ook de weg van computervisie. NODAR heeft tot doel het beeldbereik en de 3D-perceptie van stereocamerasystemen aanzienlijk uit te breiden door te leren aanpassen voor verkeerde uitlijning van de camera en trillingseffecten door middel van gepatenteerde machine learning-algoritmen. Het heeft onlangs $ 12 miljoen opgehaald voor de productie van zijn vlaggenschipproduct, Hammerhead™, dat gebruik maakt van "kant-en-klare" camera's van automobielkwaliteit en standaard computerplatforms.

Afgezien van de kosten en de grootte, is een veelvoorkomend argument tegen het gebruik van LiDAR dat het een beperkt bereik en een beperkte resolutie heeft in vergelijking met camera's. Zo zijn er tegenwoordig LiDAR's met een bereik van 200 m en 5-10 M punten/seconde (PPS verwant aan resolutie). Op 200 m zullen kleine obstakels zoals stenen of bandenresten zeer weinig punten registreren (misschien 2-3 in verticale richting en 3-5 in horizontale richting), wat objectherkenning moeilijk maakt. Op grotere afstanden wordt het nog grover. Ter vergelijking: standaard megapixelcamera's met een snelheid van 30 Hz kunnen 30 miljoen pixels per seconde genereren, waardoor zelfs op grote afstand superieure objectherkenning mogelijk is. Meer geavanceerde camera's (12 M pixels) kunnen dit nog verder vergroten. De kwestie is hoe deze enorme hoeveelheid gegevens te gebruiken en bruikbare waarneming te produceren met latenties op millisecondenniveau, een laag stroomverbruik en verslechterde lichtomstandigheden.

ADVERTENTIE

Herken, een in Californië gevestigd bedrijf, probeert dit probleem op te lossen. Volgens CEO Mark Bolitho is het haar missie om “bovenmenselijke visuele waarneming te leveren voor volledig autonome voertuigen.” Het bedrijf werd opgericht in 2017, heeft tot nu toe $ 75 miljoen opgehaald en heeft 70 werknemers. RK Anand, een alumnus van Juniper Networks, is een van de medeoprichters en Chief Product Officer. Hij is van mening dat het gebruik van camera's met een hogere resolutie, met een dynamisch bereik van > 120 dB, met hoge framesnelheden (bijvoorbeeld OnSemi, Sony en Omnivision) de gegevens levert die nodig zijn om 3D-informatie met een hoge resolutie te creëren, wat essentieel is voor het realiseren van AV's. De aanjagers hiervan zijn:

Op maat ontworpen ASIC's om de gegevens efficiënt te verwerken en nauwkeurige 3D-kaarten met hoge resolutie van de auto-omgeving te produceren. Deze zijn vervaardigd op een TSMC 7 nm-proces, met een chipgrootte van 100 mm², werkend op een frequentie van 1 GHz.
Eigen algoritmen voor machine learning om miljoenen datapunten offline te verwerken om het getrainde neurale netwerk te creëren, dat vervolgens efficiënt kan werken en continu kan leren. Dit netwerk zorgt voor de beleving en omvat objectclassificatie & detectie, semantische segmentatie, rijbaandetectie, verkeersborden en verkeerslichtherkenning
Het minimaliseren van off-chip opslag en vermenigvuldigingsbewerkingen die veel energie verbruiken en een hoge latentie veroorzaken. Het ASIC-ontwerp van Recogni is geoptimaliseerd voor logaritmische wiskunde en maakt gebruik van optelling. Verdere efficiënties worden gerealiseerd door gewichten optimaal te clusteren in het getrainde neurale netwerk.

Tijdens de trainingsfase wordt een commerciële LiDAR gebruikt als grondwaarheid om stereocameragegevens met hoge resolutie en hoog dynamisch bereik te trainen om diepte-informatie te extraheren en robuust te maken tegen verkeerde uitlijning en trillingseffecten. Volgens de heer Anand is hun machine learning-implementatie zo efficiënt dat het diepteschattingen kan extrapoleren die verder gaan dan de trainingsbereiken die worden geboden door de LiDAR-kalibratie (die de grondwaarheid biedt tot een bereik van 100 m).

ADVERTENTIE

Afbeelding 1: Groene vakken tonen de 3D-prestaties van Recogni's perceptiestack op getrainde gegevens bij 100 ... [+] m bereik. De blauwe pijl geeft dieptewaarneming weer op afstanden buiten de trainingsgegevens op 130 m.

Herken

De bovenstaande trainingsgegevens zijn overdag uitgevoerd met een stereopaar van 8.3-megapixelcamera's met een framesnelheid van 30 Hz (~0.5B pixels per seconde). Het demonstreert het vermogen van het getrainde netwerk om 3D-informatie in de scène te extraheren buiten het bereik van 100 m waarmee het is getraind. De oplossing van Recogni kan zijn leerervaringen met daggegevens ook extrapoleren naar nachtelijke prestaties (Figuur 2).

Afbeelding 2: Recogni's waarnemingsstack, getraind op daggegevens, presteert ook bij een lager lichtniveau ... [+] nachtelijke omstandigheden

Herken

ADVERTENTIE

Volgens de heer Anand zijn de bereikgegevens nauwkeurig tot op 5% (bij lange afstanden) en bijna 2% (bij kortere afstanden). De oplossing biedt 1000 TOPS (biljoen bewerkingen per seconde) met een latentie van 6 ms en een stroomverbruik van 25 W (40 TOPS/W), wat toonaangevend is in de branche. Concurrenten die wiskunde met gehele getallen gebruiken, scoren > 10x lager op deze statistiek. De oplossing van Recogni wordt momenteel getest bij meerdere automotive Tier 1-leveranciers.

Profeet (“voorspellen en zien waar de actie is”), gevestigd in Frankrijk, gebruikt zijn op gebeurtenissen gebaseerde camera's voor AV's, geavanceerde rijhulpsystemen (ADAS), industriële automatisering, consumententoepassingen en gezondheidszorg. Opgericht in 2014, de bedrijf sloot onlangs zijn C-ronde financiering van $ 50 miljoen, met een totaal van $ 127 miljoen opgehaald tot nu toe. Xiaomi, een toonaangevende fabrikant van mobiele telefoons, is een van de investeerders. Het doel van Prophesee is om het menselijk gezichtsvermogen na te bootsen waarin de receptoren in het netvlies reageren op dynamische informatie. Het menselijk brein richt zich op het verwerken van veranderingen in de scène (vooral voor autorijden). Het basisidee is om camera- en pixelarchitecturen te gebruiken die veranderingen in lichtintensiteit boven een drempelwaarde (een gebeurtenis) detecteren en alleen deze gegevens door te geven aan de compute-stack voor verdere verwerking. De pixels werken asynchroon (niet geframed zoals in gewone CMOS-camera's) en met veel hogere snelheden, omdat ze geen fotonen hoeven te integreren zoals in een conventionele frame-gebaseerde camera en wachten tot het hele frame klaar is voordat de gegevens worden uitgelezen. De voordelen zijn aanzienlijk: lagere databandbreedte, beslissingslatentie, opslag en stroomverbruik. De eerste commerciële VGA-gebeurtenisgebaseerde vision-sensor van het bedrijf had een hoog dynamisch bereik (>120 dB), een laag stroomverbruik (26 mW op sensorniveau of 3 nW/gebeurtenis). Er is ook een HD-versie (High Definition) (samen ontwikkeld met Sony) gelanceerd met een toonaangevende pixelgrootte (< 5 m).

Afbeelding 3: Op gebeurtenissen gebaseerde beeldsensor in High Definition-formaat met een pixelpitch van 5 um, gezamenlijk ontwikkeld ... [+] met Sony

Profeet

ADVERTENTIE

Deze sensoren vormen de kern van het Metavision®-detectieplatform, dat AI gebruikt om slimme en efficiënte perceptie te bieden voor autonomietoepassingen en wordt geëvalueerd door meerdere bedrijven in de transportruimte. Afgezien van naar voren gerichte waarneming voor AV's en ADAS, is Prophesee actief betrokken bij klanten voor bewaking in de cabine van de bestuurder voor L2- en L3-toepassingen, zie Afbeelding 4:

Afbeelding 4: XPERI bewaking van de bestuurder in de cabine op basis van door numan geïnspireerde neuromorfe visie

Profeet

Automotive kansen zijn lucratief, maar de design-in cycli zijn lang. In de afgelopen twee jaar heeft Prophesee aanzienlijke interesse en tractie gezien in de machinevisieruimte voor industriële toepassingen. Deze omvatten tellen op hoge snelheid, oppervlakte-inspectie en trillingsbewaking.

ADVERTENTIE

Afbeelding 5: Hoog tellen met op gebeurtenissen gebaseerde camera's

Profeet

Prophesee heeft onlangs samenwerkingen aangekondigd met toonaangevende ontwikkelaars van machine vision-systemen om kansen in industriële automatisering, robotica, automotive en IoT (Internet of Things) te benutten. Andere directe mogelijkheden zijn beeldwaascorrectie voor mobiele telefoons en AR/VR-toepassingen. Deze maken gebruik van sensoren met een lager formaat dan de sensoren die worden gebruikt voor de ADAS/AV-mogelijkheden op langere termijn, verbruiken nog minder stroom en werken met een aanzienlijk lagere latentie.

Israël is een toonaangevende innovator op het gebied van geavanceerde technologie, met aanzienlijke risico-investeringen en een actieve start-upomgeving. Sinds 2015 heeft er ongeveer $ 70 miljard aan door durfkapitaal geleide investeringen in de technologiesector plaatsgevonden. Een deel hiervan ligt op het gebied van computervisie. Mobileye leidde deze revolutie in 1999 toen Amnon Shashua, een vooraanstaand AI-onderzoeker aan de Hebreeuwse Universiteit, het bedrijf oprichtte om zich te concentreren op cameragebaseerde waarneming voor ADAS en AV's. Het bedrijf diende in 2014 een beursintroductie in en werd overgenomen door IntelINTC
in 2017 voor $ 15 miljard. Tegenwoordig is het gemakkelijk de leidende speler in het computervisie- en AV-domein en sinds kort kondigde haar voornemen aan om een IPO aan te vragen en een zelfstandige entiteit worden. Mobileye had een omzet van $ 1.4 miljard per jaar en bescheiden verliezen ($ 75 miljoen). Het biedt computer vision-mogelijkheden aan 50 OEM's in de auto-industrie die het inzetten in 800 automodellen voor ADAS-mogelijkheden. In de toekomst willen ze toonaangevend zijn op het gebied van L4-autonomie (geen bestuurder vereist) met behulp van deze computervisie-expertise en LiDAR-mogelijkheden op basis van Intel's siliciumfotonica-platform. De waardering van Mobileye wordt geschat op ~ $ 50 miljard wanneer ze eindelijk naar de beurs gaan.

ADVERTENTIE

Champel hoofdstad, gevestigd in Jeruzalem, loopt voorop bij het investeren in bedrijven die producten ontwikkelen op basis van computervisie voor uiteenlopende toepassingen, van transport en landbouw tot beveiliging en veiligheid. Amir Weitman is mede-oprichter en managing partner en startte zijn venture-bedrijf in 2017. Het eerste fonds investeerde $ 20 miljoen in 14 bedrijven. Een van hun investeringen was in Innoviz, dat in 2018 door een SPAC-fusie naar de beurs ging en een LiDAR-eenhoorn werd. Onder leiding van Omer Keilaf (die afkomstig was van de technologie-eenheid van het inlichtingenkorps van de Israel Defense Force), het bedrijf is tegenwoordig een leider in LiDAR-implementaties voor ADAS en AV's, met meerdere ontwerpoverwinningen bij BMW en Volkswagen.

Het tweede fonds van Champel Capital (Impact Deep Tech Fund II) werd in januari 2022 opgericht en heeft tot nu toe $ 30 miljoen opgehaald (het doel is $ 100 miljoen tegen eind 2022). Een dominante focus ligt op computervisie, met $ 12 miljoen ingezet in vijf bedrijven. Drie daarvan gebruiken computervisie voor transport en robotica.

tankU, gevestigd in Haifa, is in 2018 gestart en heeft $ 10 miljoen aan financiering opgehaald. Dan Valdhorn is de CEO en is afgestudeerd aan Unit 8200, een elite hightech-groep binnen de Israëlische defensiemacht die verantwoordelijk is voor signaalintelligentie en codedecodering. De SaaS-producten (Software as a Service) van TankU automatiseren en beveiligen processen in complexe buitenomgevingen voor voertuigen en chauffeurs. Deze producten worden gebruikt door eigenaren van wagenparken, personenauto's, tank- en elektrische laadstations om diefstal en fraude bij geautomatiseerde financiële transacties te voorkomen. Voertuigbrandstofdiensten genereren jaarlijks ~$2T aan wereldwijde inkomsten, waarvan eigenaren van particuliere en commerciële wagenparken 40% of $800B verbruiken. Retailers en wagenparkeigenaren verliezen jaarlijks ~$ 100 miljard door diefstal en fraude (bijvoorbeeld het gebruik van een wagenparktankpas voor niet-geautoriseerde privévoertuigen). CNP-fraude (Card not present) en manipulatie/brandstofdiefstal zijn extra bronnen van verlies, vooral bij het gebruik van gestolen kaartgegevens in mobiele apps voor betalingen.

ADVERTENTIE

Het TUfuel-product van het bedrijf maakt veilige betaling met één tik mogelijk, blokkeert de meeste soorten fraude en waarschuwt klanten wanneer het fraude vermoedt. Het doet dit op basis van een AI-engine die is getraind op gegevens van bestaande CCTV's in deze faciliteiten en digitale transactiegegevens (inclusief POS- en andere back-endgegevens). Parameters zoals het traject en de dynamiek van het voertuig, voertuig-ID, reistijd, kilometerstand, tanktijd, brandstofhoeveelheid, brandstofgeschiedenis en rijgedrag zijn enkele kenmerken die worden gecontroleerd om fraude te detecteren. Deze gegevens helpen retailers ook om de werking van de site te optimaliseren, de klantloyaliteit te vergroten en op visie gebaseerde marketingtools in te zetten. Volgens CEO Dan Valdhorn detecteert hun oplossing 70% van de vloot, 90% van de creditcard- en 70% van fraudegerelateerde fraudegebeurtenissen.

Afbeelding 6: TUfuel gebruikt realtime gegevens van CCTV-camera's van tankstations en andere digitale gegevens van ... [+] Point of Service en mobiele app-activiteiten

TankU

Sonol is een energiedienstverlener die een netwerk van 240 stations en gemakswinkels in heel Israël bezit en exploiteert. TUfuel wordt ingezet op hun locaties en heeft verbeterde beveiliging, fraudepreventie en klantloyaliteit aangetoond. In de VS worden productproeven uitgevoerd in samenwerking met een toonaangevende wereldwijde leverancier van tankstations en apparatuur voor gemakswinkels. Ook in Afrika en Europa zijn soortgelijke initiatieven gaande.

ADVERTENTIE

Gevestigd in Tel-Aviv ITC werd in 2019 opgericht door machine learning academici van de Ben-Gurion University. ITC maakt SaaS-producten die: "meet de verkeersstroom, voorspel congestie en verminder deze door slimme manipulatie van verkeerslichten - voordat er zich files beginnen te vormen." Net als TankU gebruikt het gegevens van kant-en-klare camera's (reeds geïnstalleerd op tal van verkeersknooppunten) om live verkeersgegevens te verkrijgen. Gegevens van duizenden camera's in een stad worden geanalyseerd en parameters zoals voertuigtype, snelheid, bewegingsrichting en volgorde van voertuigtypes (vrachtwagens versus auto's) worden geëxtraheerd door de toepassing van eigen AI-algoritmen. Simulaties voorspellen de verkeersstroom en mogelijke filesituaties tot 30 minuten van tevoren. Met deze resultaten worden verkeerslichten aangepast om de doorstroming te vergemakkelijken en files te voorkomen.

Afbeelding 7: Gegevens van duizenden camera's worden verzameld door een VMS binnen een stadsverkeersleiding ... [+] kamer. ITC-servers verwerken deze gegevens via getrainde AI-algoritmen om verkeerslichten te regelen

ITC

Het trainen van het AI-systeem kost een maand aan visuele gegevens in een typische stad en omvat een combinatie van begeleid en niet-gesuperviseerd leren. De oplossing van ITC wordt al ingezet in Tel-Aviv (op de 25e plaats van 's werelds meest overbelaste steden in 2020), met duizenden camera's op honderden kruispunten die worden gecontroleerd door verkeerslichten. Het systeem van ITC beheert momenteel 75 voertuigen, wat naar verwachting zal blijven groeien. Het bedrijf installeert een vergelijkbaar vermogen in Luxemburg en begint proeven in grote Amerikaanse steden. Wereldwijd beheert de oplossing 300,000 voertuigen met vestigingen in Israël, de VS, Brazilië en Australië. Dvir Kenig, de CTO, heeft een passie voor het oplossen van dit probleem – om mensen persoonlijke tijd terug te geven, broeikasgassen te verminderen, de algehele productiviteit te verbeteren en, belangrijker nog, ongevallen op overvolle kruispunten te verminderen. Volgens de heer Kenig, "onze implementaties laten een vermindering van 30% van de files zien, waardoor onproductieve rijtijd, stress, brandstofverbruik en vervuiling worden verminderd."

ADVERTENTIE

Binnenrobotica was Opgericht in 2018 en onlangs $ 18 miljoen aan financiering opgehaald. Het bedrijf, gevestigd in de buurt van Tel-Aviv, Israël, ontwikkelt en verkoopt autonome drone-oplossingen voor bewaking binnenshuis, veiligheid en onderhoud. De CEO en mede-oprichter, Doron Ben-David, heeft aanzienlijke ervaring in robotica en luchtvaart opgedaan bij IAIIAI
(een belangrijke hoofdaannemer voor defensie) en MAFAT (een geavanceerde onderzoeksorganisatie binnen het Israëlische Ministerie van Defensie), die vergelijkbaar is met DARPA in de Verenigde Staten. De groeiende investeringen in slimme gebouwen en commerciële beveiligingsmarkten voeden de behoefte aan autonome systemen die computervisie en andere sensorische input kunnen gebruiken in kleine en grote commerciële binnenruimten (kantoren, datacenters, magazijnen en winkelruimtes). Indoor Robotics richt zich op deze markt door binnendrones te gebruiken die zijn uitgerust met kant-en-klare camera's en thermische en infraroodsensoren.

Afbeelding 8: De autonome dronevloot van Indoor Robotics kan zichzelf van stroom voorzien via een plafondmontage ... [+] docking tegel. De Tando Control Bridge verwerkt de gegevens en regelt het vliegpad

Binnenrobotica

Ofir Bar-Levav is de Chief Business Officer. Hij legt uit dat het ontbreken van GPS ervoor heeft gezorgd dat indoordrones zich niet in gebouwen kunnen lokaliseren (meestal GPS-geweigerd of onnauwkeurig). Bovendien ontbraken handige en efficiënte docking- en voedingsoplossingen. Indoor Robotics lost dit op met vier op een drone gemonteerde camera's (boven, onder, links, rechts) en eenvoudige bereiksensoren die een binnenruimte en de inhoud ervan nauwkeurig in kaart brengen. De cameragegevens (camera's bieden lokalisatie- en kaartgegevens) en thermische sensoren (ook gemonteerd op de drone) worden geanalyseerd door een AI-systeem om mogelijke beveiligings-, veiligheids- en onderhoudsproblemen te detecteren en de klant te waarschuwen. De drones drijven zichzelf aan via een aan het plafond gemonteerde "docking-tegel", die waardevolle vloerruimte bespaart en gegevensverzameling mogelijk maakt tijdens het opladen. De financiële voordelen van het automatiseren van deze alledaagse processen waar menselijke arbeid complex en duur is in termen van werving, behoud en opleiding, zijn evident. Het gebruik van drones in de lucht versus robots op de grond heeft ook aanzienlijke voordelen op het gebied van kapitaal- en bedrijfskosten, beter gebruik van het vloeroppervlak, bewegingsvrijheid zonder obstakels en efficiëntie van het vastleggen van cameragegevens. Volgens de heer Bar-Levav zal de TAM (Total Addressable Market) van Indoor Robotics op het gebied van intelligente binnenbeveiligingssystemen in 80 $ 2026 miljard bedragen. Belangrijke klantlocaties zijn tegenwoordig magazijnen, datacenters en kantoorcampussen van toonaangevende internationale bedrijven.

ADVERTENTIE

Computervisie zorgt voor een revolutie in het autonomiespel - in bewegingsautomatisering, beveiliging, slimme gebouwbewaking, fraudedetectie en verkeersbeheer. De kracht van halfgeleiders en AI zijn krachtige enablers. Zodra computers deze ongelooflijke zintuiglijke modaliteit op een schaalbare manier beheersen, zijn de mogelijkheden eindeloos.

Bron: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/