Rilevamento di pedoni e motociclisti tramite drone con Jetson Xavier.

I droni sono tra le tecnologie più interessanti ed ogni produttore e appassionato vuole metterci le mani. Mentre i droni stanno diventando di dominio pubblico, l’IA sta avanzando rapidamente e ora ci troviamo in uno stato in cui il rilevamento degli oggetti e la segmentazione semantica è possibile direttamente a bordo del drone. In questo post, verrà illustrato come rilevare oggetti da immagini catturate da un drone.

Alcune nozioni di base sul problema in questione

In primo luogo, è importante rendersi conto che non possiamo realisticamente eseguire il rilevamento di oggetti su hardware incorporato per uso generale come il raspberry pi e per scopi speciali è richiesto un hardware creato per l’inferenza della IA.

In secondo luogo, se si eseguono modelli di rilevamento oggetti di uso comune, come YOLO o SSD formati su COCO e Pascal VOC set di dati, non funzioneranno affatto bene. Questo perché la vista di un oggetto da un’altezza è abbastanza differente da quello sul terra. Pertanto, la distribuzione dei dati di inferenza sarà molto diverso da quello incontrato dal modello durante formazione, che porterà ad un risultato fallimentare.

Alcune Soluzioni

Come menzionato nel titolo In questo post, utilizzerò il processore embedded di fascia più alta per robot autonomi disponibile al momento della scrittura, Jetson AGX Xavier di Nvidia. Se vuoi utilizzare una Jetson TX2 o nano, fornirò alcuni suggerimenti per migliorare le loro prestazioni verso la fine del post.

Per ovviare al problema della diJering della distribuzione dei dati, i ricercatori della Stanford University hanno rilasciato un set di dati chiamato Stanford Drone dataset, che ne contiene diversi video presi da droni insieme a etichette per ogni fotogramma di ogni video. Sono state rilevate sei classi: Biker , Auto, Autobus, Carrello, Pattinatore e Pedonale

Qualsiasi modello di rilevamento di oggetti decente ha addestrato il set di dati di Stanford dovrebbe fare un buon lavoro nel rilevare questi sei oggetti. In questo post,
useremo RetinaNet, un ottimo modello di rilevamento degli oggetti rilasciato da Facebook (FAIR), che modella la funzione di perdita in in modo tale che il modello impari a concentrarsi su esempi concreti durante l’allenamento e quindi impara molto meglio. Più dettagli su RetinaNet può essere trovato qui.

Continua a leggere l’articolo QUI