La svolta di Homsh: ViT+ArcFace
L'accuratezza del riconoscimento dell'iride raggiunge il livello più alto al mondo
Con un tasso di errore uguale (EER) di soli 0,29% e ROC AUC che si avvicina al limite teorico
Abbiamo ridefinito i confini del riconoscimento dell' iris con Vision Transformer.
▲ Vision Transformer ridefinisce il paradigma di base dell'estrazione delle caratteristiche dell'iride
I. Questa volta, non è solo progresso ∙ è un cambiamento di paradigma
Se chiedete a un ingegnere che ha lavorato nel riconoscimento dell'iride per vent'anni: "Qual è il problema più difficile che avete affrontato?"
Probabilmente si fermerà un attimo e dirà: "Il foglio di gomma".
Da quando John Daugman ha proposto l'algoritmo IrisCode nel 1993, il processo di "Rubber Sheet unwrapping" è stato come un incantesimo inciso nel DNA dei sistemi di riconoscimento dell'iride in tutto il mondo.Sfasciare l'iride circolare in un'immagine rettangolare, poi estrarre le texture usando i filtri Gabor... Questo flusso di lavoro è stato usato per tre decenni, e nessuno lo ha messo in discussione.
Finche' non abbiamo deciso di buttarlo via.
II. Perché la lastra di gomma ha smesso di funzionare?
Vision Transformer (ViT per abbreviare) è una delle scoperte tecnologiche più sorprendenti nel campo dell'apprendimento profondo negli ultimi tre anni.utilizza il meccanismo di autoattenzione dei modelli linguistici per comprendere la struttura globale dell'immagine, e supera le reti neurali convoluzionali (CNN) che hanno dominato per anni in molteplici compiti visivi di alto livello.
Quando abbiamo provato per la prima volta ad applicare il ViT al riconoscimento dell'iride, i risultati iniziali sono stati deludenti: il tasso di errore uguale (EER) è stato alto fino al 4,65%, ben al di sotto delle aspettative.
Il team ha rapidamente identificato la causa principale: il foglio di gomma "appiatta" l'iride anulare da 64 × 512 pixel in un rettangolo, che viene poi ridimensionato all'input 224 × 224 richiesto da ViT ?? a 3.5x allungamento verticale e 2.3x compressione orizzontale, la struttura naturale della struttura radiale/circonferenziale dell'iride è stata gravemente distorta,rendendo impossibile per il meccanismo di attenzione del patch di ViT percepire la semantica all'interno.
In altre parole: avevamo alimentato il modello più intelligente nel modo sbagliato.
La soluzione sembra semplice, ma ha richiesto il coraggio di rompere con le convenzioni, abbandonare il foglio di gomma e passare al taglio circolare del ROI: con il centro dell'iride come origine,coltivare una superficie quadrata (2.5x il raggio) per preservare la naturale simmetria spaziale dell'iride, quindi ridimensionarla direttamente a 224×224 e inserirla in ViT. In questo modo ogni cerotto 16×16 può percepire l'autentico,texture dell'iride non distorta.
III. Metrici chiave: EER = 0,29%, ROC AUC = 0.9999
Cambiare questo singolo passo di pre-elaborazione ha portato a un mondo di differenza:
| Soluzione |
EER |
Commenti |
| Round 1: ViT + lamiera di gomma |
4.65% |
Flusso di lavoro tradizionale |
| Round 2: CNN + Rubber Sheet |
2.80% |
Sostituzione della spina dorsale con miglioramento limitato |
| Round 3: ViT + ROI di raccolta |
~0,12%* |
Svantaggio critico |
| Versione finale: ViT-S/16 + ROI + regolamentazione |
0.29% |
Soluzione di tipo di produzione |
* I risultati del terzo ciclo non sono soggetti a una rigorosa verifica statistica e contengono un bias ottimista.
Il sistema finale rilasciato adotta ViT-S/16 (22,1M parametri) + ArcFace perdita di margine angolare, addestrato su una fusione di 8 set di dati pubblici (un totale di 4.480 identità / 67.704 immagini).Dopo una rigorosa verifica statistica, i risultati sono i seguenti:
●EER = 0,29% (tasso di errore pari)
● Intervallo di confidenza del 95%: [0,21%, 0,40%] (200 round di ri-campionamento Bootstrap)
● ROC AUC = 0,9999 (punteggio quasi perfetto)
● La somiglianza media di una coppia vera e propria: 0,8742 (alta coerenza per lo stesso individuo)
● Somiglianza media tra coppie di impostori: 0,0450 (completa separazione delle caratteristiche per individui diversi)
● A FRR = 1%, FAR = 0,00% (zero falso riconoscimento nei punti di funzionamento ad alta sicurezza)
▲ Curva ROC (AUC=0,9999) e Distribuzione del punteggio genuino/impostore
IV. Dati di formazione: non solo ampi, ma diversi
Questo studio ha riunito 8 set di dati pubblici, tra cui i due scenari più difficili del settore:
Dati gemelli (CASIA-Iris-Twins)
Dati dell'iride da 200 coppie di gemelli anche con geni quasi identici, le trame dell'iride sono completamente diverse.
Scenari senza limiti di luce visibile (UBIRIS.v2)
518 identità con oltre 11.000 immagini, catturate sotto luce naturale con movimento sfocato, distorsione fuori fuoco,e variazioni di illuminazione .
La formazione è stata completata su un Apple Silicon M2 Ultra (Mac Studio) in circa 12,3 ore (90 periodi di formazione),con una latenza di inferenza massima di soli ~ 35 ms (compreso il taglio del ROI e l'estrazione delle caratteristiche).
V. Confronto orizzontale con i lavori di alto livello dell'industria
| Metodo |
Colonna vertebrale |
Pretrasformazione |
EER |
| Daugman IrisCodice |
Gabor |
Fogli di gomma |
~0,10% (ambiente controllato) |
| UniqueNet (2016) |
CNN siamese |
Fogli di gomma |
0.18% |
| IrisFormer (2023) |
ViT-B/16 |
Fogli di gomma |
0.22% |
| PoliIRIS (2021) |
CNN su scala multipla |
Fogli di gomma |
(Insieme unico di dati) |
| Homsh ViT+ArcFace (Questa versione) |
ViT-S/16 |
ROI di raccolta |
0.29% (8 set di dati) |
▲ Dal 4,65% allo 0,29% EER: il percorso di evoluzione tecnologica di quattro turni di iterazione
VI. Passi successivi
1.Valutazione indipendente dei dati incrociati
Test a cieco sul set di dati dell'IIT di Delhi non coinvolto nella formazione per verificare la capacità di generalizzazione nel mondo reale.
2.Integrazione di rilevamento della vita
Combinare risposta flash multi-quadro o analisi di texture per difendersi dagli attacchi di riproduzione delle foto e costruire un sistema anti-spoofing completo.
3Riconoscimento dell'iride a medio e lungo raggio
Introdurre dati a medio raggio (3m) per estenderli a scenari con distanze di cattura più ampie ′′ il prossimo oceano blu per l'implementazione commerciale.
4.Peso leggero e distribuzione laterale
Distillare il modello ViT-S/16 a parametri < 5M per adattarlo ai dispositivi periferici con risorse limitate (NPU/FPGA).
Conclusione: un congresso di trent'anni merita di essere riesaminato
Il foglio di gomma di Daugman era la soluzione ottimale per il suo tempo, ma l'essenza della tecnologia è questa: quando emergono strumenti migliori, il vecchio paradigma dovrebbe essere messo da parte.
Vision Transformer ha cambiato la logica di base del riconoscimento delle immagini.Abbiamo trovato il modo giusto per ViT di sbloccare veramente il suo potenziale nel riconoscimento dell'iride non per rendere ViT adattarsi al vecchio flusso di lavoro, ma per progettare un nuovo paradigma di pre-elaborazione su misura per ViT.
Un EER dello 0,29% è solo un numero, ma anche una dichiarazione:
Il riconoscimento dell'iride è entrato nell'era dei Transformers, e Homsh è alla linea di partenza.
Riguardo a Homsh
WuHan Homsh Technology Co., Ltd. (HOMSH), fondata nel 2011,è una delle poche imprese di alta tecnologia al mondo che detiene diritti di proprietà intellettuale indipendenti per algoritmi e chip di riconoscimento dell'irideIl suo algoritmo PhaselirsTM di base e i chip intelligenti FPGA/ASIC della serie Qianxin per il riconoscimento dell'iride sono stati ampiamente utilizzati nella raccolta finanziaria, nello sdoganamento, nell'emissione di certificati governativi,sicurezza militare e altri settori.