Neue Fortschritte im Bereich der Zero-Probe-Anomalien-Erkennung der Xi'an Optical Machine der chinesischen Akademie der WissenschaftenXingwangbao Maschinen und Ausrüstung Netzwerk

Vor kurzem hat das Forscherteam von Wang Tsuen im Labor für Spektrobildtechnik des Xi'an Institute of Optical Machinery der chinesischen Akademie der Wissenschaften neue Fortschritte in der Richtung der Zero-Proben-Anomalien-Erkennung und -Positionierung im Bereich der Computervision erzielt, die Ergebnisse wurden von der IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026) empfangen. Der erste Autor der Dissertation ist der Master-Student der Stufe 2024 des Xi'an-Lichtmaschineninstituts Hu Ming, der Kommunikationsautor ist Dr. Hu Chung, Forscher des Xi'an-Lichtmaschineninstituts Hu BingSo und Forscher Wang Tsuen, der erste Kommunikationseinheit des Xi'an-Lichtmaschineninstituts.

Mit der wachsenden Nachfrage nach Anwendungen wie industriellen Qualitätsprüfungen und medizinischer Bildanalyse wird die Anomalienprüfungstechnik zunehmend berücksichtigt. Allerdings sind abweichende Proben in realen Szenarien oft knapp oder sogar schwer zugänglich, und die traditionellen Methoden des überwachten Lernens, die sich auf Kennzeichnungsdaten verlassen, stehen vor Engpässen.

Die Methode der Zero-Probe-Anomalien-Erkennung basiert auf dem visuell-sprachlichen Modell, mit großem Vorausbildungswissen kann die Erkennung ohne Anomalien-Kennzeichnung erreicht werden, aber in der Aufgabe der Feinkorngröße-Anomalien-Erkennung steht die Methode immer noch vor drei großen Herausforderungen: Erstens ist das Modell schwierig, das Ziel der Perspektive und den komplexen Hintergrund zu unterscheiden, die Anomalien können leicht mit dem Hintergrund vermischt werden und die Genauigkeit der Erkennung beeinflussen; Zweitens ist die Abhängigkeit von einem einzigen Text, die Fähigkeit zum semantischen Ausdruck ist begrenzt, und es ist schwierig, eine feine Grundlage für eine ungewöhnliche Unterscheidung zu liefern; Drittens gibt es bei der intermodalen Ausrichtung eine Unsicherheit bei der semantischen Übereinstimmung zwischen Bild und Text, die die Verbesserung der Modellleistung einschränkt.

Um diese Frage zu lösen, hat das Team ein neues Framework vorgeschlagen: FB-CLIP (Foreground-Background Disentangled CLIP). Der Rahmen ist auf drei Ebenen innovativ:

In der Textmodellierung wird ein Multi-Strategie-Text-Merkmal-Fusionsmethode vorgeschlagen, die durch die Kombination von Satz-Ebene-Darstellung, globale Kontextinformationen und Aufmerksamkeit gewichtete Merkmale, um eine reichere Aufgabe Wahrnehmung semantische Darstellung zu bauen, um das Verständnis des Modells für abweichende Semantik zu verbessern;

In der visuellen Modellierung entwerfen Sie einen mehrperspektiven Vordergrund-Hintergrund-Trennungsmechanismus, der die Bildmerkmale von Dimensionen wie Semantik, Raum, Struktur etc. entkoppelt und die Störungsinformationen in komplexen Szenarien mittels Hintergrundunterdrückungsstrategien reduziert, um das Modell genauer auf abweichende Bereiche zu fokussieren;

Bei der intermodalen Ausrichtung wurden Regulierungsbeschränkungen für die semantische Konsistenz eingeführt, um die Fähigkeit des Modells, Anomalien zu erkennen, zu verbessern, indem die Vorhersagezuverlässigkeit erhöht wird und das semantische Intervall zwischen normalen und abnormen Proben vergrößert wird.

Die experimentellen Ergebnisse zeigen, dass FB-CLIP eine hervorragende Leistung bei mehreren industriellen Prüfungen und medizinischen Bilddatensätzen erzielt hat, insbesondere bei der Positionierung von feinkörnigen Anomalien, und dass die Gesamtleistung international führend ist. Diese Methode erfordert keine Abweichungsproben-Kennzeichnung, um die genaue Erkennung und Positionierung kleiner Abweichungen in komplexen Szenarien zu erreichen, mit guten Perspektiven für die praktische Anwendung.

Es wird erwartet, dass diese Ergebnisse in Bereichen wie medizinische Bildgebungsdiagnose und industrielle Fehlerprüfung angewendet werden.

Das Forscherteam von Wang Tsuen des Xi'an Institute of Optical Machinery hat sich seit langem in der Kreuzungsforschung von Computer Vision und biomedizinischer Bildgebung, Gehirn-Computer-Intelligenz und anderen Bereichen vertieft und hat in den letzten Jahren eine Reihe wichtiger Fortschritte in den entsprechenden Bereichen erzielt, die Ergebnisse wurden in CVPR 2025, Pattern Recognition und anderen veröffentlicht.

Die IEEE/CVF Computer Vision and Pattern Recognition Conference ist eine der einflussreichsten internationalen akademischen Konferenzen auf dem Gebiet der Computer Vision und wurde von der Chinese Computer Society (CCF) als Konferenz der Kategorie A eingestuft.