201312_PSpaw_25gt.pdf 110 Przegląd sPawalnictwa 12/2013 Leszek Misztal Wykorzystanie technik bazujących na teorii zbiorów przybliżonych w procesie detekcji i klasyfikacji niezgodności spawalniczych the use of rough sets theory in process   of detection and classification of welding   imperfections r inż. Leszek iszta – Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. abstract Processing of large amount of information deriving from radiographic images and automatically detecting of welding joints imperfections with high accuracy is pos- sible by applying solutions based on rough sets theory and usage of this theory on computer systems that are capable to make fast calculations on huge number of in- formation. The theory posses solid and confirmed math- ematical foundation that allows applying it for calculation of attribute importance that have huge significance for identification of weld imperfections, whereas final extract- ing rules creates knowledge base that gives possibility for computer aided pointing specific class of weld imperfec- tion. Technique that is descried in the paper was capable of classification of weld defects with very high accuracy for real data originating from radiographic images of weld joints. Streszczenie Przetwarzanie znaczących ilości informacji pochodzą- cych z obrazów radiograficznych oraz automatyczne wy- krywanie wad połączeń spawalniczych z dużą dokładno- ścią jest możliwe dzięki zastosowaniu rozwiązań opartych na teorii zbiorów przybliżonych oraz zastosowaniu jej w systemach komputerowych, które umożliwiają szybkie przetwarzanie znaczących ilości danych. Wspomniana metoda ma solidne podstawy matematyczne, których zastosowanie umożliwia określenie istotności atrybutów mających znaczenie dla identyfikacji niedoskonałości, natomiast ostateczna ocena reguł tworzy bazę wiedzy umożliwiająca komputerowe wskazywanie określonej kla- sy wady spawu. Opisana technika umożliwiła klasyfikację wad w bardzo wysoką dokładnością dla rzeczywistych danych pochodzących ze zdjęć rentgenowskich połączeń spawalniczych. st p Teoria zbiorów przybliżonych ma ugruntowa- ną teorię, opartą na rozszerzeniu teorii zbiorów i definiującej pojęcia dolnego oraz górnego przybliże- nia. Umożliwia to tworzenie tabeli decyzyjnej na pod- stawie zebranych danych, atrybutów decyzyjnych oraz zdefiniowanych przybliżeń, które przypisują każdy z przypadków do określonej klasy wraz z wyznacze- niem siły przynależności oraz innych parametrów ja- kościowych dla uzyskanych reguł. Taka tabela może zostać przekształcona w łatwo interpretowalne reguły [1] w postaci jeżeli ... to, jak również zostać zapisana w formie lingwistycznej, która umożliwia łatwą interpre- tację reguł przez ekspertów. Rozwiązania zapropono- wane w tej teorii dają również możliwość na określenia poziomu spójności danych, które mają zostać poddane klasyfikacji, co z kolei umożliwia stwierdzenie przydat- ności informacji do wyznaczenia reguł [2]. Możliwe jest również redukowanie wymiaru na podstawie badania współczynników określających poziom istotności po- szczególnych atrybutów ze względu na wpływ na do- celową zmienną decyzyjną. Wymienione cechy opisanej teorii oraz wykorzysta- nie komputerowego przetwarzania danych umożliwiają automatyczną detekcję wad połączeń spawalniczych 111Przegląd sPawalnictwa 12/2013 z dużą dokładnością. Jest to możliwe dzięki przetwo- rzeniu informacji pochodzących z obrazów spawów oraz pozyskaniu wiedzy i identyfikacji poszczególnych niedokładności połączeń za pomocą wspomnianej teorii z wykorzystaniem mocy obliczeniowej współ- czesnych komputerów. Ma to szczególne znaczenie w branżach, gdzie połączenia spawalnicze decydują o ludzkim zdrowiu i życiu, czyli np w przemyśle kon- strukcyjnym, stoczniowym, lotniczym oraz in.. Przed- stawiona teoria oraz jej komputerowa implementacja umożliwiła wykrywanie wad spawalniczych w zre- alizowanym projekcie inteligentnego systemu anali- zy radiogramów, który był oparty na rzeczywistych obrazach radiograficznych spawów pochodzących z przemysłu stoczniowego. etoda badań Do opisania sposobu funkcjonowania przedstawio- nej teorii zbiorów przybliżonych niezbędny jest opis podstawowych pojęć związanych z definicją systemu informacyjnego, relacji nierozróżnialności, dolnego i górnego przybliżenia oraz regionu granicznego [3]. Zostały one przedstawione w kolejnych akapitach. W zbiorach przybliżonych definiuje się system infor- macyjny S, który składa się z następujących elemen- tów: S = , gdzie U jest skończonym uniwersum N obiektów {x1, x2, ..., xN}, Q jest niepustym zbiorem n atrybutów {q1, q2, ..., qn}, które charakteryzują obiekty,V = Uq QVq, gdzie Vq jest wartością atrybutu q, natomiast f: U x Q →V jest funkcją informacyjną, dla której f(x,q) Vq dla każde- go q Q, x U. Ważnym pojęciem jest nierozróżnialność zbiorów. Przyjmując, że A Q jest podzbiorem atry- butów, a jest atrybutem w zbiorze Α oraz obiekt y U , oznacza, że relacje nierozróżnialności przedstawia się w następujący sposób: I(A)={(x,y) U x U: dla każdego a A, f(x,a) = f(y,a)} Oznacza to, że para elementów (x, y) należy do I(Α), jeżeli x, y są obiektami nierozróżnialnymi w zakresie zbioru atrybutów Α. nie można wówczas rozróżnić po- między x i y, bazując na zawartości informacyjnej za- wartej w zbiorze Α. Kolejnymi bardzo ważnymi definicjami, na których jest oparty algorytm, są dolne oraz górne przybliżenia, które przedstawia się w następujący sposób: Α*(X) = {(x U:A(x) , X} Α*(X) = {(x U:A(x) ∩ X ≠ } gdzie Α(x) oznacza rodzinę wszystkich klas równoważ- ności I(Α) dla partycji U/I(Α) zawierającej x. Dolne przybliżenie Α*(X) zbioru X zawiera wszystkie elementy, bazując na zawartości informacyjnej atry- butów Α, które są sklasyfikowane jako należące do X. natomiast górne przybliżenie Α*(X) zawiera wszystkie elementy zawarte w A, które mogą zostać sklasyfiko- wane jako możliwa przynależność do X. Występuje również pojęcie regionu granicznego, jest różnicą wy- żej zdefiniowanych pojęć i przedstawia się następują- co: GR Α (X) = Α*(X) – Α*(X) Jeżeli region graniczny jest zbiorem pustym, wów- czas zbiór X jest dokładny w odniesieniu do zbioru atrybutów Α, natomiast gdy nie jest pusty, oznacza to przybliżenie do zbioru Α. W celu przystąpienia do właściwej klasyfikacji, czyli utworzenia tablicy decyzyjnej, konieczna jest ponowna definicja systemu informacyjnego [4], w którym atry- but Q jest podzielony na dwa rozdzielne zbiory, gdzie C jest zbiorem atrybutów warunkowych, natomiast D jest atrybutem decyzyjnym, takim że C D = Q i C D = . Oznacza to, że C repre- zentuje atrybuty związane z cechami i właściwościami połączeń spawalniczych, a D jest atrybutem oznacza- jącym decyzję o klasie wady połączenia spawanego. Wówczas tablica decyzyjna przyjmuje następującą postać: DT = , gdzie: U – skończony zbiór wszystkich obiektów zwany uniwersum, C i D zostały opisane powyżej,V = Uq QVq, gdzie Vq jest zbiorem dyskretnych wartości atrybutów q Q, ƒ: U x (C D) → V jest opisem funkcji definio- wanej jako ƒ(x,q) Vq dla każdego q Q i x U. Tabele decyzyjne dzieli się na deterministyczne, czyli takie, gdzie tryb decyzyjny jest wyznaczony przez kombina- cję atrybutów warunkowych oraz tablice niedetermini- styczne, gdzie atrybut decyzyjny nie jest wyznaczony. Ocenę rodzaju tablicy można wykonać na podstawie wartości współczynnika zwanego jakością przybliżenia konceptów decyzyjnych. Jego wartości oznacza występowanie tablicy deterministycznej, czyli pełnej spójności, natomiast oznacza tablicę niedeterministyczną, co w praktyce występuje najczę- ściej. Powstałą w wyniku operacji tablicę decyzyjną można w łatwy sposób przekształcić w formę lingwi- styczną, która może przyjmować następującą postać: PARKSZTAŁT 1 = WARTOŚĆ, PARKSZTAŁT 2 = WARTOŚĆ, PARKSZTAŁT 3 = WARTOŚĆ → WYnIK_KOn = PĘCHERZ. Dla oceny wytworzonych reguł decyzyjnych definiu- je się współczynniki jakościowe [5], których celem jest pomiar różnych parametrów związanych z jakością re- guł. Przedstawiają się następująco: – współczynnik zaufania (pewności), który oznacza częstość występowania obiektów w systemie infor- macyjnym S mających konkluzję w zbiorze obiek- tów mających przesłankę Φ. Przyjmuje następującą definicję: gdzie oznacza konkluzję reguły, Φ to przesłan- ka reguły, || || to zbiór znaczeniowy konkluzji Φ w systemie informacyjnym S, || || to zbiór zna- czeniowy przesłanki Φ w systemie informacyjnym πs ( | Φ) = card (|| Φ ˄ ||s) card (|| Φ ||s 112 Przegląd sPawalnictwa 12/2013 S, natomiast || Φ ˄ || jest zbiórem znaczeniowy re- guły decyzyjnej w systemie informacyjnym S, – współczynnik pokrycia oznacza częstość występo- wania obiektów z przesłanką Φ w zbiorze obiektów posiadających konkluzję : πs (Φ | |) = card (|| Φ ˄ ||s) card (|| ||s) – wsparcie reguły jest to liczność danej reguły decy- zyjnej w systemie informacyjnym S, w przypadku, gdy ta reguła jest dopuszczalna. Definiowane jest następująco: sup ps (Φ , ) = card (|| Φ ˄ ||s) – siła reguły – oznacza stosunek liczebności danej reguły decyzyjnej w systemie informacyjnym S do liczebności całego uniwersum U: σs (Φ, ) = sup ps( Φ, ) = card (|| Φ ˄ ||s) card (U) card (U) Do określenia poziomu zaufania dla atrybutów de- cyzyjnych [6], koniecznym jest zdefiniowanie współ- czynnika jakości przybliżenia konceptów decyzyjnych 0≤k≤1, gdzie zbiór atrybutów decyzyjnych D zależy od zbioru atrybutów warunkowych C w stopniu zdefinio- wanym przez k: gdzie POSc(D) jest pozytywnym regionem dla partycji U/D w zakresie atrybutów C, card jest kardynalnością, czyli ilością elementów w danym zbiorze. W celu określenia poziomu istotności atrybutu i pod- jęcia decyzji o usunięciu wymiaru, definiowana jest względna istotność atrybutu warunkowego σ(a) dla atrybutu a, gdzie a C, poprzez następujące równanie: Wartość współczynnika mieści się w zakresie 0 ≤ σ(a) ≤ 1. Jeżeli jest równa zeru lub też ma wartość poniżej zadanego niskiego progu określonego dla ba- dania, wówczas atrybut a powinien zostać wyelimino- wany z obliczeń tablicy decyzyjnej, ponieważ nie ma wpływu lub też jego wpływ jest nieistotny na atrybut decyzyjny. Spos b przeprowadzenia badań Wykorzystanie potencjału oferowanego przez zbio- ry przybliżone jest możliwe poprzez zaproponowanie procedury badawczej oraz wykorzystanie jej w proce- sie ekstrakcji wiedzy dotyczącej wykrywania wad połą- czeń spawalniczych. Zgodnie z [7] odmienna specyfika problemów występujących w różnych branżach powo- duje, że zaproponowany model powinien być znacząco dopasowany do konkretnego zadania, w opisywanym przypadku do identyfikacji niedoskonałości spawów. W związku z tym w zaproponowanej procedurze (rys. 1) przewidziano siedem etapów, prowadzących do ekstrakcji wiedzy umożliwiającej automatyczne wykrywanie poszczególnych klas wad spawów. Procedura jest złożona z następujących kroków: przygotowanie i ładowanie danych, dyskretyzacja da- nych, określenie istotności atrybutów i zmniejszenie wymiaru, podział danych na zbiór „do nauki” oraz Rys. 1. Procedura identyfikacji wad spawów z wykorzystaniem zbiorów przybliżonych ig. 1. Procedure of identification of weld imperfections with the usage of rough sets theory testowy, utworzenie dwóch tablic informacyjnych dla wymienionych zbiorów, ekstrakcja reguł czyli nie- zbędnej wiedzy do klasyfikacji oraz uzyskanie wyni- ków dokładności. Sama precyzja metody określona została na podstawie tak zwanej macierzy pomyłek oraz współczynników jakościowych określanych na jej podstawie. Jest to powszechnie uznany sposób oceny dokładności metod klasyfikacji [8]. Do wspo- mnianych współczynników należą m.in.: pozytywny współczynnik predykcji, negatywny współczynnik predykcji, współczynnik czułości, współczynnik spe- cyficzności, współczynnik całkowitej dokładności, współczynnik całkowitego poziomu błędu. W celu dodatkowego potwierdzenia dokładności zapropono- wanego systemu do wykrywania rodzaju wad została zaproponowana dodatkowa weryfikacja uzyskanych wyników z wykorzystaniem tak zwanej crosswali- dacji [9]. Polega ona na losowym podziale zbioru danych na n podzbiorów testowych i treningowych, na których oddzielnie zostaną wyznaczone reguły i zweryfikowana dokładność klasyfikacji. Umożliwia to zdecydowanie dokładniejszą weryfikację zapropo- nowanego modelu, gdyż w ten sposób eliminuje się możliwość przypadkowego, jednorazowego podziału danych zwiększającego dokładność (tzw. peak do- kładności dla jednego z podziałów). 113Przegląd sPawalnictwa 12/2013 zyskane wyniki Wyniki automatycznej detekcji poszczególnych wad spawów zostały zrealizowane na podstawie rzeczywi- stych radiogramów spawów wykonanych na błonach rentgenowskich zebranych podczas projektu ISAR (Inteligentny System Analizy Radiogramów). Pocho- dziły one z procesu kontroli jakości złączy spawanych płaskich zebranych w branży stoczniowej. W sumie badaniom poddano ponad 1500 próbek. W wyniku identyfikacji zostały rozpoznane następujące rodza- je wad zebrane w klasy oznaczone za pomocą liczb: 1 – pęknięcie, 2 – pustki, 3 – wtrącenia stałe, 4 – przy- klejenia i braki przetopu, 5 – niezgodności kształtu. W tablicy I została umieszczona dokładność (pozytyw- ny współczynnik predykcji) dla poszczególnych pięciu tab ica I. Wyniki dokładności klasyfikacji wad spawów z wykorzystaniem zbiorów przybliżonych tab e I. Results of classification accuracy of weld imperfections with the usage of rough sets theory Klasa (class) → współczynnik (coefficent) ↓ 1% 2 % 3 % 4 % 5 % Całkowita dokładność (overall accuracy) % pozytywny współczynnik predykcji (positive prediction coefficient) > 90 > 90 > 90 > 90 > 90 >90 klas, jak również współczynnik całkowitej dokładności uzyskanej przez modelowanie dla wszystkich klas. Przedstawione wyniki reprezentują średnią dokład- ność z uwzględnieniem tzw. crosswalidacji dla dzie- sięciu losowych podziałów całego zbioru informacyj- nego dotyczącego wad spawalniczych. Potwierdza to wysoką skuteczność zaproponowanej metody opartej na teorii zbiorów przybliżonych, gdyż zastosowanie wielokrotnej walidacji zazwyczaj obniża wyniki dokład- ności predykcji, natomiast w przypadku zaproponowa- nej procedury różnice pomiędzy dokładnością dla po- szczególnych kroków nie przekraczały 1%, biorąc pod uwagę pozytywny współczynnik predykcji. Dokładność wyników uzyskanych dla wykrywania poszczególnych klas, jak również całkowita precyzja jest bardzo wyso- ka, gdyż przekracza 90%. Pods mowanie W artykule przedstawiono nowatorskie wykorzy- stanie teorii zbiorów przybliżonych do wykrywania wad połączeń spawalniczych. Opisana procedura umożliwiła automatyzację detekcji niedoskonałości z wysoką dokładnością, potwierdzoną przez dane z rzeczywistych obrazów radiograficznych spawów. Uzyskane wyniki przyjmują formę reguł, które mogą zostać interpretowane i rozumiane przez człowieka, jak również mogą zostać przedstawione w formie lingwistycznej. Wykorzystanie wspomnianej metody w postaci oprogramowania dla systemów kompute- rowych umożliwia szybką oraz akceptowalną wysoką dokładność wskazywania klas wad spawalniczych. Dzięki temu realna staje się automatyzacja procesu kontroli jakości w różnych dziedzinach przemysłu, która umożliwi wspomaganie procesu sprawdzania produktów wykorzystujących techniki spawalnicze. Literat ra [1] Inuiguchi M., Generalizations of Rough Sets and Rule Extrac- tion, Springer, 2005. [2] Bazan J., Synak P., Wrobleski J., Rough Set Algorithms in Classification Problem, Springer, 2000. [3] Pawlak Z., Rough Sets – Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, 1991. [4] Olson D., Delen D., Advanced Data Mining Techniques, Sprin- ger, 2008. [5] Duntsch I., Gediga G., Rough set data analysis, Methodos Pu- blisher, 2000. [6] Pawlak Z.: Some issues on rough sets, Springer Science, 2005 [7] S.Bandyopadhyay, U.Maulik, L.B.Holder, D.J.Cook Advanced Methods for Knowledge Discovery from Complex Data, Sprin- ger, 2005. [8] Han J., Kamber M.: Data mining concepts and techniques, Morgan Kaufman, 2006. [9] Michie D., Spiegelhalter D.J., Taylor C.C.: Machine Learning, neural and Statistical Classification, Ellis Horwood, new York, 1994.