Akademia Wychowania Fizycznego we Wrocławiu 42 QUALITY IN SPORT 4 (3) 2017, s. 42-56, e-ISSN 2450-3118 Praca wpłynęła do redakcji 10 II 2018, praca została przyjęta do druku 12 III 2018 DOI: http://dx.doi.org/10.12775/QS.2017.022 PBN: https://pbn.nauka.gov.pl/sedno-webapp/works/867968 Maciej Kaczanowski1 Instytut Systemów Informatycznych, Wydział Cybernetyki Wojskowa Akademia Techniczna, Warszawa, Polska Komputerowe wspomaganie identyfikacji talentów w sporcie Computer based sport talent identification Streszczenie W niniejszej pracy przedstawiono koncepcje systemu do komputerowego wspomagania identyfikacji talentów w sporcie. W koncepcji założono wykorzystanie metody badania podobieństwa opartej na optymalizacji wielokryterialnej oraz nadzorowanym algorytmie klasyfikacji z obszaru uczenia maszynowego: lesie drzew decyzyjnych. Dane do budowy wzorców dyscyplin sportowych pozyskano z publikacji (Santos, Dawson, Matias i in 2014). Dane te również posłużyły do wygenerowania testowego zestawu danych sportowców do przeprowadzenia eksperymentów badawczych. Badania przeprowadzono w autorskim programie oraz w środowisku chmurowym Microsoft Azure Machine Learning Studio. Przeprowadzone eksperymenty wykazały, że analizowane metody z powodzeniem można zastosować w procesie identyfikacji talentów sportowych. Słowa kluczowe: identyfikacja talentów sportowych, optymalizacja wielokryterialna, uczenie maszynowe, nauka o danych Abstract This paper presents the concept of the computer decision support system for talent identification in sport. In this concept the use of two methods was assumed: pattern recognition based on multicriteria optimization and machine learning supervised classification algorithm: decision forest. The data for sport dyscyplin patterns has obtained from publication (Santos, Dawson, Matias et al. 2014). This data also has been used to generate test data sets to research purposes. The researches were carried out in author’s application and in the cloud environment Microsoft Azure Machine Learning Studio. The results show that both methods can be used with success to talent identification in sport. Keywords: talent identification in sport, multicriteria optimization, machine learning, data science 1 mgr inż. Maciej Kaczanowski, WAT, maciej.kaczanowski@wat.edu.pl Komputerowe wspomaganie identyfikacji talentów w sporcie 43 1. Wstęp Talent powszechnie rozumiany jest jako wrodzone zdolności pozwalające wykonywać pewne czynności powyżej przeciętnego poziomu, a także ponadprzeciętny potencjał do dalszego doskonalenia się w tych czynnościach. W literaturze pojęcie talentu jest podejmowane w różnych kontekstach. Za talent można uznać zestaw wybitnych, jednokierunkowych lub wielokierunkowych uzdolnień ludzi. Klasyfikację definicji talentu można oprzeć na takich kryteriach jak: wyjątkowość uzdolnień, ich związek z celami czy rodzaj uzdolnień. Kryterium wyjątkowości opiera się na założeniu, że talent jest rzadkim dobrem, nie powszechnym, jego podaż jest zatem mała (Pocztowski 2008). Przeciwnym biegunem jest rozumienie talentu jako wysokiego poziomu kluczowych dla organizacji lub stanowiska kompetencji. W tym rozumieniu wszyscy pracownicy organizacji mogą zostać uznani za talenty, jeśli proces rekrutacji zakłada selekcję opartą na wysokich standardach klasyfikacji. Definiowanie talentu staje się tożsame z pojęciem pracownika o wysokim potencjale (Woińska i Szmidt 2005). The Conference Board w raporcie „Integrated and Intergative Talent Management” zaproponowała następującą definicję: „Talent to każda osoba mogąca w sposób znaczący wpłynąć na obecne i przyszłe osiągniecia swojej organizacji.”( Morton L. 2004). Pozyskiwanie do systemu szkolenia osób utalentowanych w jak najmłodszym wieku i w jak największej liczbie jest trudne, a błędy popełnione na tym etapie mogą przynieść straty czasowe i finansowe. Zarządzanie talentami według definicji T. Listwana to „zbiór działań odnoszących się do osób wybitnie uzdolnionych, podejmowanych z zamiarem ich rozwoju i sprawności oraz osiągania celów organizacji” (Listwan T. 2005). W sporcie proces ten można podzielić na cztery etapy: wykrywanie, identyfikacja, selekcja i rozwój. Osoby zaangażowane w ten proces muszą, choć w stopniu podstawowym posiadać wiedze z obszarów takich jak: biomechanika, anatomia, fizjologia oraz psychologia. Pojęcie talentu, również w sporcie, zostało szeroko opisane w pracy Łukasza Panfila (Panfil 2012). Zostały tam przytoczone różne aspekty definicji talentu. Samo pojęcie talentu Ł. Panfil definiuje jako pewną “sprzyjającą kombinacje”, która łączy w sobie w zasadzie wszystkie aspekty funkcjonowania człowieka – od genetycznych po środowiskowe. Korzystny układ ich będzie owocował talentem w takiej bądź innej dziedzinie2. Autor pracy podkreśla, że, przygotowanie do uprawiania sportu na najwyższym poziomie, w odróżnieniu od innych dziedzin, zajmuje dużo więcej czasu i często rozpoczyna się już w dzieciństwie. Według Ł. Panfila w sporcie odpowiednie zdiagnozowanie talentu i później rozwijanie go jest jednym z głównych czynników późniejszego sukcesu na najwyższym poziomie. Podkreśla jak ważne jest wspieranie talentu przez: rodzinę, rówieśników czy też szkołę, a także społeczne, ekonomiczne i polityczne organizacje (Panfil 2012). Na początku jedną z kluczowych decyzji jest wybór odpowiedniej dyscypliny. Po wyborze dyscypliny kolejnym etapem jest dobór treningu, który powinien być spersonalizowany i prowadzić do osiągnięcia jak najlepszej formy i 2 http://mlodziezowyfutbol.pl/poradnik-sukcesu-pilkarza/dla-rodzica/poradnik-mf-talent-pilce-noznej- identyfikowanie-rozwoj-cz/ 44 Maciej Kaczanowski wyników sportowca. Wyniki uzyskiwane w trakcie treningów powinny być również brane pod uwagę i stanowić kolejny etap weryfikacji kandydata. Na osiągi sportowca ma wpływ wiele czynników, część z nich została przedstawiona na rysunku 1. Wszystko to czyni proces identyfikacji i zarządzania talentami dobrym do zastosowania komputerowego systemu wspomagania decyzji. Rysunek 1. Czynniki mające wpływ na osiągi sportowca. Źródło: opracowanie własne. W dostępnych modelach identyfikacji, wyboru i rozwoju talentów w sporcie (Bar-Or’s, Gimbel’s, Jones & Watson’s, Harre’s, Bompa’s) [3] w pierwszej kolejności zbiera się różne parametry, które następnie poddaje się analizie. W zależności od modelu można podzielić je na: cechy morfologiczne, fizjologiczne, psychologiczne i wydajnościowe (ang. morphological, physiological, psychological, performance). Większość parametrów można pozyskać w sposób nieinwazyjny za pomocą ogólnodostępnych sensorów i różnych testów. Prawidłowa analiza tych danych jest podstawą do dalszych czynności zdefiniowanych w poszczególnych modelach. W obszarze tym można z powodzeniem zastosować komputerowe wspomaganie podejmowania decyzji, które w znacznym stopniu przyczyni się do skrócenia całkowitego czasu potrzebnego do identyfikacji talentów i zwiększy skuteczność całego procesu. Komputerowe wspomaganie identyfikacji talentów w sporcie 45 2. Schemat procedury Poniżej została przedstawiona propozycja procedury w trakcie, której zostaną przeanalizowane parametry zebrane od sportowców i na tej podstawie dokonany zostanie wybór odpowiedniej dyscypliny oraz dobór treningu: (1) Pomiar parametrów kandydata. (2) Przygotowanie danych do analizy. Jeden z modułów komputerowego systemu wspomagania identyfikacji talentów sportowych powinien wspierać użytkownika w przypadkach, gdy dane są niepoprawnie sformatowane, zanieczyszczone, posiadają rekordy odstające itp. (3) Przetworzenie danych i poddanie ich analizie. W przypadku zbyt małej ilości wymaganych danych system powiadomi sportowca o potrzebie wykonania dodatkowych pomiarów. (4) Na podstawie wyników wybór dyscypliny i treningu weryfikacyjnego. (5) Wizualizacja wyników oraz rekomendacje dotyczące modyfikacji treningu lub zmiany dyscypliny. (6) Iteracyjnie wykonywana ocena skutków i odpowiednia modyfikacja rekomendacji. Rysunek 2. Schemat procedury dla systemu do wspomagania identyfikacji talentów w sporcie Źródło: Opracowanie własne. 46 Maciej Kaczanowski 3. Metoda i organizacja przeprowadzania pomiarów Rozwój technologii mobilnych i Internetu rzeczy (ang. internet of things) dał ogromne możliwości w świecie sportu w obszarze zbierania i analizy różnych parametrów wydajnościowych. Sportowcy mogą korzystać z zegarków sportowych, aplikacji na urządzeniach mobilnych - posiadających wbudowane sensory, liczników kadencji, pulsometrów itp.. Dokładność tych urządzeń pozwala na zebranie wiarygodnych wartości parametrów wydajnościowych potrzebnych w proponowanej procedurze. Do przeprowadzenia ich pomiarów należałoby wykorzystać gotowe lub sformułować nowe próby testowe. Testy powinny być przeprowadzane dla wszystkich osób w warunkach jednakowych czynników zewnętrznych. W przeciwnym przypadku należałoby w całej procedurze uwzględnić ich wpływ na otrzymane wyniki. Cechy morfologiczne można mierzyć różnymi sposobami. Jednym z nich jest tzw. zestaw Martina. Posługując się taśmą antropometryczną, antropometrem, cyrklem kabłąkowym należy dokonać stosownych pomiarów, które można rozszerzyć o pomiary fałdomierzem oraz wagą. Innym sposobem, który warto zautomatyzować jest analiza fotografii kandydatów, którą można przeprowadzić za pomocą głębokich sztucznych sieci neuronowych. Następnie posługując się metodą Wiliama Sheldona w modyfikacji Heath i Cartera warto rozbudować parametry o ocenę typologiczną, która klasyfikuję ludzi pod względem budowy ciała na trzy kategorie: endomorficzny, mezomorficzny i ektomorficzny. Liczbę cech można powiększyć przy pomocy nowoczesnych metod opisanych w [7]: (1) Wywiad z zawodnikiem. (2) Cechy psychiczne zebrane za pomocą kwestionariuszy NEO-FFI, EAS i CISS. (3) Pomiar zawartości wody w organizmie. (4) Pomiar spoczynkowej przemiany materii za pomocą ergospirometru. (5) Morfologia krwi. (6) Stężenie we krwi różnych enzymów i związków: cholesterolu, triglicerydów, glukozy, kreatiny, mocznika, kwasu moczowego, alfa- amylazy trzustkowej, hemoglobiny, potasu, fosfatazy alkalicznej, bilirubiny, kinazy kreatynowej. (7) Stężenie mleczanu we krwi. (8) Stężenie amoniaku we krwi. (9) Stężenie kreatyniny w moczu. (10) Stężenie pochodnych puryn we krwi. (11) Pomiar gazometrii krwi. (12) Pomiar objętości i szybkości przepływu powietrza metodą spirometryczną. (13) Wydolność tlenowa submaksymalna i maksymalna. (14) Temperatura powierzchni ciała. (15) Analiza ruchu za pomocą MyoMotion, OptimEye, BioHarness, (16) Aktywność bioelektryczna mięśni. (17) Zdolności szybkościowo-siłowe mierzone za pomocą SmartJump. Komputerowe wspomaganie identyfikacji talentów w sporcie 47 (18) Testy koordynacyjne przeprowadzane w oparciu o czujniki świetlne np. FItLight Trainer. 4. Matematyczne modelowanie kandydatów Każdą osobę można opisać w danym czasie za pomocą wektora cech antropometrycznych, składu budowy ciała i wydajnościowych, zawierającego takie składowe jak: wzrost, waga, suma fałdów skórnych, wskaźnik masy ciała, obwody kończyn, maksymalna wydolność tlenowa VO2max, stężenie kwasu mlekowego we krwi BLa, wzrost tętna HR, poziom tlenu we krwi, poziom nawodnienia itd.. Wektor ten uzyskuję się, przeprowadzając odpowiednie pomiary. Pozwala on określić, w jakiej formie aktualnie znajduję się dana osoba. W każdej dyscyplinie sportowej  1, ..., Dd D = , bazując na wiedzy eksperckiej można utworzyć repozytorium wzorców określających pożądane wartości parametrów. Trzeba jednak pamiętać, że istotnymi cechami, które należy wziąć pod uwagę jest wiek kandydata, po którym przyporządkowuję się go do kategorii wiekowej k K oraz płeć { , }s b g . Drugim ważnym założeniem jest to, że dyscypliny mogą posiadać różne zestawy parametrów potrzebnych do określenia czy dana osoba wyróżnia się na tle innych kandydatów. Biorąc powyższe pod uwagę niech będą dane: ( ) , ..., , , , , { , }...,1 dd d d s d D k K s b gNN N N Nl kL d =     - zbiór numerów parametrów dla danej dyscypliny sportowej, gdzie: N k - zbiór numerów wszystkich parametrów z repozytorium dla kategorii wiekowej k K . L(d) - liczba parametrów wydajnościowych dyscypliny sportowej d D . Cześć z zebranych parametrów będzie miała większe znaczenie dla danej dyscypliny niż pozostałe, więc dla każdego z nich, ekspert powinien określić stopień ważności: ( )  0,1 , d d dn n Nl l   Po zebraniu parametrów kandydata x należącego do zbioru wszystkich planowanych do przebadania kandydatów X w danej kategorii wiekowej k K , możemy opisać go w następujący sposób:  , ..., , ...,1 xx x x NN N N l L = - zbiór numerów parametrów kandydata s x X k  , k K , { , }s b g , gdzie: L - liczba parametrów w repozytorium. W artykule w celach demonstracyjnych ograniczono się do cech antropometrycznych oraz składu budowy ciała. Nie uwzględniono w nim również wieku kandydatów i dla wszystkich dyscyplin zastosowano ten sam zestaw cech. 48 Maciej Kaczanowski Opisywane podejście w przyszłości zostanie rozbudowane o pominięte aspekty oraz planuję się dodać parametry wydajnościowe oraz psychologiczne. 5. Wzorce dyscyplin sportowych W celu demonstracyjnym do utworzenia bazy wzorców dyscyplin wykorzystano dane referencyjne opublikowane przez autorów publikacji [2]. W pracy tej do pomiarów wzrostu i wagi wykorzystano 898 sportowców (264 kobiet i 634 mężczyzn). Parametry antropometryczne zostały zmierzone na 798 sportowcach (240 kobietach i 558 mężczyznach). Celem pracy było określenie referencyjnych wartości antropometrycznych i budowy ciała sportowców. Dane zebrano za pomocą badań densytometrycznych metodą DXA (dwuenergetyczna absorpcja rentgenowska). Służą one do określenia gęstości i mineralizacji kości, ustalenia składu ciała (zawartości tłuszczu, masy mięśniowej i składników mineralnych). Metody pomiarów składu ciała człowieka ze względu na złożoność podzielono na pięć poziomów: 1. Atomowy, 2. Molekularny, 3. Komórkowy, 4. Tkanki i narządy, 5. Całe ciało. W tym przypadku przy pomiarach skupiono się na dwóch poziomach: a) całe ciało - dokonano pomiarów antropometrycznych, b) molekularny - badania wykonane metodą densytometryczną DXA. Wyniki opublikowano w postaci tabel, w których rozróżniono płeć sportowca. W kolumnach tabeli przedstawiono percentyle 0.05, 0.25, 0.50, 0.75, 0.95, dla każdego z nich najmniejszą, estymowaną i największą wartość. W wierszach zapisano poszczególne dyscypliny. Sposób estymacji został dokładnie opisany w omawianym artykule. Wzorce dyscyplin sportowych zbudowano w oparciu o dane z obydwu grup: „całe ciało” oraz „poziom molekularny” tylko dla mężczyzn z uwagi na brakujące dane referencyjne dla kobiet. Do wzorca każdej dyscypliny zapisano przeciętną (medianę) estymowaną wartość. Mediana (percentyl 0.50) oznacza, że wartość badanej cechy u 50% sportowców danej dyscypliny nie przekraczała tej wartości. Oryginalne dane zostały zapisane w formacie pdf, co znacznie utrudniło wykorzystanie ich w dalszych pracach. Proces wydobycia danych z pdf wymagał konwersji do docx, z którego dokonano eksportu do xlsx po czym każdy parametr zapisano w oddzielnym pliku csv. Parametry dla wzorców z grupy „całe ciało”, które wykorzystano w demonstratorze: BW - Waga (ang. Body weight) (kg); H - Wzrost (ang. Height) (cm); BMI - Wskaźnik masy ciała (ang. Body mass index) (kg/m2); SSS - Miara fałdów skórnych w siedmiu miejscach (ang. Sum of seven skinfolds) (mm); SAPS - Miara fałdów skórnych na kończynach (ang. Sum of appendicular skinfolds) (mm); SAS - Miara fałdów skórnych na ramionach (ang. Sum of arm skinfolds) (mm); SLS - Miara fałdów skórnych na nogach (ang. Sum of leg skinfolds) (mm); STS - Miara fałdów skórnych tułowia (ang. Sum of trunk skinfolds) (mm); AC - Obwód ramienia (ang. Arm circumference) (cm); AMC - Obwód mięśnia ramienia (ang. Arm muscle circumference) (cm); Komputerowe wspomaganie identyfikacji talentów w sporcie 49 HC - Obwód bioder (ang. Hip circumference) (cm); TMC - Obwód mięśnia uda (ang. Thigh muscle circumference) (cm); CMC - Obwód mięśnia łydki (ang. Calf muscle circumference)(cm); Tabela 1. Wzorce dyscyplin sportowych D y sc y p lin a S T S B W C M C S A P S A M C H C S L S H S A S S S S B M I T M C Lekkoatletyka 36.50 74.03 35.90 20.42 27.32 95.45 11.93 181.6 9.05 47.62 22.39 52.00 Koszykówka 59.90 81.76 36.28 33.94 27.16 99.29 20.19 190.3 14.03 72.65 22.52 51.08 Gimnastyka 38.34 66.44 33.49 27.34 27.12 92.24 16.12 169.8 11.87 59.12 23.00 46.34 Korfball 54.28 72.73 35.62 27.02 25.93 93.96 15.83 180.0 12.31 62.43 22.32 47.39 Pięciobój 41.28 69.56 34.56 25.83 27.13 93.83 15.08 176.2 11.65 57.27 22.30 51.73 Inne sporty walki 51.47 70.47 34.45 30.44 27.10 94.66 18.89 175.6 12.00 62.89 22.77 50.57 Wioślarstwo 49.18 78.52 34.66 27.10 28.00 96.66 16.09 182.4 11.49 60.88 23.51 50.77 Piłka nożna 47.60 73.90 35.18 25.01 27.97 95.75 15.04 176.4 10.72 58.81 23.68 51.93 Pływanie 43.39 72.18 34.38 26.42 30.91 94.23 16.38 179.6 10.36 56.93 22.29 48.71 Tenis 63.98 71.56 34.13 31.11 25.93 93.88 18.27 177.0 13.52 67.85 22.75 47.82 Triathlon 44.78 66.17 34.20 23.19 26.38 90.54 13.98 175.6 9.61 50.26 21.44 47.75 Siatkówka 54.99 89.46 36.79 27.98 31.18 102.82 17.28 193.4 11.45 70.00 23.84 53.44 Wrestling i Judo 55.15 71.56 34.37 26.73 29.04 93.33 16.24 172.6 10.69 59.58 23.96 49.71 Źródło: Opracowanie własne na podstawie danych referencyjnych z pracy [2]. 6. Badanie podobieństwa Jedną z metod, którą można z powodzeniem zastosować w omawianym przypadku jest metoda wieloaspektowego badania podobieństwa przedstawiona w pracach [4], [5] i [6]. Prace te dotyczą modelowania stanu zdrowia pacjenta, aczkolwiek metoda w nich przedstawiona może również znaleźć zastosowanie w obszarze identyfikacji sportowych talentów. Wektor parametrów może posłużyć w systemie opartym na wieloaspektowym badaniu podobieństwa do określenia odpowiedniej dyscypliny sportowej. Na potrzeby artykułu do badani podobieństwa pomiędzy stanem kandydata, a wzorcem dyscypliny sportowej wykorzystano modele pajęczynowe. Wyróżnia się kilka typów tych modeli: punktowe, gwiazdowe, radarowe i wiatrakowe. Ich wspólną właściwością jest to, że każda cecha ma swoją własną oś wychodzącą z centralnego punktu. W niniejszym opracowaniu zastosowano dwa typy modeli: modele radarowe i wiatrakowe. Te pierwsze powstają przez łączenie liniami wszystkich wartości tej samej serii. W drugich również wartości jednej serii łączone są liniami, ale każda wartość jest umieszczona na dwóch osiach tak, aby powstały trójkąty równoramienne przylegające do siebie bokami z jednym wierzchołkiem wspólnym. Autorska aplikacja po wprowadzeniu danych kandydata i wzorców dyscyplin sportowych wykonuje odpowiednie wykresy. Na wykresach 50 Maciej Kaczanowski pajęczynowych przedstawione są: stan kandydata, wzorzec dyscypliny sportowej, które nanoszone są na jeden wspólny wykres. Pozwala to wizualnie ocenić stopień podobieństwa, na przykład, gdy kształty i wymiary wykresów są zbliżone to stopień jest wysoki. Aplikacja wylicza również charakterystyki jakościowe wykresów takie jak: promień, pole, liczba boków, długość obwodu, środek ciężkości i dla wspólnego wykresu: różnice promieni, część wspólną pól powierzchni, różnice liczby boków, różnicę długości obwodu, odległość środków ciężkości, odległość wektorów. Skala podobieństwa wykresów określona została na podstawie części wspólnej pól powierzchni oraz odległości środków ciężkości. Dysponujący tymi danymi możemy określić odległość kandydata od wzorców zdefiniowanych dla każdej dyscypliny sportowej. Symbolami ( ) * dp i ( ) * ds oznaczymy wzorce dyscypliny sportowej nr d D w aspekcie części wspólnej pól powierzchni i odległości środków ciężkości wykresu pajęczynowego. Symbolami ( ) ( ) * , , d 1 N x p d Do        i ( ) ( ) * , , d 2 N x s d Do        oznaczymy odpowiednio część wspólną pól powierzchni i odległość środków ciężkości wykresów pajęczynowych kandydata i wzorca. Następnie wykorzystując teorie optymalizacji wielokryterialnej i teorię punktu idealnego * * * , 1 2y y y =        definiujemy zadanie w postaci: ( )( ), ,W o d R ,gdzie: W - zbiór dyscyplin wstępnie wybranych dla kandydata; ( )o d - wektorowa funkcja odległości kandydata od wzorca dyscypliny sportowej nr d D ; R − model preferencji decydenta; Wyznaczamy najbardziej prawdopodobną dyscyplinę i budujemy ranking dyscyplin do dalszej weryfikacji: ( ) ( ) * * , min min1 21 2 d dy yo o= = Komputerowe wspomaganie identyfikacji talentów w sporcie 51 Rysunek 3. Przestrzeń podobieństwa wygenerowana przez autorską aplikację Źródło: Opracowanie własne. Na rysunku 3 w zbiorze pareto (najbardziej prawdopodobnych dyscyplin) znalazły się: tenis, koszykówka oraz wrestling i judo. 7. Uczenie maszynowe Innym podejściem, które warto skonfrontować z zadaniem omawianym w niniejszej publikacji jest jeden z obszarów sztucznej inteligencji, a mianowicie uczenie maszynowe (ang. machine learning). Dziedzina ta w ostatnim czasie stała się popularna i bardzo szybko się rozwija. Główny podział metod uczenia maszynowego wyróżnia uczenie nadzorowane i nienadzorowane. Pierwszy sposób polega na tym, że system dostaje przykłady poprawnego działania, na których powinien się wzorować w swojej bieżącej pracy. Uczenie nienadzorowane (bez nauczyciela, czasem nazywane samo-uczeniem) tworzy samodzielnie model wymagany do rozwiązania zadania nie potrzebując do tego danych o pożądanym wyniku. Omówienie wszystkich algorytmów i technik wchodzących w skład tej dziedziny nawet w podstawowym zakresie wymagałoby poświęcenia setek stron, dlatego też w niniejszym opracowaniu przedstawiono problem klasyfikacji wieloklasowej, którym jest przyporządkowywanie kandydatów na podstawie ich parametrów do odpowiedniej dyscypliny sportowej. Kluczowa dla metod i technik z tego obszaru jest liczba dostępnych danych. Im więcej danych zostanie poddanych analizie, tym lepsze osiągnie się rezultaty. Eksperyment przeprowadzono w środowisku chmurowym Microsoft Azure Machine Learning Studio przy wykorzystaniu algorytmu lasu drzew decyzyjnych 52 Maciej Kaczanowski (ang. Decision Forest). Przygotowanie komponentu uczącego się do systemu komputerowego wspomagania identyfikacji sportowych talentów zostało podzielone na kilka kroków przedstawionych na rysunku 4. Rysunek 4. Przygotowanie komponentu uczącego się do systemu komputerowego wspomagania identyfikacji talentów w sporcie Źródło: Opracowanie własne. (1) Zebranie danych – pierwszy i jeden z najważniejszych procesów, który przełoży się, na jakość całego rozwiązania. Zgodnie z zasadą „śmieci na wejściu, śmieci na wyjściu” to, jakimi danymi zostanie zasilony system przełoży się na jego ogólną efektywność. Niewłaściwe dane źródłowe mogą się już na początku przeprowadzonych eksperymentów objawiać niską entropią lub brakiem korelacji między zmiennymi wejściowymi, a zmienną wyjściową. (2) Przygotowanie danych – przed przetworzeniem danych należy je na początku w odpowiedni sposób przygotować. W tym kroku dokonywana jest agregacja, ocena, obróbka i wzbogacanie danych. (3) Wybór algorytmu – zastosowany algorytm przełoży się na szybkość i poprawność wykonywanego przez system przetwarzania. Krok ten zostanie wielokrotnie powtórzony w celu porównania kilku algorytmów. (4) Trenowanie modelu - w tym kroku przy wykorzystaniu danych archiwalnych odpowiednio podzielonych na zbiory, dokonywana jest nauka modelu, aby w przyszłości miał on zastosowanie dla nowych danych napływających na wejście systemu. (5) Ocena modelu – jest to krok warunkujący zakończenie całego procesu przygotowania modelu. W typowych eksperymentach uczenia maszynowego po ocenie następuję wielokrotne powtórzenie poprzednich kroków mające na celu poprawę, jakości modelu, aż do uzyskania zadowalającego poziomu. W użytym środowisku moduł oceny dla klasyfikatorów wieloklasowych zwraca średnie Komputerowe wspomaganie identyfikacji talentów w sporcie 53 miary, jakości oraz macierz pomyłek, na której przedstawione są informacje, ile procent obiektów zostało zaklasyfikowanych do poszczególnych klas. Jedną z podstawowych miar, jakości klasyfikatorów jest trafność klasyfikacji mówiąca o tym, jaki jest stosunek liczby obiektów poprawnie zaklasyfikowanych do liczby wszystkich obiektów. (6) Wykorzystanie modelu – w przypadku pożądanego rezultatu najlepszy model zostanie wprowadzony do eksploatacji. Po tym kroku należy monitorować jego działanie i ewentualnie dokonywać aktualizacji przy użyciu nowych danych. Zbiór danych na potrzeby eksperymentu wygenerowano przy użyciu języka Python. Z każdego parametru z danych referencyjnych [2] wybrano najmniejszą i największą wartość, a następnie za pomocą modułu pandas utworzono DataFrame składający się z trzech kolumn. Zestaw testowy został rozbudowany o poniższe cechy względem poprzedniego eksperymentu: ( 1 ) APFM - Appendicular fat-mass; ( 2 ) APBMC- Appendicular bone mineral content; ( 3 ) SBMC- Subtotal bone mineral content; ( 4 ) SBFMP- Subtotal fat mass%; ( 5 ) SBFM- Subtotal fat mass; ( 6 ) SBFFM- Subtotal fat-free mass; ( 7 ) SLST- Subtotal lean soft tissue; ( 8 ) WBFT- Whole body fat mass; ( 9 ) WBBMC- Whole-body bone mineral content; ( 10 ) WBBMD- Whole-body bone mineral density; ( 11 ) WBFFMI- Whole-body fat mass index; ( 12 ) WBFFM- Whole-body fat-free mass; ( 13 ) WBLST- Whole-body lean soft tissue; , dla następujących ośmiu dyscyplin sportowych wygenerowano 3200 przypadków, czyli po 400 dla każdej: (1) Lekkoatletyka (ang. Athletics); (2) Koszykówka (ang. Basketball); (3) Piłka nożna (ang. Soccer); (4) Pływanie (ang. Swimming); (5) Tenis (ang. Tennis); (6) Triathlon; (7) Siatkówka (ang. Volleyball); (8) Wrestling and Judo; 54 Maciej Kaczanowski Rysunek 5. 30 przypadków dla dyscypliny pływanie ze zbioru danych testowych Źródło: Opracowanie własne. Rysunek 6. Histogram przedstawiający liczbę przypadków dla każdej dyscypliny Źródło: Histogram wygenerowany w Azure Machine Learning Studio na podstawie zbioru danych testowych. Rysunek 7. Wskaźniki jakości modelu Źródło: Wynik eksperymentu przeprowadzonego w Azure Machine Learning Studio. Komputerowe wspomaganie identyfikacji talentów w sporcie 55 Rysunek 8. Macierz pomyłek Źródło: Wynik eksperymentu przeprowadzonego w Azure Machine Learning Studio. Przeprowadzono serię eksperymentów w trakcie, których zmieniano parametry algorytmu. Najlepszy uzyskany wynik dla algorytmu drzew decyzyjnych to ogólna dokładność na poziomie 0.88 (liczba prawidłowo zaklasyfikowanych przypadków / liczba wszystkich przypadków). Na macierzy pomyłek widać, że model najlepiej poradził sobie z klasyfikacją przypadków dla dyscypliny piłka nożna (100% dobrze zaklasyfikowanych), a najgorzej dla koszykówki (74,5%), gdzie 12.7% przypadków zostało zaklasyfikowanych, jako siatkówka. 8. Podsumowanie Obydwie metody przedstawione w niniejszym opracowaniu dają zachęcające rezultaty do dalszej analizy. Przedstawiony schemat procedury może zostać wykorzystany do implementacji komputerowego systemu wspomagania identyfikacji talentów sportowych (KSWITS). Implementacja ta połączona z ogólnokrajową bazą wzorców parametrów dla każdej dyscypliny mogłaby znaleźć zastosowanie w szkołach, sekcjach i klubach sportowych. Budowa ogólnokrajowego 56 Maciej Kaczanowski KSWITS może stać się kontynuacją działań Instytutu Sportu i Ministerstwa Sportu i Turystyki, które udostępniło innowacyjne elektroniczne narzędzie „Narodową Bazę Talentów”. Za pomocą tego narzędzia gromadzone są dane dotyczące sprawności fizycznej dzieci i młodzieży. Literatura [1] Vučetić, V., Babić V., Šentija D., Nekić B. (2015), “Anthropometric and morphological characteristics of runners.”, University of Zagreb, Croatia. [2] Santos D. A., Dawson J. A., Matias C. N., Rocha P. M., Minderico C. S., Allison D. B., Sardinha L. B., Silva A. M. (2014), “Reference Values for Body Composition and Anthropometric Measurements in Athletes.”, PLOS ONE, Retrieved from http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097846. [3] Hugo K. (2004), “A model for talent identification and development for team sports in South Africa..” , Dissertation presented for the degree of Doctor in Sport Science at the University of Stellenbosch. [4] Ameljańczyk A. (2009), “Matematyczne aspekty modelowania pajęczynowego obiektów.”, Biuletyn Instytutu Systemów Informatycznych, WAT, Warszawa. [5] Ameljańczyk A. (2009), „Wielokryterialne mechanizmy wspomagania podejmowania decyzji medycznych w modelu repozytorium w oparciu o wzorce.”, Biuletyn Instytutu Systemów Informatycznych, WAT, Warszawa. [6] Ameljańczyk A. (2010), “Model formalny informatycznego komponentu wspomagania decyzyjnego ustalania wstępnej diagnozy medycznej.”, Biuletyn Instytutu Systemów Informatycznych, WAT, Warszawa. [7] Kusy K., Zieliński J. (2017), “Nowoczesne metody diagnostyczne w sporcie. Przewodnik Trenera.”, AWF, Poznań. [8] Woińska M., Szmidt C., (2005), „Metody i techniki wyłaniania kadry o wysokim potencjale (wnioski z praktyki)”, [w:] S. Borkowska (red.), Zarządzanie talentami, IPiSS, Warszawa.: 71. [9] Pocztowski A. (2008) „Zarządzanie talentami w organizacji”, Wyd. Wolters Kluwer, Warszawa. 38-40. [10] Panfil Ł. (2012), „Model wpierania rozwoju talentów sportowych w procesie zarządzania nimi – badania pilotażowe”, prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, Sukces w zarządzaniu kadrami. Elastyczność w zarządzaniu kapitałem ludzkim Problemy zarządczo-ekonomiczne. ISSN 1899-3192, str. 327- 336. [11] Morton L. (2004) “Integrated and Integrative Talent Management: A Strategic HR Framework”, Conference Board. [12] Listwan T. (2005) , „Zarządzanie talentami – wyzwanie współczesnych organizacji”. Strony internetowe [13] https://pl.wikipedia.org [14] http://mlodziezowyfutbol.pl/poradnik-sukcesu-pilkarza/dla-rodzica/poradnik- mf-talent-pilce-noznej-identyfikowanie-rozwoj-cz http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097846 https://pl.wikipedia.org/ http://mlodziezowyfutbol.pl/poradnik-sukcesu-pilkarza/dla-rodzica/poradnik-mf-talent-pilce-noznej-identyfikowanie-rozwoj-cz http://mlodziezowyfutbol.pl/poradnik-sukcesu-pilkarza/dla-rodzica/poradnik-mf-talent-pilce-noznej-identyfikowanie-rozwoj-cz