Z prof. Pawłem Garbaczem, Technical Leader’em w MakoLab i pracownikiem Katedry Podstaw Informatyki, Instytutu Filozofii, Wydziału Filozofii, Katolickiego Uniwersytetu Lubelskiego rozmawiamy o potrzebie i korzyściach, jakie niesie połączenie metod symbolicznej i pod-symbolicznej sztucznej inteligencji.
Panie Profesorze, jest Pan zaangażowany w złożone, ambitne projekty wykorzystujące AI. Na polskim rynku nie są one dziś w przewadze, dominują wdrożenia prostych rozwiązań obsługujących elementy procesów biznesowych. Nic dziwnego, że rodzi to pytania: czy wdrożenie chatbota naprawdę oznacza, że firma wkroczyła na drogę adaptacji AI?
Cieszy mnie szerokie poszukiwanie zastosowań do rozwiązań sztucznej inteligencji na rynku, ale można by powiedzieć: pełni satysfakcji nie czuję. Wywodzę się z nurtu sztucznej inteligencji symbolicznej, obecnie żywej głównie w świecie internetu semantycznego, pomysłu Tima Bernersa-Lee utworzenia internetu, który byłby zrozumiały dla komputerów. Jeśli porówna się dziś pozycję AI symbolicznej i podsymbolicznej, to przewaga tej drugiej jest przygniatająca.
Rozwój nurtu symbolicznej AI dokonuje się przede wszystkim w środowisku akademickim, ale zarówno pod względem naukowym, jak i komercyjnie dominują oczywiście podejścia podsymboliczne, koneksjonistyczne uczenie maszynowe itd.
Biorąc pod uwagę moje korzenie i zainteresowanie, z kolegami i MakoLabem próbujemy przełamać tę monokulturę i pogodzić oba podejścia. W jakimś ograniczonym zakresie, to nam się udaje.
Czy istnieje możliwość szerszego zwrotu rynku w kierunku podejścia symbolicznej AI?
Oczywiście, jak ironicznie zauważył kiedyś Niels Bohr, każde przewidywanie jest trudne, szczególnie jeśli dotyczy przyszłości. Ale gdyby spojrzeć pozytywnie, źródeł nadziei należy upatrywać w obrębie badań nad dominującą dziś podsymboliczną sztuczną inteligencją.
Przed kilku laty profesor Jürgen Szmidhuber, który jest prominentną postacią w świecie uczenia maszynowego, ponieważ wymyślił architekturę sieci neuronowych LSTM (Long short-term memory) i nadal pracuje przy tworzeniu architektury sieci neuronowych, ogłosił uniwersalny pomysł. Dotyczy on ogólnej sztucznej inteligencji, która jest w stanie symulować wszystkie zdolności poznawcze człowieka. Sformułował dla niej model, zwany maszyną Gödla, zakładający połączenie uczenia maszynowego z metodami symbolicznymi.
Na czym polega synteza obu nurtów w maszynie Gödla?
Maszyna Godla w kolejnych interwałach czasu, na podstawie znajomości swojego stanu i środowiska, zmienia strukturę. Sama sobie też dowodzi, że owa zmiana doprowadzi do optymalizacji pewnej funkcji, która określa jej dostosowanie się do środowiska. Metody symboliczne służyłyby do weryfikacji zmian w procesie uczenia się.
To połączenie obu rodzajów sztucznej inteligencji jest bardzo obiecujące i tym ciekawsze, że pomysł wyszedł od człowieka, który zajmuje się uczeniem maszynowym. Widzi więc miejsce dla metod symbolicznych w ogólnym systemie sztucznej inteligencji.
To niesie ciekawe perspektywy i pojawiły się kolejne środowiska, które próbują w jeszcze inny sposób łączyć oba podejścia, ale mnie osobiście najbardziej zainteresował ten właśnie model.
W MakoLab pojawiła się okazja, aby taki syntetyzujący oba podejścia projekt zrealizować.
Mamy dwa obiecujące doświadczenia projektowe. Pierwsze to projekt zamówiony przez jedną z instytucji Komisji Europejskiej. Chodziło o stworzenie słownika pojęć prawniczych i ekonomicznych na podstawie przekazanego zbioru dokumentów, z którego należało wyekstrahować najważniejsze pojęcia i ich definicje – zdania i fragmenty, które są definicjami pojęć w sensie prawnym. Zaprojektowaliśmy proces, syntezę obu AI, który prowadzi do powstania takiego słownika.
Za punkt wyjścia obraliśmy pewne artefakty tworzone w świecie symbolicznej AI, ontologie prawa i ekonomii, w których istniały takie definicje. Na podstawie tych definicji uczyliśmy następnie sieć neuronową rozpoznawania odpowiadających im pojęć w tekstach. Algorytm wyszukuje w dokumentach miejsca, które odpowiadają definicjom, następnie te odnalezione zdania przekładane są na początek procesu – wzbogacają wyjściowe ontologie. Dokonaliśmy kilku takich iteracji.
Metody symboliczne posłużyły więc do dostarczenia próbki uczącej.
Pierwotne dane uczące, których potrzebowaliśmy do uczenia maszynowego, wzięliśmy z ontologii dla finansów i dla prawa, łącznie z sześciu. Powstały one poza projektem, choć przynajmniej jedna – FIBO – jest tworzona przy udziale MakoLabu.
Z czego wynika unikalna wartość tego syntetycznego podejścia? Jakie z tego projektu uzyskał Pan wnioski o skuteczności syntezy obu podejść AI?
Stworzyliśmy rozwiązanie, które nazwaliśmy DG FISMA, będące wynikiem zbudowanej metodyki, którą nazwaliśmy KnowML. W tej metodyce, która może mieć szersze zastosowanie, udało się dobrze skoordynować podejście symbolicznej AI i ML, dlatego uzyskaliśmy efekt synergii, jeśli chodzi o zakres i jakość informacji – informacyjnych artefaktów, które rozwiązanie wytwarza. Zwrotnie mogą one „zasilać” wyjściowe ontologie, doprecyzowując symboliczne reprezentacje. Kilkakrotne powtórzenie procesu pozwala poprawiać, „wysycać” te wyniki.
Zaobserwowaliśmy też, że zdecydowana większość tego procesu jest zautomatyzowana, ale niezbędna jest obecność eksperta dziedzinowego, wspierającego uczenie AI. Z kolei sama ewaluacja modeli ML wymaga właściwych miar, konkretnie – odnalezienia równowagi pomiędzy miarami dodatniej wartości pozytywnej (presicion) oraz czułości (recall), odnoszącymi się odpowiednio do właściwej klasyfikacji oraz właściwego rozpoznania elementów. Koniec wieńczy dzieło – a w tym wypadku jest to odpowiednia forma narzędzia, np. aplikacji webowej zawierającej grafy wiedzy, pozwalającej użytkownikowi posługiwać się i w pełni wykorzystywać potencjał tego rozwiązania.
Drugi projekt dotyczył innej technologii i obszaru, ale ponownie doszło do połączenia obu sztucznych inteligencji.
Był to PoC, zrealizowany rok temu, na początku pandemii, w odpowiedzi na wyzwanie ogłoszone na specjalistycznej platformie dla osób zajmujących się sztuczną inteligencją -Kaggle.com . Serwis opublikował zbiór artykułów o walce z COVID i postawił zadanie – wydobyć z tych publikacji najważniejsze informacje, a następnie zapisać je w ustrukturyzowany sposób. Baza danych obejmowała 200 tys. artykułów, z czego 100 tys. w pełnej wersji. Tutaj podejście było inne, podobnie jak inne było połączenie obu sztucznych inteligencji. Jego efektem jest system Knowledge Sifter (Sito wiedzy).
Na czym polegała różnica?
Pierwszy etap to było oddzielenie informacji istotnych od nieistotnych. Skorzystaliśmy ze struktury zbioru wykreowanego kiedyś w innym projekcie, dotyczącym zupełnie innej branży – produkcji i konsumpcji wołowiny.
Najważniejsze stwierdzenia wychwycone w ramach tamtego projektu wybrali ludzie, eksperci. To oni zdecydowali, że określone zdania mają kluczowy, istotny charakter. Mieliśmy więc takie zdania – ich strukturę, składnię – i zastosowaliśmy je jako próbkę uczącą dla sieci neuronowej. Sieć miała rozpoznawać istotne zdania w każdej innej publikacji – w tym wypadku w artykułach naukowych. Ten system pozwolił nam odfiltrować pokaźną liczbę zdań istotnych – uzyskaliśmy dobre wyniki.
Następny krok to było włączanie symbolicznej AI, a w zasadzie przetwarzanie języka naturalnego (NLP). Skorzystaliśmy z systemu, który udostępnia IBM – Watson. Dokładnie z usługi CPI, wykrywającej w tekście pojęcia ontologiczne, encje i engramy, tj. frazy istotne wielowyrazowe. Na podstawie uzyskanych wyników wykonuje się grafy.
Do czego posłużyły schematy grafowe?
Jeśli mieliśmy zdanie, które było węzłem w grafie, a następnie listę wszystkich pojęć, listę encji, engramów, to informacje w artykułach uważane za istotne zostały zapisane w ustrukturyzowany sposób. Mieliśmy więcej oczekiwań, ale można znajdować wszystkie zdania dotyczące pojęcia, wyszukiwać korelacje, ponieważ zapisane to zostało w ustrukturyzowanej postaci.
Pojęcia ontologiczne, które znalazł system, to nie jest tylko czysty tekst, ale element pewnej ontologii. Pojęcia, które znaleźliśmy, były odnośnikami do elementów ontologii.
W jaki sposób zadziałało to w przypadku konkretnych, specjalistycznych tekstów?
Jeśli w artykule z bazy tekstów o COVID-19 pojawił się skrót PTGS2 – określający pewien gen – to po identyfikacji tego pojęcia w zdaniu, wiem, że jest ono istotne i dlatego ma definicję w ontologii, pojawia się odnośnik do tej ontologii. Otrzymujemy pewną paczkę informacji powiązanych z danym pojęciem w grafie, co może pomóc w zrozumieniu pojęcia i danego zdania. Jest to rozwiązanie wspierające eksperta przeszukującego pewną klasę dokumentów, rozpoznającego i klasyfikującego dokumenty pod kątem zainteresowań, zapytań.
To podejście bliższe idei Linked & Open Data.
Na czym polega owa otwartość i dostępność dla użytkownika-badacza?
Idea jest taka, że udostępniamy dane, które są zapisane w postaci grafów semantycznych, tj. w języku RDF, RDFS czy OWL. Grafy publikujemy w internecie z usługą przeszukiwania w sposób automatyczny.
Iteracje mają w tym wypadku, podobnie jak w pierwszym projekcie, na celu doskonalenie wyjściowych ontologii?
Bardziej chodzi o wersjonowanie ontologii, rozszerzenie wiedzy, która jest zawarta w dokumencie. Jeśli uda nam się niektóre pojęcia odnieść do pojęć ontologicznych, to dochodzą kolejne kwestie. Na przykład w naszym projekcie mieliśmy do czynienia z różnymi nazwami tego samego genu.
Ten sam gen jest nazwany w jednym dokumencie w różny sposób, niektóre w dokumentach mają łącznie po 5-6 różnych nazw. Nasze rozwiązanie pokazuje, że chodzi o jedną i tę samą kwestię. O ile np. naukowiec nie będzie miał z tym problemu, to już np. urzędnik włączony do obiegu informacji przy użyciu tego dokumentu mógłby się czuć zagubiony. Dla badacza jest to zresztą także przydatne – ułatwi mu to pracę.
Czy możliwe, aby to rozwiązanie zuniwersalizować i wykorzystywać do różnych obszarów?
Dokładnie tak jest. Rozwiązania można wykorzystać do różnych kategorii tekstów z różnych dziedzin, stosownie podmieniając tylko wstępne ontologie. Znajdzie to zastosowanie w nauce, np. humanistyce. Na KUL-u zastanawiamy się nad projektem zestawu narzędzi pomocnych w paleografii. To badanie pisma języków wymarłych lub w których zapisywano wiele źródeł historycznych, np. w języku aramejskim. Powstał pomysł, aby wesprzeć badaczy języków biblijnych, ale to dopiero przed nami.
Kto jeszcze jest zainteresowany przetwarzaniem języka naturalnego? W tych przykładach mamy dwa pola zastosowań: nauka i administracja. Czy takie zapotrzebowanie na sprzężone modele AI widzi Pan także w biznesie?
Oczywiście. Widzę dwa obszary, w których firmy zgłaszają zapotrzebowanie na rozwiązania z komponentem symbolicznym. Pierwszy to wyszukiwanie dokumentów, tu już nie chodzi o dokumenty w sieci, tylko poza siecią. Jeśli jest ich dużo i jeśli są podobne, to powstaje problem. Na proste zapytanie system zwraca nam 10 tys. dokumentów – za dużo i często nietrafnie. Mamy więc zapytania o możliwość lepszego rozwiązania ze strony administracji państwowej i firm prywatnych.
Drugi obszar, to tzw. asystenci konwersacji, boty. Tutaj także jest zgłaszana potrzeba związana z tym, jak ustrukturyzować dane i stworzyć odpowiednią bazę. Na jej podstawie bot mógłby poprowadzić w miarę inteligentną konwersację z człowiekiem, np. klientem albo użytkownikiem systemu.
Nie wiem, czy można to nazwać drugim oddechem AI… Po błyskawicznym starcie do adaptacji w biznesie złapało po prostu zadyszkę. Zabrakło tak szerokiej, wspartej potencjałem naukowym wizji.
W mojej ocenie, drugie tempo w adaptacji AI jest po prostu niezbędne. W biznesie funkcjonują często rozwiązania na miarę lat 90., np. jeśli chodzi o wspomniane boty; na szczęście firmy też to dostrzegają, że potrzeba prawdziwej innowacji. Proste rozwiązania już nie wystarczają.