Strefa wolna od botów!
Piszemy my, nie maszyny.

Przetwarzanie języka naturalnego i eksploracja tekstu — perspektywy rozwoju

HAL 9000 jest symbolem zrozumiałym dla wszystkich ludzi zajmujących się przetwarzaniem języka naturalnego NLP (Natural Language Processing). HAL 9000 to nazwa komputera z oscarowego filmu Stanleya Kubricka „2001: Odyseja Kosmiczna” z 1968 roku[i], z którym można było się komunikować w naturalnym języku ludzi. Mimo upływu lat, kolejne pokolenia są zafascynowane przedstawioną tam wizją rozwoju technologii informatycznych. Eksploracja tekstów i zawartości baz danych, rozumienie języka mówionego to już się dzieje na naszych oczach. NLP coraz częściej wkracza w nasze życie, nie tylko biznesowe.

 

 

Rozwój przetwarzania języka naturalnego i eksploracji tekstu

 

NLP to interdyscyplinarna dziedzina angażująca językoznawców, specjalistów od sztucznej inteligencji, uczenia maszynowego, lingwistyki komputerowej, czy nawet algebry liniowej,  metod statystycznych i szybkiej analizy danych. Jej podstawowe zadanie polega na opracowaniu systemu, który mógłby dwukierunkowo przekształcać informacje binarne zapisane w bazach danych, czy plikach tekstowych na naturalny język łatwy do zrozumienia przez człowieka i w drugą stronę – informacje z języka naturalnego na formalne symbole wygodne do przetwarzania przez oprogramowanie. Choć NLP obejmuje także problemy związane z syntezą mowy, to wyewoluowały one do osobnego działu, który notuje znaczące postępy, także dzięki polskim specjalistom[ii]. Historia NLP nie jest długa, pierwsze próby nad algorytmami tej klasy rozpoczęły się pod koniec lat 80. XX wieku, ale postęp w tej dziedzinie można ocenić jako umiarkowany. Nie oznacza to jednak, że w ogóle brak postępów – zasoby leksykalne i języki, w których można mówić o rozumieniu języka naturalnego stale się poszerza.

Techniki przetwarzania języka naturalnego spotyka się już w programach do tłumaczenia tekstów z jednego języka na inny, w głosowych systemach GPS, asystentach cyfrowych, czy oprogramowaniu do konwersji mowy na tekst. NLP szybko się rozwija w chatbotach do obsługi klientów i licznych zastosowaniach ukierunkowanych na automatyzację, usprawnianie i obniżanie kosztów kluczowych procesów biznesowych.

 

 

Perspektywy rozwoju przetwarzania języka naturalnego i eksploracji tekstu

 

Jeśli przyjąć, że kiedyś uda się algorytmom spełnić definicję rozumienia języka naturalnego, to będzie to równoznaczne ze stworzeniem pełnej sztucznej inteligencji AI.  Oba zadania wymagają przecież zdolności do rozumienia świata, języka, kontekstu, tak jak robi to człowiek. Mimo odmiennego podejścia do zadań cząstkowych, oba obszary NLP i AI w istocie zajmują się tym samym zagadnieniem. Na horyzoncie jednak stoi bariera raczej nie do pokonania. Jak dowodzi sir Roger Penrose[iii], laureat nagrody Nobla z fizyki, ograniczeniem są niewzruszalne prawa przyrody i matematyki – tak mechanika kwantowa, jak i twierdzenie Gödla w fundamentalny sposób uniemożliwiają pełną realizację programu stworzenia sztucznej inteligencji i przetwarzania języka naturalnego. Pełny wywód na ten temat można zaleźć chociażby w „Nowym umyśle cesarza”[iv] lub „Makroświat, mikroświat i ludzki umysł[v].

 

 

Jak przetwarzanie języka naturalnego i eksploracja tekstu mogą rozwinąć się w przyszłości?

 

Wszystko wskazuje na to, że postęp w dziedzinie mikroelektroniki[vi] i programowania poprowadzi całą dziedzinę NLP ścieżką przetartą przez programy szachowe. Po skromnych początkach nastąpiła era gwałtownego wzrostu aż do osiągnięcia i ugruntowania dominacji oprogramowania nad człowiekiem[vii]. Na razie gra toczy się o minimalizację liczby niezbędnych interwencji człowieka w efekty działania algorytmów. Na co dzień można dostrzec to chociażby w działaniu popularnego translatora Google, który z roku na rok co raz lepiej radzi sobie z tłumaczeniami na różne języki. Użycie algorytmów sztucznej inteligencji i głębokie uczenie maszynowe, także mikropraca użytkowników Google[viii], daje odczuwalną poprawę jakości przetłumaczonych tekstów. Wystarczy sprawdzić jakość tłumaczenia z angielskiego na polski i ponownie z polskiego na angielski, ot choćby zwrotu „duch wprawdzie ochoczy, ale ciało mdłe”. Jeśli efekt będzie przynajmniej zadowalający – jest już dobrze. Zapewne niedługo doczekamy czasów, kiedy praca redakcyjna okaże się niewiele wnoszącym do jakości tekstu dodatkiem. Zdolność do rozumienia kontekstu i prawidłowej interpretacji sensu zdania na pewno wpłynie na jakość syntezy mowy – audiobooki w wykonaniu programów przestaną razić monotonią intonacji głosu.

Na pewno będzie się poprawiać jakość działania algorytmów do wykrywania spamu. W tej chwili najlepsze programy antyspamowe wykorzystują techniki klasyfikacji tekstu NLP do skanowania wiadomości e-mail w poszukiwaniu słów, zwrotów i ogólniej języka, który wskazuje właśnie na spam lub phishing. Może być to nadużywanie terminów finansowych, charakterystyczna niepoprawna lub rzadko spotykana gramatyka, nieadekwatny język, czy błędna pisownia nazw firm. Część ekspertów uważa, że przynajmniej w tej dziedzinie NLP spełniło swoje zadanie, choć codzienna praktyka może wskazywać na ich nadmierny optymizm. Oznacza to, że nadal jest tu miejsce na postęp.

Świetlana przyszłość czeka także NLP w zakresie tworzenia rozbudowanych indeksów, podsumowań i streszczeń dużych ilości tekstów i danych badawczych. Najlepsze aplikacje do podsumowywania tekstu już teraz wykorzystują rozumowanie semantyczne i generowanie języka naturalnego (NLG), aby dodać przydatny kontekst i wnioski do podsumowań.

W perspektywie najbliższych lat można także liczyć na szybki rozwój jakości pracy wirtualnych agentów takich, jak Siri firmy Apple, czy Alexa Amazona. Systemy te wykorzystują rozpoznawanie mowy do tworzenia wzorców w poleceniach głosowych i generowania języka naturalnego tak, aby odpowiadać działaniem lub pomocnym komentarzem. Także chatboty uczą się rozpoznawać kontekstowe wskazówki dotyczące oczekiwań rozmówcy i wykorzystywać je do udzielania jeszcze lepszych odpowiedzi. Są one wykorzystywane wszędzie tam, gdzie firmy postawiły na automatyzację procesów biznesowych i szybkie osiągnięcie znaczących zwrotów z inwestycji w nowe technologie IT.

 

 

Jak używać przetwarzania języka naturalnego, aby lepiej zrozumieć tekst?

 

Odpowiedź na tak postawione pytanie jest dość przewrotna i jednocześnie prosta – z dużą ostrożnością. Przetwarzanie języka naturalnego wciąż zmaga się w z wieloma nierozwiązanymi do końca problemami związanymi z segmentacją mowy i tekstu, oznaczaniem części mowy, jednoznacznością słów i syntaktyczną niejednoznacznością. Nawet akcent, użycie zwrotów slangowych lub regionalnych może znacząco zakłócić procesy przetwarzania języka naturalnego. Na koniec zawsze pozostanie zmaganie się z kontekstem i związkiem pomiędzy mową a działaniem. Prosty zwrot „Czy możesz podać mi widelec?” wymaga rozstrzygnięcia, czy rozmówcy chodzi o wiedzę, czy działanie. Dla człowieka to proste – dla algorytmu niekoniecznie.

W konsekwencji zastosowania NLP w sytuacjach wpływających na bezpieczeństwo, zdrowie i życie ludzi będę jeszcze długo z konieczności ograniczone.

Jednak już teraz NLP wpływa na nasze życie, przede wszystkim za sprawą mediów społecznościowych i narzędzi do analizy sentymentu, czyli oceny wydźwięku emocjonalnego wypowiedzi w postach, komentarzach, czy recenzjach[ix]. Na tej podstawie kształtują się nasze bańki informacyjne, a firmy mające dostęp do tych danych mogą kształtować nasze postawy, emocje, czy nawet wybory polityczne. Pół biedy, jeśli to wpływa wyłącznie na proponowane produkty, reklamy, promocje, czy wydarzenia biznesowe. Gorzej – jeśli cel tych działań niekoniecznie jest zbieżny z celami użytkowników.

 

 

Jakie są możliwości zastosowania przetwarzania języka naturalnego i eksploracji tekstu w biznesie?

 

Wykorzystanie metod przetwarzania języka naturalnego i eksploracji tekstów jest warunkiem koniecznym zastąpienia prostej robotyzacji inteligentną automatyzacją procesów biznesowych.  Algorytmy, narzędzie i techniki przetwarzania języka naturalnego NLP na stałe zagościły już w wielu firmach i aplikacjach. Może nie zawsze ich działanie jest widoczne, ale na pewno wszyscy doświadczają skutków ich działania.

W dużych firmach oferujących bezpłatne konta poczty e-mail takich, jak Google, czy Yahoo działają programy NLP skanujące i analizujące tekst napływających wiadomości. Wykrycie cech charakterystycznych dla spamu pozwala na ich oznaczenie i zatrzymanie jeszcze przed dotarciem do adresata. Także NLP pomaga silnikom wyszukiwarek internetowych jak najlepiej dopasować odpowiedzi do poszukiwanych wyników. Rozumienie znaczenia i chociażby przybliżonego kontekstu użytych słów kluczowych może znacząco zawęzić zakres poszukiwań i przyśpieszyć odpowiedź całego serwisu. Skrócenie czasu poszukiwania i poprawa jakość wyników wyszukiwarek może na całym świecie poprawić wydajność pracy tych, którzy z nich korzystają.

Popularne oprogramowanie biurowe, w tym edytor tekstu Microsoft Word, czy Grammarly na stałe posługują się technikami NLP do sprawdzania poprawności gramatycznej tekstów. Jakość ich podpowiedzi rośnie z czasem, z wersji na wersję poprawiają one swoją skuteczność. Jakość podpowiedzi, szczególnie w języku angielskim jest już chyba więcej niż zadowalająca, z wyjątkiem mocno specjalistycznych tekstów fachowych.

Inny przykład to Amazon Comprehend Medical[x], czyli usługa stosująca algorytmy NLP do generowania informacji na bazie dokumentów. Może ona wyodrębnić stany chorobowe, czy wyniki leczenia na podstawie notatek pacjentów, raportów z badań klinicznych i innych elektronicznych dokumentów medycznych. Ogólnie przyśpiesza i poprawia nadzór nad bezpieczeństwem farmakoterapii dzięki szybkiej identyfikacji niepożądanych ubocznych skutków działania farmaceutyków.

W finansach zebrane z rynku informacje są poddawane automatycznej analizie przez algorytmy NLP, co  ułatwia śledzenie wiadomości, raportów i komentarzy w aplikacjach np. na temat możliwych fuzji między firmami. Taka wiedza jest bezcenna dla traderów finansowych.

[i] https://www.filmweb.pl/film/2001%3A+Odyseja+kosmiczna-1968-1458

[ii] https://www.dobreprogramy.pl/@antar/ivona-polski-syntezator-mowy-ktory-podbil-swiat-opowiesc-o-tym-jak-to-sie-stalo,blog,110819

[iii] https://fizyka.ujk.edu.pl/pl/files/mrowczynski/swiadomosc.html

[iv] Roger Penrose – „Nowy umysł cesarza. O komputerach, umyśle i prawach fizyki”. Wydawnictwo Zysk i S-ka, Poznań 2021.

[v] Roger Penrose – „Makroświat, mikroświat i ludzki umysł”. Wydawnictwo Prószyński i S-ka, Warszawa 1997

[vi] https://www.intel.pl/content/www/pl/pl/government/exascale-supercomputing.html

[vii] https://www.ichess.net/blog/best-chess-engines/

[viii] https://translate.google.com/intl/en/about/contribute/

[ix] https://brand24.pl/blog/co-to-jest-analiza-sentymentu-oraz-jak-mozesz-ja-wykorzystac/

[x] https://aws.amazon.com/comprehend/medical/

Porozmawiajmy!

    Wypełnij formularz,
    a my pomożemy Ci wdrożyć najnowsze rozwiązania!