W miarę ewolucji sztucznie inteligentnych narzędzi do eksploracji literatury i danych programiści starają się zautomatyzować sposób generowania i sprawdzania hipotez.
Gdy informatyk Christian Berger próbował uzyskać projekt dotyczący algorytmów prowadzenia pojazdu na drodze, natrafił na zniechęcającą przeszkodę. Naukowcy z Uniwersytetu w Göteborgu w Szwecji znaleźli przytłaczającą liczbę artykułów na ten temat – ponad 10 000 – w systematycznym przeglądzie literatury. Właściwe ich zbadanie zajęłoby rok, mówi Berger.
Na szczęście mieli pomoc: narzędzie do eksploracji literatury oparte na sztucznej inteligencji (AI), o nazwie Iris.ai. Korzystając z 300 do 500 słów opisu problemu badacza lub adresu URL istniejącej pracy, berlińska usługa zwraca mapę tysięcy pasujących dokumentów, wizualnie pogrupowanych tematycznie. Wyniki, mówi Berger, zapewniają „szybki, a mimo to precyzyjny przegląd tego, co powinno być istotne dla określonego pytania badawczego”.
Iris.ai jest jednym z wielu nowych narzędzi wyszukiwania opartych na sztucznej inteligencji, oferujących ukierunkowaną nawigację w świecie wiedzy. Do takich narzędzi należy popularny Semantic Scholar, opracowany przez Allen Institute for Artificial Intelligence w Seattle, Waszyngton oraz Microsoft Academic. Chociaż każde narzędzie służy określonej niszy, wszystkie zapewniają naukowcom inne spojrzenie na literaturę naukową niż konwencjonalne narzędzia, takie jak PubMed i Google Scholar. Wielu pomaga badaczom zweryfikować istniejące hipotezy naukowe. Niektórzy, ujawniając ukryte powiązania między odkryciami, mogą nawet sugerować nowe hipotezy dotyczące prowadzenia eksperymentów.
Takie narzędzia zapewniają „najnowocześniejsze wyszukiwanie informacji”, mówi Giovanni Colavizza, naukowiec zajmujący się badaniami w Alan Turing Institute w Londynie, który bada analizę pełnotekstową publikacji naukowych. Podczas gdy konwencjonalne narzędzia działają głównie jako wskaźniki cytowań, te oparte na sztucznej inteligencji mogą zaoferować bardziej wnikliwy wgląd w literaturę, mówi Colavizza.
To powiedziawszy, narzędzia te są często drogie i ograniczone przez ułamek literatury naukowej, której szukają. „Nie mają na celu wyczerpujących poszukiwań”, mówi Suzanne Fricke, bibliotekarz zajmujący się zdrowiem zwierząt na Washington State University w Pullman, który napisał recenzję zasobów na temat Semantic Scholar ( S. Fricke J. Med. Lib. Assoc. 106 , 145–147; 2018 ). Niektóre, na przykład „mają na celu szybkie przyswojenie sobie tematu, dlatego należy ich używać w połączeniu z innymi narzędziami”. Berger powtarza to zdanie: „Ślepe używanie dowolnego silnika badawczego nie odpowiada automatycznie na każde pytanie”.
Nauczanie nauki maszyn
„Czytniki prędkości” oparte na sztucznej inteligencji są przydatne, ponieważ literatura naukowa jest tak ogromna. Według jednego szacunku, nowe artykuły publikowane są na całym świecie w tempie 1 miliona rocznie – to co 30 sekund. Jest praktycznie niemożliwe, aby naukowcy nadążali, nawet w swoich wąskich dyscyplinach. Niektórzy starają się obliczeniowo oswoić powódź.
Algorytmy zasilające takie narzędzia zazwyczaj wykonują dwie funkcje – wydobywają treści naukowe i zapewniają zaawansowane usługi, takie jak filtrowanie, ranking i grupowanie wyników wyszukiwania. Algorytmy wyodrębniające treści naukowe często wykorzystują techniki przetwarzania języka naturalnego (NLP), które mają na celu interpretację języka tak, jak ludzie go używają, wyjaśnia Colavizza. Deweloperzy mogą na przykład stosować nadzorowane uczenie maszynowe – które polega na „oznaczaniu” bytów, takich jak autorzy i referencje, w zestawach szkoleniowych do nauki algorytmów ich identyfikowania i wyodrębniania.
Aby zapewnić bardziej zaawansowane usługi, algorytmy często konstruują „wykresy wiedzy”, które szczegółowo opisują relacje między wyodrębnionymi elementami i pokazują je użytkownikom. Na przykład AI może sugerować, że lek i białko są powiązane, jeśli są wymienione w tym samym zdaniu. „Wykres wiedzy koduje to jako wyraźną relację w bazie danych, a nie tylko w zdaniu na dokumencie, co zasadniczo czyni go możliwym do odczytu maszynowego”, mówi Colavizza.
Iris.ai ma inne podejście, zauważa Colavizza, grupując dokumenty w tematy zdefiniowane przez słowa, których używają. Iris.ai przeszukuje kolekcję CORE , przeszukiwalną bazę danych zawierającą ponad 134 miliony artykułów o otwartym dostępie, a także czasopisma, do których biblioteka użytkownika zapewnia dostęp. Narzędzie łączy trzy algorytmy w celu stworzenia „odcisków palców dokumentów”, które odzwierciedlają częstotliwości użycia słów, które są następnie wykorzystywane do uszeregowania dokumentów według stosowności, mówi dyrektor ds. Technologii Iris.ai Viktor Botev.
Rezultatem jest mapa powiązanych dokumentów, ale ostatecznie firma planuje uzupełnić te wyniki, identyfikując hipotezy zbadane w każdym artykule. Rozwija także równoległy, oparty na blockchainie wysiłek o nazwie Project Aiur, który ma na celu wykorzystanie AI do sprawdzenia każdego aspektu dokumentu badawczego w porównaniu z innymi dokumentami naukowymi, tym samym potwierdzając hipotezy.
Colavizza twierdzi, że narzędzia takie jak Iris.ai – bezpłatne dla podstawowych zapytań, ale kosztujące nawet 20 000 EUR (23 000 USD) rocznie za dostęp premium, który pozwala na bardziej szczegółowe wyszukiwanie – mogą przyspieszyć wejście badaczy w nowe pola. „Ułatwia wstępne badanie literatury w dziedzinie, w której jestem marginalnie zaznajomiony” – mówi.
Colavizza sugeruje, że eksperci szukający głębszych informacji na temat swoich specjalizacji mogą rozważyć bezpłatne narzędzia oparte na sztucznej inteligencji, takie jak Microsoft Academic lub Semantic Scholar. Inną podobną opcją jest Dimensions, narzędzie, którego podstawowe użycie jest bezpłatne, ale którego wyszukiwanie i analiza danych dotacji i patentów kosztuje, a także dostęp do danych za pomocą programowalnego języka wyszukiwania wymiarów. (Wymiary są tworzone przez firmę technologiczną Digital Science, zarządzaną przez Holtzbrinck Publishing Group, która ma również większość udziałów w wydawnictwie Nature .)
Semantic Scholar ma oparty na przeglądarce pasek wyszukiwania, który ściśle naśladuje silniki, takie jak Google. Ale daje więcej informacji niż Google Scholar, aby pomóc ekspertom w ustalaniu priorytetów wyników, mówi Colavizza. Obejmuje to wskaźniki popularności, tematy, takie jak zestawy danych i metody, oraz dokładny fragment cytowanego tekstu. „Byłem bardzo zaskoczony, gdy zauważyłem, że przechwytują także cytaty pośrednie” – dodaje Colavizza – na przykład wtedy, gdy metoda lub idea są tak dobrze ugruntowane, że badacze nie odnoszą się do jej pochodzenia.
Doug Raymond, dyrektor generalny Semantic Scholar, mówi, że milion osób korzysta z usługi każdego miesiąca. „Semantic Scholar używa NLP do wydobywania informacji, jednocześnie budując połączenia w celu ustalenia, czy informacje są istotne i renomowane”, mówi Raymond. Dodaje, że może identyfikować nieoczywiste powiązania, takie jak metodologie w informatyce, które są istotne dla biologii obliczeniowej, i może pomóc w identyfikacji nierozwiązanych problemów lub ważnych hipotez w celu potwierdzenia lub obalenia. Obecnie Semantic Scholar zawiera ponad 40 milionów dokumentów z informatyki i biomedycyny, a jego korpus rośnie, mówi Raymond. „Ostatecznie chcielibyśmy uwzględnić całą wiedzę akademicką.”
W przypadku innych narzędzi, takich jak SourceData z Europejskiej Organizacji Biologii Molekularnej (EMBO) w Heidelbergu, Niemcy, dane eksperymentalne są bardziej istotne. Jako główny redaktor Molecular Systems Biology , publikacji EMBO, Thomas Lemberger chce, aby dane leżące u podstaw liczb były łatwiejsze do znalezienia i przesłuchania. SourceData zagłębia się zatem w liczby i ich podpisy, aby wymienić obiekty biologiczne biorące udział w eksperymencie, takie jak małe cząsteczki, geny lub organizmy. Następnie pozwala badaczom zbadać te relacje, wskazując dokumenty, które dotyczą tego pytania. Na przykład: „Czy insulina wpływa na glukozę?” wyszukuje dziesięć prac, w których mierzony jest „wpływ insuliny (cząsteczki) na glukozę (cząsteczki)”.
Lemberger twierdzi, że SourceData jest na wczesnym etapie, ponieważ stworzył wykres wiedzy obejmujący 20 000 eksperymentów, które zostały ręcznie wyleczone podczas procesu edytowania około 1000 artykułów. Narzędzie online ogranicza się obecnie do odpytywania tego zestawu danych, ale Lemberger i jego koledzy uczą się na nim algorytmów uczenia maszynowego. Zespół SourceData pracuje również nad zmodyfikowaną wersją narzędzia ukierunkowaną na neuronaukę z interdyscyplinarnym konsorcjum neuronauki pod przewodnictwem neurobiologa Matthew Larkuma z Uniwersytetu Humboldta w Berlinie. Gdzie indziej IBM Watson Health w Cambridge w stanie Massachusetts ogłosił w sierpniu, że połączy swoją sztuczną inteligencję z danymi genomowymi z Springer Nature, aby pomóc onkologom w zdefiniowaniu metod leczenia. ( Zespół informacyjny Nature jest edytorsko niezależny od swojego wydawcy).
Hipotetycznie przydatny
Wśród generujących hipotezy jest około 20 klientów Euretos z siedzibą w Utrechcie w Holandii. Arie Baak, współzałożyciel Euretos, wyjaśnia, że firma sprzedaje narzędzia dla przemysłu i środowisk akademickich, głównie do odkrywania i walidacji biomarkerów i leków, po cenach, których nie ujawnił.
Euretos używa NLP do interpretacji prac badawczych, ale ma to drugorzędne znaczenie dla ponad 200 repozytoriów danych biomedycznych, które integruje. Aby je zrozumieć, narzędzie opiera się na wielu „ontologiach” – tj. Ustrukturyzowanych listach słów kluczowych – które naukowcy stworzyli, aby definiować i łączyć pojęcia w swoich obszarach tematycznych.
Baak demonstruje, szukając białka sygnalizacyjnego o nazwie CXCL13. Nad wynikową listą publikacji znajdują się kategorie, takie jak „metabolity” lub „choroby”. Na tym etapie ekran przypomina Google Scholar lub PubMed z uporządkowaną listą wyników. Ale kliknięcie kategorii ujawnia dodatkowe wymiary. Na przykład wybranie „genów” powoduje wyświetlenie listy genów związanych z CXCL13, uszeregowanych według liczby publikacji o nich wspominających; kolejne kliknięcie wywołuje schematy ilustrujące połączenia między CXCL13 i innymi genami.
Naukowcy z Leiden University Medical Center (LUMC) w Holandii wykazali, że takie podejście może przynieść nowe hipotezy, identyfikując potencjalne choroby, które mogłyby leczyć istniejące leki. Zespół zaprezentował swoje wyniki na spotkaniu Semantic Web Applications and Tools for Healthcare and Life Sciences w Rzymie w grudniu 2017 r. Użyli również Euretos do identyfikacji zmian ekspresji genów w zaburzeniu neurologicznym zwanym ataksją móżdżkowo- mózgową typu 3 ( L. Toonen i in. al. Mol. Neurodegener. 13 , 31; 2018 ).
Czy zatem badacze powinni się martwić, że generowanie hipotez opartych na sztucznej inteligencji może pozbawić ich pracy? Nie według Colavizza. Generowanie hipotez jest „bardzo trudną ambicją”, mówi, a ulepszenia początkowo będą stopniowe. Sugerowane do tej pory hipotezy są „głównie w sferze względnie nie zaskakujących”, mówi Colavizza.
To oczywiście się zmieni. Zaskakujące czy nie, wygenerowane komputerowo hipotezy wciąż muszą zostać przetestowane. A to wymaga ludzkich badaczy. „Nigdy nie należy wierzyć w automatycznie generowaną hipotezę bez badania podstawowych dowodów”, ostrzega badaczka LUMC Kristina Hettne. „Chociaż narzędzia te mogą pomóc w gromadzeniu znanych dowodów, weryfikacja eksperymentalna jest koniecznością”.
Dodaj komentarz