Technologiczne innowacje pędzą naprzód w zawrotnym tempie, a obietnice postępu często towarzyszą im wysokie oczekiwania. W świecie komputerów powszechnie mówi się, że "rok w uczeniu maszynowym to wiek w każdym innym obszarze". Jednak jak odróżnić realne postępy od przerysowanej propagandy, od pustego rozgłosu? Niestety, lawina nowych technologii często prowadzi do wielokrotnych porażek, szczególnie kiedy nowe rozwiązania nie są odpowiednio przetestowane i w pełni zrozumiane. Nawet innowacje pochodzące z renomowanych laboratoriów i organizacji czasami kończą się spektakularnymi niepowodzeniami. Przykładem może być IBM Watson, program AI, który firma w 2011 roku chwaliła jako rewolucyjny instrument terapii nowotworowej. Zamiast jednak oceniać narzędzie na podstawie wyników leczenia pacjentów, IBM posługiwała się mniej istotnymi, a nawet potencjalnie bezwartościowymi miarami, takimi jak oceny ekspertów. W rezultacie IBM Watson nie tylko zawiódł w zakresie oferowania lekarzom wiarygodnych i innowacyjnych zaleceń terapeutycznych, ale również sugerował niebezpieczne procedury.
Wydarzenia związane z premierą ChatGPT w listopadzie 2022 roku doprowadziły do gwałtownego wzrostu zainteresowania sztuczną inteligencją zarówno w przemyśle, jak i w nauce. Wraz z obietnicami podnoszącymi się do nieba, pojawiły się jednak pierwsze oznaki rozczarowania, a większość firm boryka się z niepowodzeniami prób wdrożenia generatywnej AI. To z kolei rodzi pytania o to, czy nowe technologie rzeczywiście spełniają obietnice, które składają ich twórcy. W dynamicznie zmieniającym się świecie technologicznych innowacji pojawia się pilne pytanie: jak ocenić, czy nowy, pozornie obiecujący wynalazek rzeczywiście działa i czy można go bezpiecznie wykorzystywać? Z punktu widzenia nauki pytanie to sprowadza się do kwestii wiarygodności – czyli solidności i niezawodności twierdzeń. Wiarygodność jest ostatecznym werdyktem, który określa, czy twierdzenie naukowe wiernie odzwierciedla rzeczywistość. Można ją porównać z kontrolą jakości w nauce: pomaga naukowcom ustalić, czy lek rzeczywiście leczy chorobę, aplikacja monitorująca zdrowie rzeczywiście poprawia kondycję, czy model czarnej dziury rzeczywiście opisuje jej zachowanie w przestrzeni.
Wiarygodność – Fundament Wiedzy
Historycznie wiarygodność skupiała się głównie na zapewnieniu precyzji pomiarów naukowych, takich jak sprawdzenie, czy termometr prawidłowo mierzy temperaturę, czy test psychologiczny wiarygodnie ocenia poziom lęku. Z biegiem czasu stało się jasne, że wiarygodność to coś więcej niż tylko jedna, prosta wartość. Różne dziedziny nauki opracowały własne metody oceny wiarygodności. Inżynierowie testują nowe projekty pod kątem bezpieczeństwa i wydajności. Lekarze prowadzą badania kliniczne, aby zweryfikować, czy leczenie jest skuteczniejsze niż istniejące metody. Naukowcy w różnych dziedzinach stosują różne rodzaje wiarygodności, w zależności od rodzaju twierdzenia, które formułują.
Wiarygodność wewnętrzna odpowiada za ocenę, czy związek między dwoma zmiennymi rzeczywiście ma charakter przyczynowo-skutkowy. Lekarz prowadzący badania kliniczne może zastosować randomizowane badanie kontrolowane, aby upewnić się, że nowy lek prowadzi do powrotu pacjenta do zdrowia, a nie jest to efekt działania placebo. Wiarygodność zewnętrzna dotyczy generalizacji – czy uzyskane wyniki zachowają swoją wartość poza laboratorium, w szerszej populacji lub w innych warunkach. Przykładem braku wiarygodności zewnętrznej są liczne badania prowadzone na myszach, które nie zawsze można przenieść na ludzi. Wiarygodność konstrukcyjna dotyczy interpretacji i znaczenia. Psychologowie i naukowcy zajmujący się naukami społecznymi wykorzystują ją do sprawdzenia, czy test lub sondaż rzeczywiście mierzy to, co ma mierzyć. Czy skala mierząca determinację rzeczywiście odzwierciedla wytrwałość, a nie tylko upór? Ostatni rodzaj wiarygodności, ekologiczna, sprawdza, czy coś działa w realnych warunkach, a nie tylko w idealnych warunkach laboratoryjnych. Model behawioralny lub system sztucznej inteligencji może działać znakomicie w symulacji, ale zawodzi, gdy do akcji wkraczają ludzkie zachowania, zaszumione dane lub złożoność instytucjonalna. Bez względu na rodzaj wiarygodności, celem jest zapewnienie, że narzędzia naukowe – od eksperymentów laboratoryjnych po algorytmy – wiernie odzwierciedlają rzeczywistość, którą mają wyjaśnić.
Ocena Zadań Technologicznych
Jako badacze zajmujący się oceną nauk i technologii opracowaliśmy metodę mającą na celu pomaganie naukowcom z różnych dziedzin w jasnym testowaniu niezawodności i skuteczności swoich wynalazków i teorii. Model wiarygodności naukowej (Design Science Validity Framework) identyfikuje trzy kluczowe rodzaje twierdzeń, które naukowcy zazwyczaj formułują na temat użyteczności technologii, innowacji, teorii, modelu lub metody. Po pierwsze, twierdzenie kryterialne stwierdza, że dany wynalazek przynosi korzystne rezultaty, zazwyczaj wyprzedzając istniejące standardy. Twierdzenie to uzasadnia użyteczność technologii, pokazując wyraźne przewagi nad istniejącymi alternatywami. Na przykład twórcy modeli generatywnej AI, takich jak ChatGPT, mogą zaobserwować wyższy stopień zaangażowania użytkowników, jeśli technologia wydaje się bardziej pochlebna i zgadzająca się z nimi. W efekcie programiści mogą zaprojektować technologię tak, aby była bardziej aprobująca – cecha znana jako sycofantyzm – aby zwiększyć retencję użytkowników. Modele AI spełniają twierdzenie kryterialne, że użytkownicy uważają je za bardziej pochlebne niż rozmowy z ludźmi. Jednak nie przekłada się to na poprawę efektywności technologii w rozwiązywaniu problemów związanych z zdrowiem psychicznym lub relacjami.
Po drugie, twierdzenie przyczynowe dotyczy tego, jak konkretne komponenty lub funkcje technologii bezpośrednio przyczyniają się do jej sukcesu lub porażki. Mówiąc prościej, chodzi o to, aby wiedzieć, co sprawia, że technologia jest skuteczna i dlaczego działa. W odniesieniu do modeli sztucznej inteligencji i nadmiernego pochlebstwa badania wykazały, że interakcja z bardziej sycofańskimi modelami zmniejsza chęć użytkowników do rozwiązywania konfliktów interpersonalnych i zwiększa ich przekonanie o własnej racji. Twierdzeniem przyczynowym w tym przypadku jest to, że funkcja sycofańska w modelu AI zmniejsza chęć użytkownika do naprawy konfliktu.
Po trzecie, twierdzenie kontekstowe określa, gdzie i w jakich warunkach technologia ma działać skutecznie. Twierdzenie to bada, czy korzyści z technologii lub systemu można uogólnić poza laboratorium i przenieść na inne populacje i środowiska. W tym samym badaniu naukowcy zbadali, jak nadmierne pochlebstwo wpływa na działania użytkowników w innych zestawach danych, w tym w społeczności "Am I the Asshole" na Reddit. Stwierdzono, że modele sztucznej inteligencji są bardziej pochlebne wobec decyzji użytkowników niż ludzie, nawet gdy użytkownicy opisują zachowania manipulacyjne lub szkodliwe. To popiera twierdzenie kontekstowe, że sycofańskie zachowanie modelu sztucznej inteligencji ma zastosowanie w różnych kontekstach konwersacyjnych i populacjach.
Mierzenie Wiarygodności Jako Konsumenta
Zrozumienie wiarygodności innowacji naukowych i technologii konsumenckich jest kluczowe zarówno dla naukowców, jak i dla społeczeństwa. Dla naukowców jest to mapa drogowa, która pozwala im upewnić się, że ich wynalazki są rygorystycznie oceniane. Dla społeczeństwa oznacza to, że narzędzia i systemy, na których polegają – takie jak aplikacje do monitorowania zdrowia, leki i platformy finansowe – są naprawdę bezpieczne, skuteczne i korzystne. Oto jak można wykorzystać wiarygodność do zrozumienia innowacji naukowych i technologicznych: należy skupić się na cechach, które są najbardziej wartościowe dla danej technologii lub modelu, ponieważ porównywanie każdej cechy dwóch technologii może być trudne. Na przykład, czy preferujesz, aby chatbot był dokładny, czy też bardziej dbał o prywatność? Należy sprawdzić, czy w tej dziedzinie spełnia oczekiwania. Należy uwzględnić nie tylko rodzaje twierdzeń formułowanych na temat danej technologii, ale także te, które nie są formułowane. Na przykład, czy firma zajmująca się chatbotami porusza kwestię uprzedzeń w swoim modelu? To klucz do zrozumienia, czy ma się do czynienia z pustym rozgłosem, czy z prawdziwym postępem. Zrozumienie wiarygodności pozwala organizacjom i konsumentom przedrzeć się przez rozgłos i dotrzeć do prawdy stojącej za najnowszymi technologiami.