Dostępnik o szczekaniu pod stołem
Rok temu zaczęła się rewolucja sztucznej inteligencji. Byłem sceptykiem i twierdziłem, że nie da się jej używać do zapewniania dostępności. Wchodzę teraz pod stół i odszczekuję. HaU hau!
Od wielu lat żadna technologia tak mnie nie wciągnęła. A z komputerami mam styczność od 38 lat, to znaczy od kółka komputerowego w moim liceum. Miałem różne zajawki, które po pewnym czasie mijały lub pozostawały ze mną jako codzienność. Jednak w technologiach brakowało mi rewolucyjnych zmian. Ta nadeszła wraz z udostępnieniem chata GPT. Po pierwszych testach uznałem, że jest to technologia niedoskonała i w dostępności niewiele ma do zaoferowania. Takie tezy postawiłem podczas grudniowej konferencji w Lublinie i w kilku artykułach na blogu. Teraz wiele z tych tez muszę odszczekać.
Rozpoznawanie grafiki i teksty alternatywne
Symbolem mojej niewiary w AI był taki rudawy kot z koroną na głowie. Rok temu obśmiewałem to, co generują wielkie firmy, czyli GAFA. Nadal AI nie trafia idealnie w kontekst, ale podaje na tyle dużo szczegółów, że staje się to mało istotne. Do tego można tę AI dopytać. Jeżeli chcesz wiedzieć, jak to działa, to prześlij obrazek do Chata Binga z pytaniem, co jest na obrazku. Aplikacja BeMyEyes robi to jeszcze lepiej. Jakiś czas temu zrobiłem fotkę mojego laptopa od spodu. AI dokładnie opisała mi, co to za model, jaki ma procesor, ile pamięci i jeszcze trochę. Dopytałem ją jeszcze, czy jest tam klucz do Windows i spokojnie odpowiedziała, że nie.
Transkrypcje i napisy
O ile algorytmy do rozpoznawania mowy jakoś działały już kilka miesięcy, to teraz po prostu działają. Mój ulubiony Whisper wypluwa z siebie tekst, który prawie nie wymaga poprawek. A niedawno pokazał się model Large z numerem 3. Aż się boję testować. Co więcej - Whisper nie tylko rozpoznaje mowę, ale także dźwięki. Jeżeli w nagraniu jest muzyka, doda taką informację w transkrypcji.
Generowanie mowy
Tu postęp jest tak ogromny, że aż niewiarygodny. Polska firma ElevenLabs jest bodaj najlepszą na świecie w tej działce. W ciągu kilku minut sklonowałem swój głos i wysłałem próbkę do Ewy. Zapytała tylko, jak mi się udało tak płynnie to nagrać. Moja własna żona nie zauważyła, że to jest synteza mowy! Zdaję sobie sprawę z zagrożeń związanych z tą technologią, co jednak nie zmniejsza mojego podziwu. Obdzwoniłem seniorów z mojej rodziny i ostrzegłem, jak łatwo można teraz oszukiwać. Zrób to samo.
Prosty język
Od jakiegoś czasu sprawdzałem możliwości różnych modeli konwesacyjnych w zakresie prostego języka. Mam już gotowe prompty do przekształcania tkstu na prostszą wersję i do oceny poziomu komplikacji. Odkrywam jednak kolejne możliwości, na przykład wyjaśnianie różnych pojęć w sposób łopatologiczny. Takie generowane treści zawsze muszę sprawdzić, ale ileż pracy mi to oszczędza. Postaram się pokazać to w działaniu na nagraniu, bo jestem dumny z efektów.
Analizowanie danych
To jest kawałek szczególnie interesujący, a chyba jakoś nikt się tym nie zajmuje. Chodzi mi o automatyczne przetwarzanie danych zebranych podczas audytu architektonicznego i cyfrowego. Nie każdy musi znać wszystkie parametry i wymagania dla dostępności, ale każdy może wziąć miarkę i zrobić pomiary. Potem pozostaje tylko przetworzyć to do listy rekomendacji i do roboty! Mam już działający prompt tworzący rekomendacje dla dostępnej łazienki oraz coś ogólniejszego dla całego budynku. W dostępności cyfrowej analiza dotyczy atomatycznych skanów, generujących ogromne ilości danych, trudnych do ręcznej analizy. AI daje sobie z tym radę doskonale. A zupełnie niedawno sprawdziłem, jakie dane o dostępności da się wyciągnąć z deklaracji dostępności. Jakieś efekty już mam.
Co dalej?
To nie są wszystkie możliwości, jakie dostrzegam w rewolucji sztucznej inteligencji. Cyfrowi asystenci dla osób z niepełnosprawnością intelektualną i z fobiami społecznymi. Generowanie infografik na podstawie tekstu. Rozpoznawanie języka migowego i tłumaczenie na język oralny. Generowanie tekstu na podstawie wideo, czyli automatyczna audiodeskrypcja. Inteligentna analiza kodu strony internetowej. Opis dostępności architektonicznej na podstawie zdjęć i filmów. Możliwości są ogromne i tylko czasu mało. Co gorsza - chyba muszę zarzucić pisanie książki “Koniec cyfrowej dostępności”, bo główne tezy są już nieaktualne. Jeżeli znasz jakiś projekt ocierający się równocześnie o AI i dostępność, daj mi proszę znać.
Wieści o dostępności
Na początek trochę prywaty. Ostatnimi czasy YouTube postanowił zatruć życie użytkownikom i filmy pozwala oglądać tylko w krótkich przerwach między reklamami. Dlatego pomyślałem, że wolisz oglądać je gdzieś indziej. Przeniosłem część filmów na kanał platformy PeerTube. Możesz tam zajrzeć, chociaż ostrzegam, że wciąż tam trochę siermiężnie. Przy okazji - jest to platforma korzystająca z ActivityPub, więc można kanał subskrybować z Mastodona, Friendiki i wielu innych, a także za pomocą RSS. A tutaj link do kanału. Będę dodawał kolejne rzeczy, o ile zgodzą się na to właściciele filmów.
Poza tym uruchomiłem kanał na Discord, który ma być społecznościowym przedłużeniem Dostępnika. Ponownie winny jest wielki reklamobijca, czyli Facebook. Zapraszam.
PFRON organizuje coroczną konferencję z okazji dnia osób niepełnosprawnych. Rok temu, właśnie podczas takiej konferencji, mówiłem z ostrożnością i rezerwą o sztucznej inteligencji. Konferencja ponownie odbywa się w Lublinie. Tu znajdziesz program konferencji, a w nim - miła memu sercu - dr Kamila Miler-Zdanowska. Termin: 5 grudnia 2023 r.
Z kolei 1 grudnia możemy się spotkać podczas seminarium organizowanego przez Ministerstwo Funduszy i Polityki Regionalnej. Seminarium będzie o ustawie transponującej dyrektywę o dostępności produktów i usług. Niektórym może być bardziej znana jako European Accessibility Act (EAA). Projekt ustawy Objawił się całkiem niedawno, chociaż krążył po różnych urzędach od kilku lat. Powiem tak - nareszcie!
Teraz kilka informacji o marcowym wydarzeniu. Po pierwsze będzie w maju! Nie wiem, jak mogłem o tym nie pomyśleć, że 16 maja 2024 roku jest najlepszą datą. Tego dnia jest przecież Global Accessibility Awareness Day (GAAD). Po drugie - dzięki głosowaniu, mam już ustaloną nazwę i jest to… AutomaticA11Y, co należy wymawiać jak angielskie słowo “automatically”. Po trzecie - pomoc w organizacji wydarzenia zaproponowali mi ludzie z Accens, za co bardzo dziękuję. Nadal szukam lokalizacji, ale mam nadzieję, że to już niedługo. A jeżeli chcesz się dołączyć do organizowania wydarzenia lub zaprezentować jakieś ciekawe rozwiązanie lub projekt - daj mi znać. Kilka osób już zgłosiło się do mnie z pomysłami.
I to by było na tyle. Miej się dobrze i dbaj o zdrowie. Podobno ten okropny wirus wraca, a wcale mi go nie potrzeba. Następny Dostępnik pewnie na mikołajki. A skoro byłem grzeczny, to może coś mi przyniesie. Czego i Tobie rzyczę.
Coś nie działa w linku do Discorda - wyrzuca informację "Brak kanałów tekstowych".