Dostępnik o raporcie AI w dostępności cyfrowej
Czekałem na ten raport, który Ministerstwo Cyfryzacji zamówiło w ramach projektu AI DC. Całkiem fajny dokument, chociaż po nim dobrze widać, jak szybko zmienia się technologia sztucznej inteligencji.
Pod koniec 2025 roku SAGES i Instytut Podstaw Informatyki PAN opublikowały raport, który czekałem od dawna. Ponad 240 stron analizy tego, co sztuczna inteligencja potrafi — i czego jeszcze nie potrafi — zrobić na rzecz dostępności cyfrowej. Raport powstał w ramach projektu AI DC, finansowanego ze środków europejskich (Program FERS) przez Ministerstwo Cyfryzacji, które — co ważne — jest zamawiającym docelowe narzędzie AI. Budżet projektu to ponad 10 milionów złotych, a prace mają trwać do połowy 2028 roku.
Za raportem stoi siedmioosobowy zespół: Aleksandra Charyło, Ariel Drozd, Jakub Konieczny, Łukasz Kobyliński, Michał Marcińczuk, Aleksandra Zwierzchowska i Damian Żłobicki. Ariel Drozd będzie miał prezentację na temat automatycznego generowania tekstów alternatywnych. Namówiłem ich też na stolik tematyczny, przy którym będzie można ich przesłuchać oraz zobaczyć ich rozwiązanie technologiczne.
Zebrałem najważniejsze wnioski i próbuję odpowiedzieć na pytanie, które słyszę coraz częściej: czy AI nam pomoże, czy namiesza?
Co AI robi dobrze — i możesz to przetestować już teraz
Opisy alternatywne dla obrazów
Brak opisów alternatywnych to jedno z najczęstszych naruszeń dostępności. Modele językowe z możliwością analizy obrazów radzą sobie z ich generowaniem całkiem przyzwoicie — ale nie bez zastrzeżeń.
Autorzy raportu przeprowadzili własny miniaturowy test na zbiorze polskich danych. Wyniki zestawili z benchmarkiem reVISION, który zawiera ponad 39 tysięcy pytań z polskich egzaminów — to jak dotąd największy publicznie dostępny zestaw do oceny modeli wizualnych na języku polskim.
Jak wypadły modele? GPT-4.1 osiągnął 69,77%, najlepszy spośród otwartych modeli — Qwen2.5-VL-72B — uzyskał 65,25%. Mniejszy Qwen2.5-VL-7B zatrzymał się na 48,95%, co wciąż oznacza wynik zauważalnie lepszy od losowego. Co ciekawe, większa rozdzielczość obrazu dała wyraźny wzrost dokładności: model 7B poprawił wynik o ponad 9 punktów procentowych przy pełnej rozdzielczości względem obrazów skalowanych do 512 pikseli.
Raport zaznacza wyraźnie: wyniki na benchmarkach jedynie przybliżają to, co dzieje się w produkcji. Warto budować własne zestawy testowe, dostosowane do konkretnego rodzaju treści.
Transkrypcja nagrań audio i wideo
Automatyczna transkrypcja to zadanie, w którym AI radziła sobie już od jakiegoś czasu. Raport potwierdza, że postęp jest realny — choć różnice między podejściami bywają subtelniejsze, niż można się spodziewać.
Autorzy porównali Whisper Large v3 (bezpłatny) z AssemblyAI Best (płatny) na dwunastu polskich podzbiorach danych. Wyniki? Modele osiągały zbliżone wartości wskaźnika WER (Word Error Rate, czyli odsetkowego udziału błędów w transkrypcji). Model bezpłatny wygrał w czterech podzbiorach, płatny — w ośmiu. Różnice były niewielkie.
Przy nagraniach studyjnych obydwa modele osiągają WER poniżej 7%. Przy trudniejszych warunkach — hałas uliczny, wielu rozmówców, spontaniczna mowa — wskaźnik rośnie wyraźnie. Raport zwraca uwagę, że mowa osób z niektórymi niepełnosprawnościami (np. związanymi z komunikacją) może dawać znacznie wyższe błędy transkrypcji, co jest dodatkowym wyzwaniem w kontekście dostępności.
Dobra wiadomość: przy nagraniach dobrej jakości transkrypcja działa na tyle dobrze, że warto z niej korzystać, pamiętając o weryfikacji.
Upraszczanie i tłumaczenie tekstów
Modele językowe potrafią przeformułować tekst na bardziej zrozumiały — zgodnie z zasadami tekstu łatwego do czytania i rozumienia (ETR). Raport ocenia to zadanie jako obiecujące, zaznaczając jednocześnie dwie kwestie.
Po pierwsze: modele działają lepiej na języku angielskim niż polskim. Na zadaniu korekty i eliminacji błędów wynikających z ekstrakcji tekstu model Bielik-11B-v2.6-Instruct uzyskał WER 0,26, wyprzedzając Gemmę 3 w wariantach 12B i 27B. To dobry wynik, choć w innych zadaniach tekstowych Bielik nie zawsze wychodzi na prowadzenie.
Po drugie: w tekstach prawnych i administracyjnych upraszczanie niesie ryzyko utraty lub zmiany znaczenia. Człowiek musi sprawdzić wynik. To nie jest opcja — to warunek konieczny.
Co wymaga większej ostrożności
Audiodeskrypcja
Audiodeskrypcja — werbalne opisywanie akcji i obrazu w filmach, nagraniach, materiałach edukacyjnych — to zadanie, w którym AI wchodzi dopiero na teren. Autorzy raportu są ostrożni.
Ich rekomendacja jest konkretna: tworzenie gotowego pliku wideo z audiodeskrypcją bez udziału człowieka jest w obecnych warunkach mało realistyczne. Zamiast tego proponują narzędzie wspomagające: takie, które segmentuje materiał na sceny, odczytuje napisy widoczne w kadrach i proponuje fragmenty audiodeskrypcji do poszczególnych ujęć. Człowiek przejmuje kontrolę nad ostatecznym brzmieniem. Raport zwraca uwagę, że na rynku istnieją płatne narzędzia dla twórców audiodeskrypcji (jak Frazier), ale żadne z nich nie korzysta z AI. Tu jest realna przestrzeń do działania.
Tu muszę wspomnieć, że sytuacja jest bardzo dynamiczna. Autorzy wspominają o modelu Gemini 1.5, a obecnie mamy już wersję 3. Mój mały projekcik AD Creator działa całkiem sprawnie przy tworzeniu audiodeskrypcji, chociaż testowałem go na razie tylko na 2 filmach.
Analiza kodu HTML, CSS i JavaScript
Modele językowe potrafią analizować kod pod kątem naruszeń dostępności i sugerować poprawki. Raport opisuje to jako jedno z czternastu zadań, dla których analizowano możliwości AI. Wyniki są obiecujące w przypadkach powtarzalnych i stosunkowo prostych problemów. Złożone scenariusze — dynamiczne treści, interakcje zależne od stanu aplikacji — to nadal obszar, w którym AI działa mniej niezawodnie.
Tu też bym się zatrzymał na chwilę. Nadal chodzi mi po głowie benchmark, który mierzyłby umiejętności modeli w tym obszarze. Mam już wstępną koncepcję, a najważniejszym tematem do ogarnięcia jest stworzenie bazy zadań. Jakby ktoś chciał się dołączyć, to zapraszam.
OCR i rozpoznawanie tekstu
Rozpoznawanie tekstu ze skanów i obrazów to pole, gdzie AI robi wyraźne postępy — ale polszczyzna nadal stwarza dodatkowe wyzwania. Znaki diakrytyczne, niestandardowe kroje pisma, dokumenty historyczne — to miejsca, gdzie błędy są częstsze.
Raport podkreśla też inne wyzwanie: rozpoznanie samego tekstu to nie wszystko. Równie ważna jest interpretacja struktury dokumentu — tabele, nagłówki, wielokolumnowy układ, kolejność czytania. To zagadnienie omawia osobna sekcja raportu, poświęcona analizie układu i interpretacji treści dokumentów cyfrowych.
Co autorzy rekomendują
To jest ten rozdział raportu, który — moim zdaniem — jest najważniejszy. Cztery główne kierunki:
Po pierwsze: inwestycje w otwarte technologie. Raport wyraźnie rekomenduje, żeby docelowe narzędzie opierało się na otwartych modelach, możliwych do uruchomienia we własnej infrastrukturze. Powód jest prosty: niezależność od zewnętrznych dostawców, kontrola kosztów i możliwość dostosowania do polskich realiów. Raport proponuje trzy warianty zestawu modeli — od „mini” (wszystkie modele do 7B parametrów, wymagające czterech kart GPU po 24 GB VRAM) po wariant rozbudowany. Do transkrypcji: Whisper Large v3. Do analizy obrazów i generowania opisów: Qwen2.5-VL. Do zadań tekstowych: Qwen2.5 lub PLLuM. Do syntezy mowy: Kokoro.
Po drugie: system powinien być modułowy. Autorzy wyobrażają go sobie jako zestaw współpracujących komponentów — narzędzi do korekty kodu, chatbota do odpowiadania na pytania o dostępność, generatora raportów. Te elementy można łączyć i uruchamiać w różnych kontekstach. Ważne: interfejs musi być dopasowany do realnych potrzeb użytkowników — audytorów, twórców treści, osób odpowiedzialnych za zgodność z prawem.
Po trzecie: dokumentować naruszenia. Organy regulacyjne, które rozpatrują skargi dotyczące dostępności, mają unikalną możliwość zbierania danych o rzeczywistych problemach. Raport rekomenduje systematyczne dokumentowanie zgłaszanych naruszeń — to jest podstawa zarówno do ustalenia priorytetów, jak i do tworzenia zbiorów ewaluacyjnych dla przyszłych wersji narzędzia.
Po czwarte: budować własne benchmarki. Istniejące zestawy testowe są zbyt ogólne i zbyt anglocentryczne. Raport postuluje tworzenie specyficznych zbiorów dla polskich danych, dostosowanych do charakterystyki dokumentów i treści, z którymi faktycznie pracują polskie instytucje.
Kilka słów na koniec
Raport jest rzetelny i uczciwy w swoich ocenach — nie ma w nim ani nadmiernego entuzjazmu, ani pesymizmu. Widać, że autorzy naprawdę sprawdzili, co działa, a co jeszcze nie.
Projekt AI DC jest wciąż w toku. Kiedy docelowe narzędzie powstanie — a ma to nastąpić do połowy 2028 roku — będzie to pierwsze w Polsce publicznie dostępne rozwiązanie łączące AI z audytem dostępności cyfrowej. Warto śledzić, jak to się potoczy.
Źródło: Analiza możliwości wykorzystania sztucznej inteligencji w obszarze badania dostępności cyfrowej, SAGES i Instytut Podstaw Informatyki PAN, grudzień 2025. Raport realizowany w ramach projektu AI DC, finansowanego przez Ministerstwo Cyfryzacji ze środków Programu Fundusze Europejskie dla Rozwoju Społecznego (FERS).
Wieści o dostępności
Szkolenie semantycznego HTML – Chcesz nauczyć się pisać dostępny kod od podstaw? Polecam kurs semantycznego HTML prowadzony przez Wojtka Kutyłę z Human Thing. Solidna baza dla każdego, kto tworzy strony internetowe. Już wiem, że Wojtka nie będzie na AutomaticA11y, nad czym boleję. Ma jednak dobry powód.
AutomaticA11y 2026 – już jest sporo informacji o AutomaticA11y w tym roku. Możesz przejrzeć, o czym będą prezentacje i stoliki tematyczne. Wolnych stolików tematycznych już nie ma, ale zostało kilka miejsc na prezentacje. Jeżeli chcesz skorzystać - napisz do mnie. Aby uczestniczyć, musisz wypełnić formularz zgłoszeniowy, który zamykam 31 marca. A jeśli chcesz dołożyć się do organizacji, ☕ zostaw nakawek na BuyCoffee. Pieniądze zebrane od 1 lutego do 30 kwietnia w całości przeznaczę na sfinansowanie konferencji.
Polski Akt o Dostępności – poradnik dla firm – Ministerstwo Funduszy i Polityki Regionalnej opublikowało poradnik dla przedsiębiorców, jak działać zgodnie z wymogami Polskiego Aktu o Dostępności. Przyda się każdemu, kto zaczyna wdrożenie.
VIII posiedzenie Rady Dostępności – W marcu odbyło się ósme posiedzenie Rady Dostępności, na którym przyjęto rekomendacje i plan pracy na 2026 rok.
Automatyczna weryfikacja dostępności – Piotr Źrołka z kinaole.co napisał dobry tekst o tym, czy automatyczne testy to faktyczna pomoc, czy złudzenie postępu. Krótka wersja: narzędzia wykrywają 30–40% problemów, reszta wymaga człowieka. Zgadzam się z tym tylko częściowo, bo AI otwiera kolejne możliwości, które warto eksplorować. Piotr będzie miał swoją prezentację na AutomaticA11y 2026.
TransferHUB – innowacje dla zatrudnienia OzN – TransferHUB ogłosił nabór na innowacje społeczne wspierające zatrudnienie osób z niepełnosprawnością. Do wygrania dotacje do 100 tys. zł, wsparcie metodologiczne i udział w hackatonie w Warszawie (27–29 kwietnia 2026). Zgłoszenia przyjmowane do 29 marca 2026 – czyli już za kilka dni. To właśnie z tego źródła pozyskaliśmy środki, a właściwie to Agata Gawska pozyskała, na opracowanie KoREKtora.
I to by było na tyle. Ewa wróciła do domu, więc mam się do kogo przytulić. Jakoś teraz te doniesienia o wojnach mniej przestraszają. Jest wreszcie słońce, powoli i zmiennie, ale jednak się ociepla. Chodzi za mną pomysł na napisanie Dostępnika w stylu Donalda Trumpa, ale na razie ludzie raczej mnie zniechęcają. Dobrego tygodnia.

