Dostępnik o Subtitle Edit
Często jest tak, że do napisania kolejnego Dostępnika inspirują mnie konkretni ludzie. Tym razem była to Jadwiga Stefańska. Organizuje kino dla seniorów i odkryła, czym jest dostępność, a raczej brak.
Okazało się, że starsze osoby mają problem z czytaniem napisów. Po prostu nie nadążają i gubią się w fabule. Drugim problemem był ten związany ze słabą słyszalnością dialogów w filmach, zwłaszcza polskich. Wymyśliła więc, że może ta słynna sztuczna inteligencja coś może zaradzić. Pogadaliśmy przez telefon i trochę jej opowiedziałem. A skoro pozbierałem te wątki, to podzielę się nimi z Tobą.
Czym jest Subtitle Edit?
Subtitle Edit to wszechstronne i łatwe w użyciu narzędzie do tworzenia, edytowania i synchronizowania napisów do filmów i wideo. Jest to darmowy i otwartoźródłowy edytor napisów, który oferuje szeroki zakres funkcji, umożliwiających użytkownikom pełną kontrolę nad napisami.
Mam jednak wrażenie, że nawet osoby, które go używają, nie wiedzą o jego funkcjach wszystkiego. No więc opowiem o nich trochę.
Tworzenie napisów
Subtitle Edit umożliwia tworzenie nowych napisów od zera. Użytkownicy mogą dodawać nowe linie dialogowe, ustawiać czas ich wyświetlania oraz synchronizować je z dźwiękiem i obrazem. Możesz zatem wgrać film i ręcznie tworzyć napisy, po prostu przepisując je z nagrania.
Aplikacja obsługuje różne formaty plików napisów, takie jak .srt, .vtt, .sub, .ass i wiele innych. A ponieważ napisy można kolorować i formatować, to warto wyjść poza ten format SRT, który jest bardzo powszechny i prosty, a jednocześnie tak bardzo ograniczony. W nim nie da się zrobić kolorowych napisów lub dobrać czcionki. No ale ręczne robienie napisów zostawmy dla osób z benedyktyńską cierpliwością.
Automatyczne generowanie napisów
Subtitle Edit oferuje funkcję automatycznego generowania napisów na podstawie ścieżki dźwiękowej. Dzięki integracji z usługami rozpoznawania mowy, aplikacja może automatycznie przekształcać mowę na tekst, co znacznie przyspiesza proces tworzenia napisów.
Integracja obejmuje 2 silniki, to znaczy mój ulubiony Whisper i Vosk/Kaldi. Ten drugi testowałem i mam wrażenie, że z językiem polskim radzi sobie średnio.
Cała praca polega na wczytaniu filmu za pomocą funkcji Otwórz plik wideo w menu Wideo. Wbrew nazwie - możesz wczytać także plik dźwiękowy, na przykład MP3.
W tym samym menu Wideo odszukaj funkcję Audio na tekst (Whisper) i kliknij. Prawdopodobnie program będzie musiał pobrać dodatkowe pliki, więc zgódź się na to. Potem wybierz język i model rozpoznawania mowy. Im lepszy, tym większy i wolniejszy będzie. Potem już tylko Generuj i czekaj.
Edycja napisów
Napisy musisz oczywiście wyedytować. Wynik automatycznego przetwarzania nigdy nie jest idealny. Popraw literówki, błędnie rozpoznane słowa i inne pomyłki. Możesz też podzielić długie linie lub połączyć krótkie.
Subtitle Edit pozwala na wygodną synchronizację napisów z filmem. Dodatkowo - może to zrobić automatycznie, co także warto potem sprawdzić. Tu spisuje się całkiem dobrze.
Wisienką na torcie jest możliwość automatycznego tłumaczenia napisów. Jeżeli film jest po angielsku, to możesz go przetłumaczyć na język polski lub jeden z wielu dostępnych w aplikacji.
Dodaj lektora
Na razie wygląda to dość standardowo. Znamy przecież narzędzia do przetwarzania mowy na tekst. Subtitle Edit oferuje jednak także odwrotny mechanizm - zamiana tekstu na mowę. Możesz znowu zajrzeć do menu Wideo i tam znajdziesz funkcję Zamiana tekstu na mowę i dodanie do wideo.
W okienku, które się otworzy, możesz wybrać silnik generujący owę, język i głos. Silnik Piper ma kilka głosów polskich, z których 2 nadają się do używania. Teraz tylko uruchom generowanie i masz ścieżkę lektorską do filmu.
Piper nie oferuje oszałamiającej jakości, a czasem potrzebna jest lepsza. Tu jednak trzeba zapłacić którejś z firm: Microsoft, Google lub ElevenLabs. Bo z tych silników też możesz korzystać, tylko trzeba wkleić klucz API. Sprawdziłem kawałek na ElevenLabs i jakość jest wprost niesamowita. Tylko tokeny tak szybko odchodzą.
A może audiodeskrypcja...
To też się da, chociaż ręcznej roboty jest więcej. Musisz przygotować skrypt audiodeskrypcji, ustawić znaczniki czasu i wczytać to do Subtitle Edit. Korzystasz z dokładnie tej samej funkcji, czyli zamiany tekstu na mowę i generujesz ścieżkę audiodeskrypcji.
Dlaczego właściwie pokazuję te możliwości? Bo nagranie audiotekstu i audiodeskrypcji z żywym człowiekiem jest drogie i kłopotliwe. Oprócz samego człowieka potrzebne jest studio nagraniowe i montażysta. A jeżeli w skrypcie jest grubsza pomyłka, to trzeba to wszystko powtórzyć. Tutaj możesz poprawić błąd w programie i ponownie puścić generowanie mowy.
Wciąż pojawiają się opinie, że jednak żywy człowiek jest zdecydowanie lepszy od syntezy mowy. A poza tym od razu słychać, że to jest generowane. Pierwsze jest kwestią gustu. Czasem trafiam na takich lektorów, że synteza jest dla mnie wybawieniem. Co do drugiego - to zależy od wybranego syntezatora. Przy zaawansowanych, na przykład tych z ElevenLabs mogę się założyć, że nie odróżnisz mowy sztucznej od naturalnej. Już nie.
Czy coś jeszcze?
Oczywiście, bo Subtitle Edit to naprawdę potężna aplikacja. Nie będę jej jednak szczegółowo opisywał, bo to nie jest temat na Dostępnik. Wskażę tylko kilka funkcji,z których warto skorzystać.
Ogromny zestaw formatów obsługiwanych przez ten kombajn. Nawet nie wiedziałem, że jest tego tyle. A jeżeli ktoś chce transkrypcję, a nie napisy, to może zapisać tekst do formatu RTF lub TXT.
Wiele automatyzacji , które przyśpieszają pracę. Na przykład wskazywanie zbyt długich linii, usuwanie informacji dla osób niesłyszących, walidowanie zgodności ze standardami.
Możliwość wczytania filmu z sieci, zamiast z dysku. Tak można wczytać choćby film z YouTube, a może też z innych serwisów, chociaż tego nie sprawdzałem.
Nie pozostaje mi nic innego, tylko podać link, skąd można pobrać tę magiczną aplikację. Pamiętaj, że jest bezpłatna i o otwartym źródle. Dobrzy ludzie kodowali i testowali aplikację, aby była jak najlepsza i dostępna dla wszystkich.
Wieści o dostępności
Zacznę chyba od zupełnej świeżynki, jaką jest podcast nagrany przez Magdę Brumirską-Zielińską ze mną, jako rozmówcą. Tematem było wykorzystanie sztucznej inteligencji w dostępności. Rozmawialiśmy o tym co już jest i czego jeszcze nie ma, ale się spodziewamy. Moim zdaniem wyszło fajnie, więc podaję link do nagrania podcastu.
W poniedziałek 9 grudnia będę w Poznaniu na meetupie. Zbierałem się od dawna, ale odstraszała mnie pora. Z oględzin wychodziło mi, że muszę w Poznaniu przenocować. No i teraz będę i to jeszcze z Rafałem Charłampowiczem. Impreza zaczyna się o godzinie 18:00 w Allegro. Dziękuję Ani, że mnie docisnęła.
Teraz kilka słów o Szkole Dostępności Cyfrowej. Rekrutacja idzie dobrze, ale wciąż mamy miejsca. Powolutku wszystko się normuje i szaleństwo organizacyjne opada. Na stronie SDC opublikowałem 3 programy szkoleń, a kolejne 2 pojawią się prawdopodobnie w przyszłym tygodniu. Wyglądają imponująco.
Przypominam też, że na maj 2025 roku zaplanowałem 2 edycję AutomaticA11y i do końca roku zbieram zgłoszenia od tych, którzy chcą coś pokazać. Można mieć prezentację taką klasyczną, zaprezentować usługę, zorganizować stolik tematyczny. A jak kogoś poniesie fantazja - to niech zaproponuje własny rodzaj aktywności. Tu możesz się zgłosić, wypełniając formularz. Na razie nie przyjmuję jeszcze zapisów do uczestniczenia. To zostawiam sobie na styczeń.
Jak zawsze zostawiam też link, który pozwala na postawienie mi kawy. Swoją drogą - podobno kawa i kakao strasznie drożeją. Jeszcze tego nie odczuwam, ale już się boję.
I to by było na tyle. Zbliżają się święta i wcale nie jestem pewien, czy za 2 tygodnie znajdziesz w skrzynce kolejny numer Dostępnika. A może jednak się zmobilizuję. Często myślę o wojnie w Ukrainie i ludziach, którzy mają już jej dość. Dla nich też nadchodzą święta, chociaż zamiast kolęd będą słyszeć wybuchy. Putin to drań, który nawet w święta nie daje ludziom spokoju. Myślę o Was Ukraińcy i Ukrainki. A Tobie życzę dobrego nadchodzącego tygodnia. Pa.