Wstęp
Wideo jest obecnie dominującą formą przekazu w internecie, odpowiadając za ponad 80% ruchu w sieci. Jednak dla użytkowników Głuchych, słabosłyszących, niewidomych czy osób z zaburzeniami poznawczymi, materiały te często stanowią barierę nie do przebycia. Dostępność multimediów (Time-based Media) to nie tylko kwestia etyki czy wymogów prawnych (takich jak Ustawa o dostępności czy EAA 2025). To także potężne narzędzie SEO i sposób na dotarcie do użytkowników w sytuacjach tymczasowych (np. oglądanie wideo w komunikacji miejskiej bez słuchawek).
Poniższa analiza rozbija temat na cztery filary dostępności multimediów: napisy, audiodeskrypcję, transkrypcję oraz dostępność samego odtwarzacza.
1. Napisy (captions)
Częstym błędem jest mylenie napisów dla niesłyszących (Captions) ze zwykłymi napisami tłumaczeniowymi (Subtitles). Różnica jest fundamentalna dla zgodności z WCAG.
Napisy rozszerzone (closed Captions – CC)
Dostępne napisy muszą przekazywać nie tylko dialogi, ale wszystkie istotne dźwięki tła.
- Identyfikacja mówcy: Jeśli z kontekstu nie wynika jasno, kto mówi, napisy muszą to wskazać (np. „[Mężczyzna w tle]: Halo!”).
- Efekty dźwiękowe: Istotne dla fabuły dźwięki muszą być opisane (np. „[dźwięk tłuczonego szkła]”, „[napięta muzyka]”, „[głośny śmiech]”).
- Synchronizacja: Tekst musi pojawiać się idealnie w momencie wystąpienia dźwięku. Opóźnienia powyżej 0,5 sekundy są uznawane za błąd.
Automatyczne napisy
Poleganie wyłącznie na automatycznie generowanych napisach (np. przez YouTube czy Facebook) jest niewystarczające. Automatyczna transkrypcja w języku polskim wciąż popełnia błędy (brak interpunkcji, mylenie słów), co może całkowicie zmienić sens wypowiedzi. Zgodnie z prawem, automat może służyć jako baza, ale musi zostać zweryfikowany przez człowieka.
Closed vs. Open Captions
- Closed Captions (CC): Napisy, które użytkownik może włączyć/wyłączyć i zmienić ich wygląd (wielkość czcionki, kolor). Jest to rozwiązanie rekomendowane (standardy VTT, SRT).
- Open Captions (Wypalone): Napisy trwale wmontowane w obraz. Są czytelne zawsze, ale nie skalują się na urządzeniach mobilnych i nie są indeksowane przez wyszukiwarki.
2. Audiodeskrypcja
Audiodeskrypcja (AD) to dodatkowa ścieżka dźwiękowa przeznaczona dla osób niewidomych i słabowidzących. Lektor opisuje w niej to, co dzieje się na ekranie, a czego nie można wywnioskować z samej ścieżki dialogowej.
Kiedy jest wymagana?
Audiodeskrypcja jest konieczna w materiałach wideo zsynchronizowanych z dźwiękiem, w których kluczowe informacje są przekazywane wizualnie.
Przykład: Scena, w której bohater w milczeniu chowa pistolet do szuflady, wymaga komentarza lektora: „Jan otwiera biurko i ukrywa w nim broń”. Bez tego, osoba niewidoma słyszy tylko szuranie szuflady i nie rozumie kontekstu.
Rodzaje implementacji
- Standardowa AD: Opis wciśnięty w naturalne pauzy w dialogach.
- Rozszerzona AD: Stosowana, gdy pauzy są zbyt krótkie. Wideo jest tymczasowo zatrzymywane, aby lektor mógł dokończyć opis (rzadziej stosowane w webie, częściej w edukacji).
- Alternatywa tekstowa: Jeśli budżet nie pozwala na nagranie lektora, WCAG dopuszcza (na niższych poziomach zgodności) dostarczenie pełnego opisu tekstowego scenariusza.
3. Transkrypcja: Fundament dostępności audio
Dla materiałów „tylko audio” (np. podcasty, wywiady radiowe) podstawowym wymogiem jest transkrypcja tekstowa.
Zalety transkrypcji
Choć stworzona z myślą o osobach niesłyszących, transkrypcja jest potężnym atutem biznesowym:
- SEO (Pozycjonowanie): Google nie „słucha” podcastów, ale indeksuje tekst. Transkrypcja sprawia, że treść audio staje się wyszukiwalna.
- Szybkie skanowanie: Pozwala użytkownikom szybko zapoznać się z treścią bez konieczności odsłuchiwania godziny nagrania.
Dobra transkrypcja powinna zawierać znaczniki czasowe oraz podział na mówców.
4. Tłumacz Polskiego Języka Migowego (PJM)
W polskim porządku prawnym (Ustawa o dostępności), podmioty publiczne są zobligowane do zapewnienia tłumaczenia na PJM w określonych sytuacjach. Warto pamiętać, że dla wielu osób Głuchych język polski jest językiem obcym (fonicznym), a ich naturalnym językiem jest PJM.
- Wideo z tłumaczem: Najczęściej realizowane jako „Picture in Picture” (okienko z tłumaczem w rogu ekranu).
- Wielkość tłumacza: Postać tłumacza nie może być zbyt mała. Zaleca się, aby zajmowała co najmniej 1/8 ekranu, by gesty i mimika były czytelne.
5. Dostępny odtwarzacz
Nawet najlepiej przygotowany plik wideo z napisami i audiodeskrypcją będzie bezużyteczny, jeśli zostanie osadzony w niedostępnym odtwarzaczu.
Kluczowe wymagania dla odtwarzacza:
- Obsługa klawiaturą: Każdy przycisk (Play, Pauza, Głośność, Włącz napisy) musi być dostępny bez użycia myszki (klawisz Tab, Spacja, Enter).
- Etykiety przycisków: Przyciski muszą mieć nazwy dostępne dla czytników ekranu (np. „Odtwórz”, a nie „btn_play_01”).
- Brak autoodtwarzania: Wideo nie powinno startować automatycznie z dźwiękiem. Jeśli tak się dzieje, użytkownik musi mieć możliwość zatrzymania go lub wyciszenia w ciągu 3 sekund (wymóg WCAG).
- Kontrast: Elementy sterujące muszą być widoczne i kontrastowe względem tła wideo.
Ryzyko migotania (ang. seizure risk)
Treści wideo nie mogą zawierać elementów migoczących częściej niż 3 razy na sekundę (szczególnie w kolorze czerwonym). Może to wywołać atak padaczki fotogennej. Do weryfikacji tego zagrożenia służy darmowe narzędzie PEAT.
Lista kontrolna publikacji
Przed opublikowaniem materiału wideo w internecie, zweryfikuj go według poniższej checklisty:
- Czy wideo posiada zsynchronizowane napisy (CC) uwzględniające dźwięki tła?
- Czy napisy nie zasłaniają kluczowych elementów obrazu (np. pasków informacyjnych)?
- Czy wideo wymaga audiodeskrypcji (czy obraz przekazuje informacje nieobecne w dźwięku)?
- Czy odtwarzacz pozwala na sterowanie samą klawiaturą?
- Czy do podcastu dołączona jest pełna transkrypcja tekstowa?
