Dostępność multimediów

Wstęp

Wideo jest obecnie dominującą formą przekazu w internecie, odpowiadając za ponad 80% ruchu w sieci. Jednak dla użytkowników Głuchych, słabosłyszących, niewidomych czy osób z zaburzeniami poznawczymi, materiały te często stanowią barierę nie do przebycia. Dostępność multimediów (Time-based Media) to nie tylko kwestia etyki czy wymogów prawnych (takich jak Ustawa o dostępności czy EAA 2025). To także potężne narzędzie SEO i sposób na dotarcie do użytkowników w sytuacjach tymczasowych (np. oglądanie wideo w komunikacji miejskiej bez słuchawek).

Poniższa analiza rozbija temat na cztery filary dostępności multimediów: napisy, audiodeskrypcję, transkrypcję oraz dostępność samego odtwarzacza.

1. Napisy (captions)

Częstym błędem jest mylenie napisów dla niesłyszących (Captions) ze zwykłymi napisami tłumaczeniowymi (Subtitles). Różnica jest fundamentalna dla zgodności z WCAG.

Napisy rozszerzone (closed Captions – CC)

Dostępne napisy muszą przekazywać nie tylko dialogi, ale wszystkie istotne dźwięki tła.

  • Identyfikacja mówcy: Jeśli z kontekstu nie wynika jasno, kto mówi, napisy muszą to wskazać (np. „[Mężczyzna w tle]: Halo!”).
  • Efekty dźwiękowe: Istotne dla fabuły dźwięki muszą być opisane (np. „[dźwięk tłuczonego szkła]”, „[napięta muzyka]”, „[głośny śmiech]”).
  • Synchronizacja: Tekst musi pojawiać się idealnie w momencie wystąpienia dźwięku. Opóźnienia powyżej 0,5 sekundy są uznawane za błąd.

Automatyczne napisy

Poleganie wyłącznie na automatycznie generowanych napisach (np. przez YouTube czy Facebook) jest niewystarczające. Automatyczna transkrypcja w języku polskim wciąż popełnia błędy (brak interpunkcji, mylenie słów), co może całkowicie zmienić sens wypowiedzi. Zgodnie z prawem, automat może służyć jako baza, ale musi zostać zweryfikowany przez człowieka.

Closed vs. Open Captions

  • Closed Captions (CC): Napisy, które użytkownik może włączyć/wyłączyć i zmienić ich wygląd (wielkość czcionki, kolor). Jest to rozwiązanie rekomendowane (standardy VTT, SRT).
  • Open Captions (Wypalone): Napisy trwale wmontowane w obraz. Są czytelne zawsze, ale nie skalują się na urządzeniach mobilnych i nie są indeksowane przez wyszukiwarki.

2. Audiodeskrypcja

Audiodeskrypcja (AD) to dodatkowa ścieżka dźwiękowa przeznaczona dla osób niewidomych i słabowidzących. Lektor opisuje w niej to, co dzieje się na ekranie, a czego nie można wywnioskować z samej ścieżki dialogowej.

Kiedy jest wymagana?

Audiodeskrypcja jest konieczna w materiałach wideo zsynchronizowanych z dźwiękiem, w których kluczowe informacje są przekazywane wizualnie.

Przykład: Scena, w której bohater w milczeniu chowa pistolet do szuflady, wymaga komentarza lektora: „Jan otwiera biurko i ukrywa w nim broń”. Bez tego, osoba niewidoma słyszy tylko szuranie szuflady i nie rozumie kontekstu.

Rodzaje implementacji

  • Standardowa AD: Opis wciśnięty w naturalne pauzy w dialogach.
  • Rozszerzona AD: Stosowana, gdy pauzy są zbyt krótkie. Wideo jest tymczasowo zatrzymywane, aby lektor mógł dokończyć opis (rzadziej stosowane w webie, częściej w edukacji).
  • Alternatywa tekstowa: Jeśli budżet nie pozwala na nagranie lektora, WCAG dopuszcza (na niższych poziomach zgodności) dostarczenie pełnego opisu tekstowego scenariusza.

3. Transkrypcja: Fundament dostępności audio

Dla materiałów „tylko audio” (np. podcasty, wywiady radiowe) podstawowym wymogiem jest transkrypcja tekstowa.

Zalety transkrypcji

Choć stworzona z myślą o osobach niesłyszących, transkrypcja jest potężnym atutem biznesowym:

  • SEO (Pozycjonowanie): Google nie „słucha” podcastów, ale indeksuje tekst. Transkrypcja sprawia, że treść audio staje się wyszukiwalna.
  • Szybkie skanowanie: Pozwala użytkownikom szybko zapoznać się z treścią bez konieczności odsłuchiwania godziny nagrania.

Dobra transkrypcja powinna zawierać znaczniki czasowe oraz podział na mówców.

4. Tłumacz Polskiego Języka Migowego (PJM)

W polskim porządku prawnym (Ustawa o dostępności), podmioty publiczne są zobligowane do zapewnienia tłumaczenia na PJM w określonych sytuacjach. Warto pamiętać, że dla wielu osób Głuchych język polski jest językiem obcym (fonicznym), a ich naturalnym językiem jest PJM.

  • Wideo z tłumaczem: Najczęściej realizowane jako „Picture in Picture” (okienko z tłumaczem w rogu ekranu).
  • Wielkość tłumacza: Postać tłumacza nie może być zbyt mała. Zaleca się, aby zajmowała co najmniej 1/8 ekranu, by gesty i mimika były czytelne.

5. Dostępny odtwarzacz

Nawet najlepiej przygotowany plik wideo z napisami i audiodeskrypcją będzie bezużyteczny, jeśli zostanie osadzony w niedostępnym odtwarzaczu.

Kluczowe wymagania dla odtwarzacza:

  1. Obsługa klawiaturą: Każdy przycisk (Play, Pauza, Głośność, Włącz napisy) musi być dostępny bez użycia myszki (klawisz Tab, Spacja, Enter).
  2. Etykiety przycisków: Przyciski muszą mieć nazwy dostępne dla czytników ekranu (np. „Odtwórz”, a nie „btn_play_01”).
  3. Brak autoodtwarzania: Wideo nie powinno startować automatycznie z dźwiękiem. Jeśli tak się dzieje, użytkownik musi mieć możliwość zatrzymania go lub wyciszenia w ciągu 3 sekund (wymóg WCAG).
  4. Kontrast: Elementy sterujące muszą być widoczne i kontrastowe względem tła wideo.

Ryzyko migotania (ang. seizure risk)

Treści wideo nie mogą zawierać elementów migoczących częściej niż 3 razy na sekundę (szczególnie w kolorze czerwonym). Może to wywołać atak padaczki fotogennej. Do weryfikacji tego zagrożenia służy darmowe narzędzie PEAT.

Lista kontrolna publikacji

Przed opublikowaniem materiału wideo w internecie, zweryfikuj go według poniższej checklisty:

  1. Czy wideo posiada zsynchronizowane napisy (CC) uwzględniające dźwięki tła?
  2. Czy napisy nie zasłaniają kluczowych elementów obrazu (np. pasków informacyjnych)?
  3. Czy wideo wymaga audiodeskrypcji (czy obraz przekazuje informacje nieobecne w dźwięku)?
  4. Czy odtwarzacz pozwala na sterowanie samą klawiaturą?
  5. Czy do podcastu dołączona jest pełna transkrypcja tekstowa?