Dokumentacja języków

Home > Księga Wiedzy > Dokumentacja języków

Księga wiedzy

Rozdziały: 1 2 3 4 5 6 7 8 9 10

Lista języków wymienionych w Księdze Wiedzy i w innych działach strony.

POBIERZ PDF: Języki w niebezpieczeństwie: księga wiedzy: Wydanie I (2016).

Sprawdź się!

Sekcja Sprawdź się! – Rozdział 10. Zobacz, ile już wiesz lub czego możesz się jeszcze dowiedzieć z Księgi Wiedzy Języków w Niebezpieczeństwie!

Autor rozdziału: Katarzyna Klessa

Spis treści rozdziału:

Czym jest dokumentacja języków, jak to się robi i dlaczego to ważne?

Więcej niż tylko słowa i zdania
Dane i metadane

Wybrane metody dokumentacji języków

Dokumentacja zachowań komunikacyjnych i języka w użyciu
Dokumentacja tego, co wiedzą użytkownicy języka

Praktyczne elementy dokumentacji języków

Pierwsze kroki
Sprzęt nagraniowy i przebieg nagrań
Przetwarzanie i analiza danych
Przykładowe archiwa internetowe dla języków zagrożonych
Problemy prawne i etyczne

Załączniki: więcej o historii nagrywania dźwięku, formatach i strukturach danych
Przypisy i bibliografia
Użyteczne linki

Czym jest dokumentacja języków, jak to się robi i dlaczego to ważne?

Jedną z ważnych dla ludzi potrzeb jest zachowanie pamięci o najbardziej istotnych momentach i osiągnięciach w ich życiu oraz przekazanie następnym pokoleniom wiedzy o czasach, w których żyli, o kulturze i cywilizacji. Przez setki lat ludzie wypracowali szereg sposobów przekazywania wiedzy z pokolenia na pokolenie drogami tradycji i kultury ustnej oraz pisanej. Dzięki temu mamy teraz dostęp do stosunkowo odległych w czasie wydarzeń historycznych i możemy prześledzić rozwój kultur, w tym rozwój języka. Wyjątkiem są dźwięki języka, gdyż do nie dawna nie było możliwości zachowania w trwałej formie dźwięków mowy naszych przodków: pierwsze nagrania ludzkiego głosu, które jesteśmy dziś w stanie odsłuchać, pochodzą z drugiej połowy XIX wieku. Są one więc stosunkowo młode w porównaniu do najstarszych zabytków języka pisanego – te datujemy na tysiąclecia przed naszą erą.

W tym rozdziale przyjrzymy się kwestiom związanym z zachowywaniem i wykorzystywaniem informacji o językach. Szczególną uwagę zwrócimy na języki zagrożone i przyczyny, dla których zasługują one na specjalne traktowanie. Kilka możliwych powodów znajduje się na niebieskim polu poniżej.

PO CO DOKUMENTOWAĆ JĘZYKI ZAGROŻONE?

Aby zachować dziedzictwo kulturowe ludzkości;

Aby przechować w pamięci wydarzenia ważne dla danej społeczności, rodziny czy pojedynczego człowieka;

Aby lepiej poprzeć teorie językoznawcze przykładami z codziennego użycia różnych języków;

Aby móc badać kontakty językowe [1].

Dokumentacja języków obejmuje gromadzenie, przetwarzanie i przechowywanie danych językowych – na przykład tekstów, list wyrazów, nagrań rozmów, filmów, na których ludzie opowiadają historie itd. I choć ludzie dokumentują języki od stuleci, to nowe technologie dostępne obecnie oraz postęp w językoznawstwie i innych dziedzinach doprowadziły do sporych zmian w tym aspekcie. Dziś językoznawstwo dokumentacyjne to nowy, “modny” dział językoznawstwa skupiający badaczy o wielu różnych profilach zawodowych i zainteresowaniach: niektórzy podróżują w najdalsze zakątki świata, żeby zbierać dane z mniej znanych i mniej używanych języków, inni rozwijają nowe metody przetwarzania i przechowywania dużych ilości danych multimedialnych, a jeszcze inni używają zdobyczy językoznawstwa dokumentacyjnego do rewitalizacji języków zagrożonych – na przykład poprzez tworzenie słowników i materiałów edukacyjnych.

PRZYGODA Z DOKUMENTACJĄ ZAGROŻONYCH JĘZYKÓW

W roku 2008 dwóch amerykańskich językoznawców zajmujących się dokumentacją zagrożonych języków nakręciło film, w którym pokazują, jak interesująca, czasami dramatyczna, a czasami zabawna jest ich praca. [2]. Na stronie www.pbs.org/thelinguists znajdziesz informacje na temat filmu (“The Linguists”) oraz inne materiały!
Trailer można również zobaczyć w serwisie YouTube tutaj

Dokumentacja zagrożonych języków jest sprawą szczególnie ważną i nie cierpiącą zwłoki o ile chcemy zachować choć część bogactwa, jaka jest w nich zawarta – wiele z tych języków niedługo bezpowrotnie wymrze. Warto podkreślić, że językoznawstwo dokumentacyjne nie koncentruje się wyłącznie na językach zagrożonych wymarciem, a wiele aspektów dokumentacji – na przykład nagrywanie mowy, transkrypcja danych języka mówionego czy tworzenie korpusów – jest wspólna dla wszystkich języków. Tym niemniej małe, mniej zbadane, a przede wszystkim zagrożone języki, stawiają przed dokumentatorami wyzwania – przede wszystkim pod względem ilości dostępnych danych. Jeśli chcemy dokumentować jakiś duży język, np. angielski, chiński, węgierski, polski czy niderlandzki, możemy polegać na już istniejących danych i dość łatwo zebrać materiał do projektu dokumentacyjnego: książki, gazety, inne dokumenty pisane współczesne i z dawnych czasów (wiele z nich istnieje już w formie cyfrowej), programy radiowe i telewizyjne, które bez problemu można ściągnąć z internetu, język używany na blogach, forach i w mediach społecznościowych, i tak dalej. Z racji tego, że mamy obecnie szeroki dostęp do komputerów, internetu i urządzeń do nagrywania, ilość materiału językowego będącego do naszej dyspozycji szybko rośnie. W przypadku języków zagrożonych sytuacja jest często dalece odmienna: wiele z nich nie ma tradycji piśmienniczej, zatem dostępność tekstów pisanych w tych językach może być niewielka lub żadna. Ponadto takie języki mogą nie być używane w mediach, a ich użytkownicy często albo nie korzystają z internetu, albo robią to w innym języku. W takim wypadku językoznawcy zaczynają od zbierania tak dużej ilości danych językowych, jak to tylko możliwe, poprzez nagrywanie osób mówiących w zagrożonym języku. W idealnym przypadku, dokumentacja zawiera reprezentatywną próbkę języka: nagrania wielu użytkowników reprezentujących różne grupy wiekowe, płeć i pochodzenie. Niejednokrotnie jednak zrealizowanie takich celów nie jest możliwe, gdyż ilość użytkowników danego języka może być niewielka i/lub są to tylko starsze osoby.

Kolejną, po liczbie mówców i ilości danych językowych, ważną w dokumentacji kwestią jest współpraca pomiędzy językoznawcami i innymi badaczami chcącymi udokumentować język a społecznością jego użytkowników. Dokumentatorami wielu języków zagrożonych czy mniejszościowych są osoby z zewnątrz, a nie członkowie społeczności użytkowników. Są to osoby często nie posługujące się tym językiem, więc w komunikacji między użytkownikami a językoznawcami używa się jakiegoś innego, trzeciego języka. To czasem prowadzi do nienaturalnego użycia języka, który jest dokumentowany. Językoznawcy mogą nie znać obyczajów czy też społecznie i kulturowo przyjętych zasad zachowania, więc niechcący mogą zostać odebrani przez społeczność za osoby niegrzeczne i protekcjonalne. Dlatego zawsze lepiej jest, żeby w zespole zajmującym się dokumentacją języka znalazły się osoby należące do społeczności jego użytkowników. Nie tylko poprawi to jakość dokumentacji – w grę wchodzą też elementarne wartości. W końcu chodzi o język tych osób! Dla językoznawcy nagranie starszego człowieka opowiadającego o swoim dzieciństwie to czasem tylko “dane językowe”, podczas gdy dla członka społeczności językowej – na przykład wnuka tego mężczyzny – takie nagranie może być czymś bardzo osobistym, stanowić rodzinny skarb.

Praca terenowa związana z dokumentacją języków jest więc trudnym i długotrwałym procesem, który wymaga od dokumentatorów podróży, nawiązywania nowych kontaktów, integrowania się z lokalną społecznością, poznawania jej zwyczajów i kultury. Dopiero potem można rozpocząć zasadniczą pracę nad dokumentacją.

UDOKUMENTUJ JĘZYK LUB DIALEKT – PRZYKŁAD

Przejdź do sekcji Co możesz zrobić? – Udokumentuj język lub dialekt i posłuchaj Tymoteusza Króla, który opowiada o swoich doświadczeniach przy dokumentacji wilamowskiego – jednego z najmniejszych języków mniejszościowych Polski. Pomyśl o jakimś małym języku lub dialekcie ze swojego regionu – czy słyszałaś/-łeś o nagraniach, programach telewizyjnych czy książkach w tym języku lub o nim?

Więcej niż tylko słowa i zdania

We wstępnej definicji podanej na początku rozdziału wspomnieliśmy o trzech elementach dokumentacji języków: gromadzeniu (nagrywaniu, robieniu zdjęć, zbieraniu tekstów pisanych itd.), przetwarzaniu (analizie, systematyzacji, transkrybowaniu, tłumaczeniu itd.) i przechowywaniu (archiwizacji) danych. Te trzy części składowe dokumentacji można potraktować jako kolejne kroki. Na przykład najpierw nagrywamy wyrazy, potem je tłumaczymy i analizujemy, a rezultat – np. lista wyrazów czy słownik – jest przechowywany później w formie elektronicznej albo na papierze. W praktyce jednak te trzy kroki są bardziej złożone i czasem mogą się na siebie nakładać: na przykład transkrybowanie (zapisywanie) materiału z języka mówionego można uznać za przykład aktywności należących zarówno do obszaru gromadzenia, jak i przetwarzania danych, a czasem nawet jako sposób ich przechowywania. Ponadto trzeba patrzeć wprzód już przed rozpoczęciem pracy i zastanowić się nad możliwymi sposobami analizy i archiwizacji danych. Na przykład językoznawcy zainteresowani dźwiękami jakiegoś języka mogą najpierw nagrać jego próbki, potem przeanalizować je by ustalić zasady fonetyczne obowiązujące w tym języku, a następnie zebrać więcej materiału w sposób bardziej świadomy i celowy. Językoznawcy zajmujący się fonetyką mogą też mieć różne oczekiwania w stosunku do danych językowych, niż np. badacze kultury i tradycji. Niemniej jednak uważa się, że należy starać się zachować rozróżnienie między gromadzeniem a analizą danych. Ten sam zestaw danych źródłowych (nazywanych też “surowymi”, ang. raw data) – o ile jest właściwie skonstruowany – może służyć za materiał bazowy dla różnego rodzaju analiz przeprowadzanych przez naukowców specjalizujących się w różnych dziedzinach: językoznawców, kulturoznawców, socjologów, psychologów, historyków czy geografów. Jednych będą przede wszystkim interesowały zjawiska językowe (np. struktury składniowe, cechy dźwięków), a innych – relacje społeczne odzwierciedlane w materiale (np. role spełniane przez różnych użytkowników w ramach społeczności). Wszyscy zastosują do swoich badań odrębne metody, ale będą pracowali na tych samych danych. Na dokumentację języków można zatem z powodzeniem spoglądać jako na pole do współpracy interdyscyplinarnej.

Taka perspektywa doprowadza nas do szerszego spojrzenia na to, co jest przedmiotem dokumentacji języków. Bardziej niż na gromadzeniu słów i zdań, językoznawcy powinni koncentrować się na dokumentowaniu tradycji i praktyk językowych danej społeczności, które można obserwować na co dzień. Wspomniane praktyki i tradycje objawiają się poprzez [3] [4]:

zachowania językowe: codzienne rozmowy, użycie języka w kontaktach między członkami społeczności, zwyczaje i tradycje językowe (patrz też w sekcji “Język to czynność, a kultura to czasownik” rozdziału 6 o języku i kulturze);
świadomość językową: to, co mówcy wiedzą na temat swojego języka i co potrafią wyjaśnić na temat jego struktury i zasad nim rządzących (za: Himmelmann 1998: 161-195); innym interesującym aspektem świadomości językowej są ideologie językowe użytkowników – to, co właściwie sądzą o własnym języku: czy warto go zachować i co zrobić, żeby utrzymać go przy życiu (np. czy dziadkowie rozmawiają w języku zagrożonym z wnukami?).

W oparciu o te definicje możemy stwierdzić, że celem dokumentacji nie jest nagrywanie dźwięków języka jako takich, lecz nagrywanie dźwięków języka jako wydarzeń komunikacyjnych [3] [5]. Wydarzenie komunikacyjne obejmuje więcej, niż tylko samą mowę, a żeby je zrozumieć, będziemy potrzebowali informacji na temat np. użytych gestów, wyrazów twarzy, kontekstu sytuacyjnego, obecności osób trzecich czy przedmiotów używanych podczas nagrywania.

Dane i metadane

Metadane można pokrótce zdefiniować jako dane opisujące inne dane, lub nawet prościej: dane o danych.

Na przykład podstawowym typem danych dla fonetyka będą przeważnie dane akustyczne z pliku dźwiękowego oraz ich transkrypcje. Towarzyszące im metadane zawierać będą różne typy informacji o mówcach (takie jak: płeć, wiek, miejsce pochodzenia, stan zdrowia, sytuacja rodzinna i socjalna), warunki towarzyszące nagraniu (otoczenie, odgłosy w tle), właściwości techniczne (sprzęt, oprogramowane, jakość), autorów itd. Tym niemniej rozróżnienie na dane i metadane nie zawsze jest oczywiste: metadane mogą stać się danymi i na odwrót, w zależności od rodzaju badania. Odwołując się do naszego przykładu fonetyka, może on przyjąć informacje o miejscu pochodzenia danych za dane same w sobie w przypadku, kiedy ma za zadanie zbadać regionalne wersje wymowy jakiejś głoski. Jeśli ten sam korpus będzie analizował antropolog, uwaga skupi się na opisie stosunków rodzinnych, które w konsekwencji z metadanych zmienią się w dane.

Wybrane metody dokumentacji języków

Dokumentacja zachowań komunikacyjnych i języka w użyciu

Do około połowy XX wieku lingwiści rozumieli dokumentację języków przede wszystkim jako tworzenie ich gramatyk, spisywanie słowników, zbieranie tekstów (najlepiej bajek i innych tekstów prozą). Prace dokumentacyjne tego typu przeprowadzano już w XVIII i XIX wieku, a jej wyniki służą językoznawcom do dziś. Dla przykładu, tutaj możesz posłuchać nagrania (2013) i popatrzeć na transkrypt i tłumaczenie bajki udokumentowanej pierwszy raz w 1895 r. przez Stefanię Ulanowską [6].

Dziś jednak czujemy, że w dokumentacji starego typu czegoś brakowało. Czegoś, co było trudne, jeśli nie niemożliwe do udokumentowania tam, gdzie jedyną metodą dokumentacji było spisywanie i rysowanie. Jak już wcześniej wspomnieliśmy, dokumentacja języków obejmuje nie tylko opis poszczególnych obszarów gramatyki czy słownictwa – jej sedno stanowi dokumentowanie języka w jego naturalnym środowisku, razem z opisem użytkowników, ich wzajemnych relacji i sytuacji, w których się znajdują. Przyglądając się jakości technicznej nagrań musimy jednak przyznać, że najlepszy dźwięk powstaje w komorze bezodbiciowej w studiu nagraniowym, a nie w naturalnym dla języka środowisku. W studiu można kontrolować i minimalizować hałasy oraz dokładnie ustawiać i regulować pozycję mikrofonu czy kamery przed rozpoczęciem nagrania, tak żeby uchwycić nawet najbardziej subtelne detale. Tego typu nagrania są szczególnie cenne dla analiz systemów dźwiękowych języków, co tłumaczy, dlaczego komory bezodbiciowe przeważnie znajdziemy w zakładach fonetycznych uniwersytetów i laboratoriów badawczych (przykładową listę takich placówek znajdziesz tutaj).

Środowisko studia nagraniowego: nagrywanie w komorze bezodbiciowej, pracujący zespół laboratorium, wyposażenie (Laboratorium Zakładu Psycholingwistyki Uniwersytetu im. Adama Mickiewicza w Poznaniu. Zdjęcia: Agnieszka Czoska (lewe, środkowe), Maciej Karpiński (prawe)).

Dokumentacja języków to zatem kompromis między kontrolą jakości a dążeniem do zachowania naturalności języka. Z definicji praktycznie nie da się uchwycić najbardziej naturalnych sytuacji komunikacyjnych w sztucznych warunkach studia nagraniowego. Szczególnie tyczy się to starszych osób, które, w przypadku języków poważnie zagrożonych wymarciem, są niejednokrotnie ich ostatnimi żyjącymi użytkownikami (por. stopnie zagrożenia języków UNESCO, opisane w rozdziale 8 Księgi Wiedzy). Z drugiej jednak strony, nagrywanie mowy poza studiem przeważnie pociąga za sobą trudności w utrzymaniu odpowiedniej jakości – nawet jeśli używamy bardzo dobrych urządzeń. Kiedy siedzimy w pokoju i rozmawiamy, przeważnie nie zwracamy uwagi na dźwięki w tle, ale gdybyśmy posłuchali nagrania tej rozmowy okazałoby się, że wyraźnie słychać tykający zegar czy brzęczącą lodówkę.

Ćwiczenie ze słuchu

Posłuchaj nagrania zawierającego wypowiedzi w języku teop: kliknij tutaj.
W jakich warunkach zrobiono nagranie? Jakie słyszysz dźwięki w tle?

Znajdź teop na Interaktywnej Mapie i dowiedz się więcej o tym języku i o nagraniach z ćwiczenia powyżej!

Podczas nagrywania – nawet jeśli odbywa się ono w luźnej atmosferze – ludzie przeważnie zwracają baczniejszą uwagę na to, jak mówią, a przez to zmieniają swoje zachowania językowe i ich mowa może się zmieniać w dość nieprzewidywalny sposób. Może być ona na przykład mniej lub bardziej oficjalna czy poprawna politycznie, co będzie widoczne na parametrach fonetyczno-akustycznych takich jak tempo, intonacja, intensywność, pauzy itp. Jest to związane z tzw. Paradoksem Obserwatora.

PARADOKS OBSERWATORA

Celem badań językoznawczych prowadzonych w danej społeczności ma być ustalenie, jak ludzie rozmawiają ze sobą wtedy, gdy nikt ich systematycznie nie obserwuje. Ale takie dane możemy pozyskać tylko przez systematyczną obserwację. [7]

Często warunki do przeprowadzania eksperymentów są zaplanowane tak, żeby uzyskać dane o różnych stylach i stopniach spontaniczności mowy. Dla języków dużych i dobrze udokumentowanych albo istnieją duże korpusy wcześniej zebranych nagrań, albo tworzone są nowe korpusy. Istniejące już nagrania to np. programy telewizyjne czy przemowy parlamentarne. Jednak jak nietrudno się domyślić, komunikacja przed kamerami, w studyjnym świetle i przy użyciu mikrofonów może mieć dość specyficzny charakter i nie zawsze dobrze służy celom związanym z dokumentacją języka.

Metodą pośrednią pomiędzy dokumentowaniem mowy spontanicznej a elicytacją danych według ustalonego schematu jest stworzenie scenariusza nagrania rozmowy między dwoma użytkownikami języka, który ma być dokumentowany. Dla przykładu, część Korpusu języka mówionego Uniwersytetu w Kilonii [8] stworzono tak, że dwu osobom dano dwa różne tygodniowe rozkłady zajęć i poproszono, by osoby te umówiły się przez telefon na spotkanie w terminie, który by im obu odpowiadał. W rezultacie uzyskano spontaniczne rozmowy z ograniczonym i w dużej mierze przewidywalnym inwentarzem słownictwa.

Ciekawym przykładem jest też baza mowy spontanicznej i ekspresywnej JST/CREST [9]. Ta baza danych składa się z szeregu podzestawów, z których jeden zebrano tak, że ochotnikom zamontowano małe przenośne urządzenia do nagrywania. Urządzenia rejestrowały spontaniczną mowę tych osób podczas codziennych czynności (w pracy, domu czy szkole) przez stosunkowo długi okres czasu (np. kilka miesięcy). Osoby nagrywane mogły w każdym momencie wyłączyć urządzenie albo zdecydować, że dana partia nagrania ma być wyłączona z badań. Eksperymentatorzy założyli, że po jakimś czasie ochotnicy oswoją się z urządzeniem tak, że przestaną zwracać uwagę, że w ogóle są nagrywani, co sprawi, że ich zachowania językowe staną się bardziej (lub nawet całkowicie) spontaniczne. Potencjalna wada tej metody polega na tym, że nagrania zbierane są w różnych miejscach, gdzie nie zawsze można przewidzieć poziom hałasu, co nie pozwala na pełną kontrolę nad jakością. Kolejna przeszkoda dotyczy metadanych: ciężko prowadzić rejestr wszystkich sytuacji, w których nagrywanie się odbywało i zebrać potrzebne dane na temat sytuacji komunikacyjnej (kontekst, ilość osób mówiących w nagraniu itp.). Do tego dochodzą oczywiście kwestie związane z prawami autorskimi, ochroną danych osobowych wszystkich nagranych osób (czyli nie tylko ochotnika, który świadomie zgodził się na nagrywanie) – zobacz poniżej w sekcji Problemy prawne i etyczne.

ZADANIE

Zastanów się, jaki scenariusz nagrania pozwoliłby na uzyskanie dobrej jakości plików audio i wideo zawierających ustną komunikację pomiędzy (a) dziećmi, (b) osobami starszymi, bez znacznej utraty spontaniczności mowy.
Uwaga: Potencjalnych scenariuszy może być kilka.

W przypadku języków zagrożonych i języków mniejszości wybór materiału jest często bardzo ograniczony, przez co każdy rodzaj danych może stanowić cenne źródło informacji. Warto jednak pamiętać, że aby łatwiej było prowadzić kolejne analizy i tworzyć opisy języków w przyszłości, pracę nad danymi należy przeprowadzać skrupulatnie i z rozwagą, a nie “(bez pojęcia) zbierać stosy danych, nie myśląc ich o strukturze i późniejszej analizie”, jak ujął to Nikolaus Himmelman (w tłumaczeniu z angielskiego RW) [10]. Innymi słowy, jeśli masz dostęp do języka zagrożonego (np. dialektu twojej babci), możesz oczywiście wykonać nagranie smartfonem i wrzucić je później na YouTube czy do innego serwisu (jeśli posurfujesz trochę w internecie przekonasz się, że wielu ludzi właśnie tak robi), ale to nie jest metoda, jaką stosują profesjonalni dokumentatorzy.

Dokumentacja tego, co wiedzą użytkownicy języka

Documenting endangered languages, fieldwork conditions

Dokumentacja zagrożonych języków w warunkach polowych: język yurakaré (po lewej, zdjęcie: Sonja Gipper & Consejo Educativo del Pueblo Yurakaré) i tahuatański (po prawej, zdjęcie: Gabriele Cablitz).

Choć dokumentacja języka w jego naturalnym środowisku jest niezwykle istotna, to często nie wystarcza ona do uzyskania kompletnego obrazu języka. To dlatego, że użytkownicy zawsze wiedzą o języku dużo więcej, niż widać to po ich zachowaniach językowych. Zakres słownictwa i struktur gramatycznych używanych podczas spontanicznych konwersacji czy wywiadów zależy od tematu rozmowy i przeważnie odzwierciedla to, jakich środków językowych mówcy używają najczęściej w codziennych sytuacjach. Rzadsze słowa i konstrukcje językowe mogą się w ogóle nie pojawić podczas nagrywania, nawet przy wielogodzinnych sesjach nagraniowych spontanicznych rozmów. Jeśli dokumentacja jakiegoś języka polega tylko na takim materiale, zestaw udokumentowanych środków językowych będzie zawsze do pewnego stopnia przypadkowy. Na przykład jeśli nagrasz rozmowę o tym, ile dzieci jest w której rodzinie i ile mają lat, na nagraniu będzie wiele przykładów liczebników. Na innych nagraniach liczebniki mogą wcale się nie pojawić, za to zarejestrujesz nazwy kolorów itd. Naukowcy, których interesują konkretne tematy (liczebniki, nazwy zwierząt i roślin, słowa na części ciała, przyimki itd.) nie będą czekać, aż pojawią się one w spontanicznym dyskursie, tylko zwrócą się ku innej metodzie zbierania danych – elicytacji. Elicytacja to termin oznaczający zbieranie pożądanego typu danych bezpośrednio od użytkowników języka zgodnie z wcześniej ustalonym scenariuszem nagrania.

Popularną metodą elicytacji słownictwa jest sporządzenie listy wyrazów do przetłumaczenia na język, który ma być dokumentowany. Do dokumentacji słownictwa podstawowego używa się listy Swadesha (o liście Swadesha i słownictwie podstawowym przeczytasz w rozdziale 2). Tłumaczenie jako metoda elicytacji ma jednak wiele wad. Nie wszystkie słowa da się tłumaczyć między jednym językiem a drugim, a słów, których nie ma w języku źródłowym (na przykład angielskim) nie będzie dało się odkryć. Dlatego częstokroć lepszym rozwiązaniem jest wykorzystywanie obrazków i rekwizytów. Przedmioty są dobre także do elicytacji struktur gramatycznych, na przykład do ustalania sposobów wyrażania stosunków przestrzennych czy ruchu (czyli jak powiedzieć w tym języku np. kot leży na stole, kot wchodzi na drzewo, jabłko spada z drzewa). Istnieją nawet specjalne zestawy obrazków i innych materiałów stymulujących służące do celów elicytacji. Story builder [11] to przykład takiego zestawu: jest dostępny za darmo w Internecie i może służyć za materiał do elicytacji wielu rodzajów struktur, przede wszystkim czasownikowych. Innym przykładem są gotowe do użycia zestawy Field Manuals [12], w których znaleźć można obrazki do elicytacji słownictwa opisującego położenie przedmiotów w przestrzeni, takie jak to poniżej [13].

Położenie przestrzenne przedmiotów. Przykład TPRS (Topological Relations Picture Series, Bowerman et al., 1992. Pełen źródłowy zestaw obrazków dostępny na: fieldmanuals.mpi.nl/volumes/1992/topological-relations-picture-series/)

Zestawy obrazków do ściągnięcia przeważnie zawierają też sugestie co do możliwego scenariusza nagrania oraz warunki korzystania z zestawu (na przykład pod tym linkiem znajdziesz przykładu dla zestawów do elicytacji wskazówek, jak gdzieś dojść: fieldmanuals.mpi.nl/volumes/1993/route-description-elicitation/, a tutaj do kolorowania części ciała: fieldmanuals.mpi.nl/volumes/2003-1/body-colouring-task). Trzeba jednak zaznaczyć, że ze względu na różnice kulturowe, nie wszystkie rysunki mogą być wykorzystywane wszędzie – na przykład w krajach muzułmańskich nie można przedstawiać graficznie ludzi, a psy budzą złe skojarzenia. Jedną z metod elicytacji spójnego tekstu według ustalonego schematu jest pokazanie niemego filmu albo, szczególnie w przypadku pracy z dziećmi, komiksu pozbawionego tekstu i poproszenie osób biorących udział w nagraniu o odegranie po swojemu historii, którą widzą. Historię z najsłynniejszego filmu lingwistycznego – The Pear Story [14] – opowiedziano już w wielu różnych językach, a gramatykę tekstów, które w ten sposób zebrano, można porównać pod wieloma aspektami.

Językoznawcy, których interesują przede wszystkim dźwięki języka, a nie zbieranie słownictwa czy konstrukcji gramatycznych, mogą poprosić swoich informatorów o głośne przeczytanie uprzednio przygotowanych list słów czy krótkich tekstów. Za przykład może posłużyć bajka Ezopa Północny wiatr i Słońce, której fonetycy i fonolodzy często używają do pokazania inwentarza dźwięków różnych języków (por. Handbook of the International Phonetic Association [16]; zobacz też w rozdziale 2 oraz rozdziale 4 Księgi Wiedzy). Naturalnie tłumaczenie tekstu na niektóre języki może być trudne, bo nie wszystkie słowa czy struktury mogą mieć w nich swoje odpowiedniki. Inny problem może stanowić to, że język dokumentowany po prostu nie istnieje w formie pisanej (albo nie jest w niej szeroko wykorzystywany), więc zadanie wymagające przeczytania tekstu pisanego nie zawsze może być możliwe do wykonania.

ĆWICZENIE ZE SŁUCHU

Posłuchaj nagrań bajki Ezopa pt. Północny wiatr i Słońce w trzech językach. Zwróć uwagę na jakość techniczną nagrań:

polski- kliknij aby posłuchać (osoba mówiąca: Ewa Sobczak, zawodowa aktroka [15])

łatgalski- kliknij aby posłuchać (osoba mówiąca: Evita Kozule, studentka wydziału językowego; nagranie: K. Klessa & N. Nau

hałcnowski- kliknij aby posłuchać (osoby mówiące: Fryderk Hanusz, Józef Jancza; źródło: [6b]

Uwaga: Hałcnowski to krytycznie zagrożony język: według szacunków z roku 2013, ma on tylko 8 uzytkowników. Ponadto język nie posiada tradycji pisanej, więc w tym przypadku tekst nagrania nie był po hałcnowsku, lecz był tłumaczeniem opartym na modelu polskojęzycznym.

Znajdź łatgalski na Interaktywnej Mapie!

Jeśli chcemy dokumentować to, co użytkownicy wiedzą o swoim języku, można oczywiście poprosić wprost, by się na ten temat wypowiedzieli (choć nie może być to jedyna metoda zbierania danych). Do tego celu warto zebrać wpierw terminologię, której przedstawiciele danej kultury używają do mówienia o języki i ustalić, czy istnieją odpowiedniki słów takich jak: słowo, zdanie, czas, sylaba itd., czy też funkcjonują inne nazwy. Dzięki temu zyskamy szansę, żeby mówić o danym języku w tym języku, zamiast używać trzeciego języka do opisu.

Praktyczne elementy dokumentacji języków

12-calowa płyta analogowa (zdjęcie: Maciej Karpiński).

Jak wspomnieliśmy powyżej, dokumentacja języków obejmuje gromadzenie, przetwarzanie i przechowywanie danych językowych. Gdy zdamy sobie sprawę z tego, że osoby dokumentujące języki muszą częstokroć pokonywać duże dystanse, by zebrać dane, a następnie znaleźć sposób, aby te dane bezpiecznie przechowywać, przetwarzać i przekazywać innym stanie się jasne, że związek językoznawstwa dokumentacyjnego z technologią jest bardzo silny. Lata temu, w czasach gdy standardowe urządzenie nagrywające miało dość dużą wagę i rozmiary, praca językoznawcy-dokumentatora stanowiła dużo większe wyzwanie niż obecnie, gdy wysokiej jakości nagrania można uzyskać przy użyciu kieszonkowych dyktafonów i przenośnych kamer.

Dzięki postępowi technologii praca nad danymi zyskała niespotykaną wcześniej efektywność i szybkość. Na przykład możliwe jest dziś wyszukanie konkretnej informacji spośród milionów pozycji w bazie danych w czasie mniejszym niż kilka sekund. Albo gromadzenie wysokiej jakości plików wideo i audio na przenośnym urządzeniu o długości jednego centymetra (przechowywanie takiej samej ilości danych kiedyś wymagało kilku pomieszczeń o powierzchni idącej w setki metrów kwadratowych). Ponadto, w dzisiejszych czasach można udostępnić dane szerokim grupom odbiorców praktycznie w każdym momencie. Internet bogaty jest w różnego typu informacje.

DOWIEDZ SIĘ WIĘCEJ

Więcej o historii dokumentacji, reprodukcji i przechowywania mowy dowiesz się z Załącznika 1 do tego rozdziału.

Wraz z całym tym potencjałem pojawiają się też jednak nowe pytania i wyzwania. Na przykład większy problem niż do tej pory może stanowić organizacja i przeszukiwanie danych, unikanie chaosu i kontrola dostępu związane z faktem, że wiele osób może korzystać z danych, jak również dopilnowanie przestrzegania zasad prawa i etyki (więcej na ten temat w sekcji Problemy prawne i etyczne poniżej).

Pierwsze kroki

Kroki przygotowawcze przed przystąpieniem do właściwego zbierania danych mogą obejmować kontaktowanie się z użytkownikami języka, zaznajamianie się z już dostępnymi materiałami na jego temat, planowanie scenariuszy nagrań, testowanie sprzętu i oprogramowania, wybieranie formatu plików i ustalanie konwencji, według której pliki będą później nazywane.

Kiedy już skontaktujesz się z użytkownikami języka, który ma być dokumentowany, wskazane jest (to właściwie obowiązkowy krok – przeczytasz więcej w sekcji Problemy prawne i etyczne), by poprosić ich o oficjalną zgodę na nagrania oraz by zadbać o pozytywne nastawienie społeczności do przedsięwzięcia i chęć udziału w nim. Języki zagrożone często używane są przez małe społeczności, w których związki rodzinne i inne relacje społeczne mogą odgrywać znacznie większą rolę, niż pośród większych i, w konsekwencji, bardziej zróżnicowanych grup. Stosunek lokalnej społeczności do dokumentacji jej języka może być naprawdę czynnikiem kluczowym dla sukcesu przedsięwzięcia. Należy na przykład uprzednio ustalić, czy w porządku jest, by obca osoba kręciła się po okolicy, fotografowała budynki, święte miejsca czy nagrywała rozmowy ludzi. Niektóre społeczności otwarcie zaznaczają, że trzeba zdobyć zgodę zanim zrobi się zdjęcie osobom, które do niej należą (zobacz na przykład [17]).

PYTANIE

Jakie mogą być powody, dla których społeczność może nie chcieć, by naukowcy z zewnątrz robili zdjęcia i kręcili filmy z udziałem osób, które do niej należą? Co można zrobić, by rozwiązać konflikt interesów pomiędzy naukowcami a społecznością językową?

Innym krokiem, który warto powziąć z wyprzedzeniem, jest zdecydowanie, jak organizować przyszły materiał badawczy – na przykład pomyśleć o sposobach przechowywania danych, tworzeniu kopii zapasowych i konwencjach nazywania plików. Robienie takich planów samo w sobie już stanowi przygotowanie do analizy danych, gdyż tego rodzaju decyzje pomogą później klasyfikować i opisywać materiał.

JAK PORZĄDKOWAĆ PLIKI/FOLDERY?

Jednym z kluczowych kroków w perspektywie pracy z dużą liczbą plików jest podjęcie decyzji co do konwencji ich nazywania. Pomyśl o elementach, które nazwy plików i folderów powinny zawierać. Na przykład:

data utworzenia (choć data przeważnie zakodowana jest w nagłówku pliku, wygodne może się okazać posiadanie daty również w jego nazwie)

informacja pozwalająca zidentyfikować osobę mówiącą w nagraniu

typ danych (styl mówienia, rejestr, otoczenie)

inne?

Jaka powinna być kolejność tych infromacji? Pamiętaj, że prawdopodobnie będziesz chcieć sortować swoje pliki według nazw. Aby skrócić nazwy plików, możesz używać skrótów czy kodów lub też ponazywać pliki wyłącznie numerami identyfikacyjnymi, a inne informacje zawrzeć w osobnym pliku informacyjnym.

W przypadku, gdy chcesz zdeponować swoje dane w repozytorium takim, jak choćby DoBeS [18], najlepiej wpierw odwiedzić jego stronę, zobaczyć, jakie są rekomendowane konwencje i użyć ich w swojej pracy – na przykład [19]

Z innymi standardami i formatami plików można się zapoznać na przykład przy pomocy[20].

Tam, gdzie celem nie jest tworzenie nowych danych, a do naszych potrzeb wystarczy posłużenie się już istniejącymi archiwami (np. digitalizacja materiałów historycznych czy transkrypcja starych nagrań), ważne będzie zachowanie oryginalnych konwencji i informacji związanych z materiałem źródłowym. Posiadanie tych informacji będzie bardzo cenne dla każdego, kto zechce dotrzeć do oryginalnej wersji materiału.

Sprzęt nagraniowy i przebieg nagrań

Zanim zdecydujesz się na jeden z wielu rodzajów urządzeń do nagrywania, aparatów, kamer, mikrofonów i dyktafonów, zastanów się nad parametrami, które dane urządzenie powinno posiadać, aby dobrze służyć Twoim potrzebom, jak również nad jego ceną. Wpływ na dobór sprzętu będzie miał również typ scenariusza nagrań, tryb nagrywania (audio/wideo), warunki, w których odbywać się będą sesje nagraniowe (“sesja” to termin używany przeważnie w odniesieniu do wszystkich czynności towarzyszących nagrywaniu), jak też charakterystyka osób, które mają być nagrywane: ich wiek, płeć, status społeczny itp. Istotne z technicznego punktu widzenia będzie to, czy sprzęt ma być używany stacjonarnie, czy też będzie potrzebny do wyjazdów terenowych. W tym drugim przypadku kluczowe będą parametry takie jak rozmiar i waga, możliwości zasilania, dostępność i typ baterii, ładowarki, odporność na wstrząsy itd. Urządzenia mogą mieć wbudowane mikrofony (tak jak w przypadku przenośnych dyktafonów) albo wymagać podłączenia kablem mikrofonu zewnętrznego.

ZADANIE

Pomyśl nad listą czynników, które będą miały wpływ na wybór sprzętu do pracy terenowej w następujących warunkach:

musisz dostać się samolotem do miejsca, gdzie przeprowadzisz nagrania;

twoim zadaniem jest dokumentacja języka używanego w dwóch wioskach położonych niedaleko od siebie, więc będziesz w stanie poruszać się pomiędzy nimi na rowerze (wożąc swój sprzęt);

będziesz mieć ograniczony dostęp do internetu i musisz 1) tworzyć kopie zapasowe danych w międzyczasie, 2) czasem wysyłać próbki swoich danych przez wolno działający internet.

Dynamic (left), condenser (middle), condenser head-mounted (right) microphones

Mikrofony: dynamiczny (po lewej), pojemnościowy (w środku), pojemnościowy nagłowny (po prawej). Zdjęcia: Maciej Karpiński.

Pod względem konstrukcji mikrofonów wyróżniamy dwa główne ich typy: mikrofony dynamiczne i pojemnościowe. Tych drugich często używa się w studiach radiowych i telewizyjnych. Są one wrażliwsze i mogą zebrać dużo więcej różnorodnych dźwięków – w tym najcichsze dźwięki w tle – niż mikrofony dynamiczne. Różnego rodzaju mikrofony pojemnościowe znajdziemy wbudowane w telefonach komórkowych i najtańszych dyktafonach, ale te są skonstruowane przy pomocy innych technologii, więc jakość dźwięku jest nieporównywalnie gorsza, niż w droższych modelach. Wszystkie mikrofony pojemnościowe wymagają dodatkowego źródła zasilania, co może przemawiać na niekorzyść tego typu mikrofonów w perspektywie pracy terenowej. Mikrofony dynamiczne nie wymagają dodatkowej dodatkowej energii, co sprawia, że ich użytkowanie jest prostsze. Co więcej, charakteryzuje je też niższa wrażliwość na dźwięki w tle – może to stanowić zaletę w przypadku, gdy sesje nagraniowe odbywają się w hałaśliwych miejscach. Mikrofony dynamiczne są bardzo praktyczne w nagrywaniu mowy, szczególnie wtedy, kiedy osoba mówi z niewielkiej odległości bezpośrednio do mikrofonu. Powszechnie mikrofonów dynamicznych używają piosenkarze podczas koncertów na żywo, natomiast mikrofony pojemnościowe wykorzystywane są do nagrywania partii wokalnych w komorach bezodbiciowych.

ZADANIE

Wymyśl 2-3 miejsca, w których mogą być przeprowadzone nagrania. Weź pod uwagę otoczenie i ilość osób, które mają wziąć udział w sesji. Jakiego typu mikrofonu użyjesz do każdego z nagrań?

Przetwarzanie i analiza danych

Krokiem, który przeważnie następuje po zebraniu danych jest stworzenie kopii danych w ich oryginalnej formie, bez modyfikacji. Kopie zapasowe można przechowywać na płytach CD i DVD, dyskach blu ray, lokalnych i zewnętrznych twardych dyskach czy na pamięci przenośnej typu USB albo karta pamięci. Kiedy upewnimy się, że kopie zapasowe mogą być bezpiecznie przechowywane, możemy przystąpić do analizy danych lub do ich dalszego przetwarzania.

Opisywanie danych to przeważnie proces składający się z zadań różnego typu. W przypadku opisu danych audio, zadania obejmować będą np. anotację nagrań, czyli ich uszeregowaną w czasie transkrypcję pozwalającą śledzić tekst i odsłuchać plik dźwiękowy po zakończeniu nagrywania – działa to podobnie do np. napisów w filmie. Dzięki anotacji możliwa jest później analiza konkretnych dźwięków mowy, sylab, słów czy jakichkolwiek innych fragmentów sygnału dźwiękowego (zob. obrazek poniżej). W zależności od potrzeb, anotacja może też zawierać inne informacje o nagraniu, takie jak: opis prozodii, schematy pauz, markery niezdecydowania, błędy w wymowie, indywidualne cechy mowy lub osoby mówiącej.

An example multilayer annotation of an audio file

Przykład wielowarstwowej anotacji pliku audio w programie Annotation Pro.

Obecnie dostępny jest szereg programów komputerowych do anotacji, z których wiele jest dostępnych bezpłatnie dla celów związanych z nauką i edukacją. Niektóre programy umożliwiają jedynie anotację plików audio, podczas gdy inne pozwalają również na anotowanie nagrań wideo (niektóre z takich programów znajdziesz na liście tutaj).

Przykład wielowarstwowej anotacji pliku wideo w programie Elan.

Jeśli chcesz przeprowadzić dokładniejszą analizę fonetyczną, warto wybrać narzędzie do anotacji pozwalające na tworzenie spektrogramów, które dadzą obraz twojego pliku dźwiękowego (zobacz w rozdziale 4, szczególnie w sekcji o widzialnym dźwięku). Z reguły nagrania najpierw transkrybuje się ortograficzne (w systemie pisma obowiązującym dla danego języka – o ile język ma standard zapisu), a następnie fonetycznie. Międzynarodowy Alfabet Fonetyczny (IPA) [21] umożliwia dokładną transkrypcję mowy. Dla potrzeb przetwarzania komputerowego stosuje się także alfabet fonetyczny SAMPA (alfabet fonetyczny do zastosowań komputerowych) [22]. SAMPA zawdzięcza swą popularność m.in. temu, że nie używa żadnych specjalnych czcionek poza tymi, które dostępne są w łacińskiej klawiaturze komputerowej. Dla dużych języków łatwo da się znaleźć narzędzia pozwalające zautomatyzować prace nad anotacją i transkrypcją (np. GTP, czyli konwerter “grapheme-to-phoneme”, który dokonuje automatycznej transformacji tekstów na transkrypty fonetyczne; ASR, czyli narzędzie do automatycznego rozpoznawania mowy). Znalezienie podobnych narzędzi, które pozwalałyby usprawnić pracę nad materiałem z języków zagrożonych jest dużo trudniejsze, ale nie zupełnie niemożliwe: zobacz w rozdziale 4, w sekcji ‘Małe języki a technologia’.

Choć alfabety fonetyczne najlepiej sprawdzają się w zadaniach związanych z transkrypcją mowy, trzeba zaznaczyć, że w niektórych przypadkach bardziej odpowiednie będzie użycie transliteracji (czyli konwersji tekstu z jednego systemu pisma na drugi, np. zapisanie alfabetem łacińskim tekstu, który w oryginale napisano cyrylicą) lub pseudo-fonetycznej transkrypcji, która może być uboższa o niektóre szczegóły, ale za to będzie bardziej przystępna dla osób niebędących specjalistami od fonetyki. Rozwiązania tego typu stosuje się do tworzenia korpusów językowych i słowników przeznaczonych zarówno dla naukowców, jak i dla społeczności użytkowników języka.

An example record from the Polish Heritage Database: transliteration, orthographic script, English translation, and phonetic transcription for a text in Polish Yiddish (find more at: inne-jezyki.amu.edu.pl/)

Przykład materiału z bazy Dziedzictwa Językowego Rzeczypospolitej: transliteracja, zapis ortograficzny, tłumaczenie na angielski i transkrypcja fonetyczna tekstu w języku polskim i jidysz (więcej znajdziesz pod adresem: inne-jezyki.amu.edu.pl/)

Przykładowe archiwa internetowe dla języków zagrożonych

Jednym z najważniejszych archiwów języków zagrożonych jest Archiwum DoBeS (Dokumentation Bedrohter Sprachen) dobes.mpi.nl/ – internetowa baza danych obejmująca kompleksową dokumentację wielu zagrożonych języków. Nadzór nad DoBeS sprawuje The Language Archive (TLA) zlokalizowane w Instytucie Psycholingwistyki Maxa Plancka w Nijmegen (Holandia). Przedsięwzięcie polega nie tylko na archiwizowaniu danych i metadanych z języków zagrożonych, ale też na rozwijaniu narzędzi do archiwizacji i opisu językowego oraz metod dokumentacji. Innym wartym odnotowania przykładem jest ELAR [23] zlokalizowany w Londynie w School of Oriental and African Studies (SOAS). Jest to archiwum, które także specjalizuje się w przechowywaniu i publikowaniu materiałów z dokumentacji języków zagrożonych. Oba te archiwa, poza dostarczaniem danych i informacji o zagrożonych językach, oferują możliwość deponowania twoich własnych danych na swoich serwerach.

Zasady regulujące dostęp do danych w repozytoriach językowych często określone są indywidualnie dla każdego archiwum. Niektóre partie danych są dostępne publicznie wszystkim użytkownikom, podczas gdy dla innych mają zastosowanie różnego rodzaju ograniczenia. Na przykład aby zdobyć niektóre dane będziesz musiał(a) skontaktować się z osobą, która je zdeponowała i uzyskać indywidualną zgodę lub też wyjaśnić przedstawicielowi archiwum, do jakich celów potrzebny będzie materiał, zanim pobierzesz nagrania. Procedury te wydają się skomplikowane, ale kiedy zdamy sobie sprawę, że dane z języków zagrożonych to tak naprawdę część czyjegoś codziennego życia i dziedzictwa kulturowego społeczności (co już było podkreślane w tym rozdziale), a nie tylko “wyrazy i zdania”, stanie się jasne, że stosowanie tego rodzaju obostrzeń jest jak najbardziej zasadne.

ZADANIE

DoBeS to program, który od roku 2000 pozwolił na sfinansowanie projektów dokumentacyjnych wielu języków. Znajdź listę tych projektów tutaj: dobes.mpi.nl/projects. Wybierz trzy projekty z listy i odpowiedz na pytania:

Jakie były główne cele projektów? Jacy naukowcy, poza językoznawcami, byli zaangażowani w dokumentację lub mogliby być zainteresowani zebranymi w jej wyniku danymi?

Ilu członków lokalnych społeczności było zaangażowanych w każdy projekt?

Jakiego rodzaju dane zebrano? Jak je zbierano, przetwarzano i przechowywano?

Ciekawym przykładem strony internetowej poświęconej różnorodności językowej i językom zagrożonym jest strona programu SOROSORO [24]. Strona porusza tematy takie jak m.in. wsparcie dla rdzennych społeczności i można się przy jej pomocy uczyć o zbieraniu, digitalizacji i opisie danych. Cel informowania i przekazywania wiedzy o językach zagrożonych z całego świata przyświeca także projektowi Endangered Languages [25]. Przykładem z naszego rodzimego, polskiego podwórka jest strona Dziedzictwo Językowe Rzeczypospolitej [6] stworzona dla języków zagrożonych historycznie używanych w Europie Środkowo-Wschodniej, na terenach niegdyś leżących w Rzeczypospolitej Obojga Narodów, a obecnie należących do kilku różnych krajów: Polski, Litwy, Łotwy, Białorusi i Ukrainy. Strona została stworzona tak, aby mogli z niej korzystać zarówno naukowcy, jak i użytkownicy poszczególnych języków czy jakiekolwiek zainteresowane tymi językami osoby.

ZADANIE: WYSZUKIWANIE INFORMACJI W BAZIE DANYCH

Odwiedź jakąś internetową bazę danych o językach i przeszukaj ją pod kątem języków zagrożonych używanych obecnie lub dawniej w twojej części świata. Zwróć uwagę na to, jakiego typu informacje zawiera (opis mówców, kultury, geografii, zasoby dźwiękowe czy tekstowe języka).

Możesz srpróbować z następującymi stronami: dobes.mpi.nl/projects, www.endangeredlanguages.com, www.sorosoro.org/, inne-jezyki.amu.edu.pl

Czy znalezienie informacji było łatwe? Na jakiego rodzaju problemy się natknąłeś/natknęłaś?

Czy znalazłaś/znalazłeś inne tego rodzaju bazy?

Problemy prawne i etyczne

Jedno z głównych obostrzeń regulujących użytkowanie i rozpowszechnianie zasobów językowych będzie dotyczyło ochrony danych prywatnych. Inne tego rodzaju restrykcje są motywowane kwestiami kulturowymi, etycznymi, społecznymi czy religijnymi, specyficznymi dla danej społeczności językowej. Należy pamiętać, że aby używać danych, a szczególnie by je publikować, przeważnie należy najpierw uzyskać oficjalną zgodę osób, które się w nich pojawiają. Dla nagrań języka mówionego przeważnie wystarcza pisemna zgoda każdego uczestnika rozmowy. Za każdym razem należy się jednak upewnić co do obowiązujących nas regulacji prawnych, zwłaszcza, że mogą one się różnić między poszczególnymi krajami. Na przykład nagrywanie rozmów telefonicznych (nawet własnych) bez wyraźnej zgody wszystkich jej uczestników jest w wielu krajach nielegalne (np. w Niemczech), gdzie indziej wymaga ono zgody tylko jednej ze stron (wybrane stany w USA) lub też nie istnieją żadne przepisy regulujące tę kwestię, tak więc nagrywanie jest dozwolone (Łotwa).

ĆWICZENIE

Przeszukaj internet i znajdź odpowiedzi na poniższe pytania prawdziwe dla twojego kraju:

Czy legalne jest nagrywanie swojej prywatnej rozmowy telefonicznej z inną osobą?

Czy legalne jest używanie (np. jako dowód w sądzie) nagrania swojej prywatnej rozmowy telefonicznej z inną osobą?

Jakie są ograniczenia (jeśli w ogóle takie są)?

W praktyce osoby mówiące w nagraniu proszone są o wyrażenie zgody na udział w nagraniu, na używanie nagrań do konkretnych celów, i wreszcie – na ich publikację. Najczęściej zgodę wyraża się w formie pisemnej (w przypadku nagrań audio można ją też osobno nagrać w formie ustnej i przechować razem z pozostałymi danymi).

PORADA: ZGODA NA NAGRANIE AUDIO/WIDEOTekst zgody powinien być jasny i wolny od specjalistycznej terminologii. Sporządź tekst tak, żeby podpisując zgodę, uczestnik nagrania:

potwierdzał, że dobrowolnie zgadza się na udział w sesji nagraniowej;

mógł wyrazić osobną zgodę na:

nagrywanie we wszystkich trybach (audio / wideo);
użycie danych do celów badawczych;
publikację danych;
archiwizację danych.

Pomyśl nad stworzeniem dwóch kopii formularza dla siebie i osoby, która ma być nagrywana.
Pamiętaj o podpisach!

W przypadku niektórych społeczności zgoda na udział w nagraniach nie będzie przedmiotem indywidualnej decyzji danej osoby, a raczej kwestią ogólnej ‘polityki’ wynikającej ze zwyczajów i stosunku całej społeczności do takich przedsięwzięć. Osobom prowadzącym prace dokumentacyjne powinno zależeć na utrzymaniu dobrych stosunków z członkami społeczności – zarówno w trakcie właściwej pracy w terenie, jak też przed (na etapie planowania) i po jej wykonaniu (kiedy dane będą przetwarzane, systematyzowane i analizowane). Ta zasada tyczy się także wyboru sposobu archiwizacji i metod ewentualnego rozpowszechniania danych.

DO PRZEMYŚLENIA

Wyobraź sobie, że dowiedziałaś/dowiedziałeś się właśnie o istnieniu lokalnego zagrożonego dialektu lub języka i chcesz wziąć udział w pracach nad jego dokumentacją i rewitalizacją. Jakie będą pierwsze kroki, które podejmiesz w tym celu? Najpierw pomyśl nad swoimi odpowiedziami, a potem przejdź do sekcji Co możesz zrobić – Zostań językoznawcą i zobacz, jak inni młodzi ludzie pracują nad dokumentacją języków.

Zainteresowani czytelnicy mogą przeczytać więcej o danych, korpusach i bazach danych w Załączniku 2 do tego rozdziału. Znajdują się tam też bardziej szczegółowe informacje na temat formatów i struktury danych, rozpowszechniania i wymiany informacji, jak też i więcej przykładów pokazujących, jak projektuje się i rozwija zasoby językowe.

Załączniki: więcej o historii nagrywania dźwięku, formatach i strukturach danych

Więcej szczegółowych informacji na temat niektórych kwestii związanych z dokumentacją języków znajdziesz w dwóch załącznikach do tego rozdziału:

Załącznik 1: Historia nagrywania, reprodukcji i przechowywania dźwięku: wybrane fakty. Przeczytaj TUTAJ
Załącznik 2: Formaty i struktury danych. Przeczytaj TUTAJ

Sprawdź się!

Sekcja Sprawdź się! – Rozdział 10. Zobacz, ile już wiesz lub czego możesz się jeszcze dowiedzieć z Księgi Wiedzy Języków w Niebezpieczeństwie!

Przypisy i bibliografia
[1] Seifart, F. (2011). Competing motivations for documenting endangered languages. W: Haig, G.L.J., Nau, N., Schnell, S., Wegener, C. (red.) Documenting endangered languages. Trends in Linguistics, De Gruyter Mouton.
[2] The Linguists: www.pbs.org/thelinguists
[3] Himmelmann, N. P. (1998). Documentary and descriptive linguistics. Linguistics 36:161-195.
(online: http://ifl.phil-fak.uni-koeln.de/fileadmin/linguistik/asw/pdf/Publis/1998a.pdf)
[4] Himmelmann, N. P. (2006). Language documentation: What is it and what is it good for? W: Essentials of Language Documentation, Gippert, J., Himmelmann, N. P., Mosel, U. (red.), Trends in Linguistics, Studies and Monographs 178:1-30. Mouton de Gruyter, Berlin – New York.
[5] Lüpke, F. (2010). Research methods in language documentation. Language Documentation and Description, 7, 55-104.
[6] Strona projektu Dziedzictwo Językowe Rzeczypospolitej: inne-jezyki.amu.edu.pl
[6b] Strona projektu Dziedzictwo Językowe Rzeczypospolitej (nagranie języka hałcnowskiego): inne-jezyki.amu.edu.pl/Frontend/TextSource/Details/40
[7] Labov, W. (1972). Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press, p. 209.
[8] Korpus języka mówionego Uniwersytetu w Kilonii http://www.isfas.uni-kiel.de/de/linguistik/forschung/das_kiel_korpus
[9] Campbell, N. (2002). The recording of emotional speech: JST/CREST database research. Proceedings of Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
[10] Himmelmann, N. P. (2012). Linguistic Data Types and the Interface between Language Documentation and Description. In Language Documentation & Conservation Vol. 6 (2012), pp. 187-207.
[11] Story Builder: http://www.story-builder.ca/
[12] http://fieldmanuals.mpi.nl/
[13] Bowerman, M., Pederson, E. (1992). Topological relations picture series. W: Stephen C. Levinson (red.), Space stimuli kit 1.2: November 1992, 51. Nijmegen: Max Planck Institute for Psycholinguistics.
[14] Historia o brzoskwiniach: http://www.pearstories.org/docu/ThePearStories.htm
[15] Klessa, K., Wagner, A., Oleśkowicz-Popiel, M., Karpiński, M. (2013). “Paralingua – a new speech corpus for the studies of paralinguistic features”, w: Vargas-Sierra, Ch. (red.), Corpus Resources for Descriptive and Applied Studies. Current Challenges and Future Directions, Procedia – Social and Behavioral Science 95. (48-58), 2013.
[16] Podręcznik IPA: https://www.langsci.ucl.ac.uk/ipa/handbook.html
[17] Rosyjscy nowoobrzędowcy: http://www.alaska.org/detail/russian-old-believer-communities
[18] Projekt DoBsS: http://dobes.mpi.nl/
[19] DoBeS – sekcja poświęcona deponowaniu danych: http://dobes.mpi.nl/deposit-your-data/
[20] Gibbon, D., Moore, R., & Winski, R. (red.). (1997). Handbook of standards and resources for spoken language systems. Walter de Gruyter. Dostępne online na: http://sldr.org/SLDR_data/Disk0/preview/000836/?lang=en
[21] Diagram z alfabetem IPA: http://www.langsci.ucl.ac.uk/ipa/ipachart.html
[22] Alfabet SAMPA: http://www.phon.ucl.ac.uk/home/sampa/
[23] archiwum The Endangered Languages Archive stworzone przez SOAS (Londyn, Wielka Brytania) http://elar.soas.ac.uk/
[24] Strona programu SOROSORO http://www.sorosoro.org/
[25] Strona Endangered Languages: http://www.endangeredlanguages.com/

Użyteczne linki

O dokumentacji języków:

DOBES (Dokumentation Bedrohter Sprachen) – http://dobes.mpi.nl/
Podręczniki pracy terenowej i materiały stymulujące L&C – http://fieldmanuals.mpi.nl/
SOAS (School of Oriental and African Studies Uniwersytetu w Londynie) – http://www.soas.ac.uk/
Projekt Endangered Languages – http://www.endangeredlanguages.com/
Endangered Languages Documentation Programme (ELDP) – http://www.hrelp.org/
SOROSORO – http://www.sorosoro.org/
Dziedzictwo Językowe Rzeczypospolitej – http://inne-jezyki.amu.edu.pl

Narzędzia do anotacji mowy:

– do anotacji plików audio i video:

Elan – http://tla.mpi.nl/tools/tla-tools/elan/
Anvil – http://www.anvil-software.org/

– do anotacji i analizy fonetycznej plików audio (w tym tworzenia spektrogramów):

Praat – http://www.praat.org/
Wavesurfer – http://sourceforge.net/projects/wavesurfer/
Annotation Pro – http://annotationpro.org/

Tłumaczenie rozdziału z angielskiego: Radosław Wójtowicz.