Dźwięki mowy

Home > Księga Wiedzy > Dźwięki mowy

Księga wiedzy

Rozdziały: 1 2 3 4 5 6 7 8 9 10

Lista języków wzmiankowanych w Księdze Wiedzy i w innych działach strony.

POBIERZ PDF: Języki w niebezpieczeństwie: księga wiedzy: Wydanie I (2016).

Sprawdź się!

Sekcja Sprawdź się! – Rozdział 4. Zobacz, ile już wiesz lub czego możesz się jeszcze dowiedzieć z Księgi Wiedzy Języków w Niebezpieczeństwie!

Ćwiczenia fonetyczne

Chciał(a)byś zapoznać się bliżej z dźwiękami różnych języków i spróbować fonetyki w praktyce? Zajrzyj tutaj: Ćwiczenia fonetyczne.

Autor rozdziału: Maciej Karpiński

Spis treści rozdziału:

Różne języki, różne dźwięki
Różne dźwięki, różna artykulacja
Dziwne dźwięki dziwnych języków
Klasy dźwięków: fonemy
Ton i intonacja
Akcent i rytm
Archiwizacja i rekonstrukcja systemów dźwiękowych języków
Jak zapisać dźwięki języka?
Widzialny dźwięk
Małe języki a technologia
Przypisy
Dowiedz się więcej

Różne języki, różne dźwięki

Często mówimy, że języki „różnią się brzmieniem” lub „melodią”. Co to oznacza? Większość z nas dopiero ucząc się świadomie pierwszego języka obcego zauważa, że pojawiają się w nim dźwięki całkowicie różne i wydobywane zupełnie inaczej niż te znane z pierwszego języka. Niekiedy, natomiast można natknąć się na dźwięki podobne do tych znanych z języka rodzimego, lecz różniące się od nich pozornie drobnym, lecz – jak się może okazać – bardzo istotnym szczegółem. Nie można ich po prostu zastąpić podobnymi dźwiękami z naszego rodzimego języka, gdyż zmieni to znaczenie wyrazu lub wypowiedzi, a nawet sprawi, że stanie się ona niezrozumiała. Ich prawidłowe wymówienie bywa trudne i wymaga żmudnych ćwiczeń. Jednak to dopiero początek problemów. Można się spotkać z sytuacją, w której kilka dźwięków różnych z perspektywy rodzimego mówcy danego języka dla nas będzie brzmiało niemal identycznie i zarazem łudząco podobnie do jednego z dźwięków naszego języka. Chociaż świadomość tych zjawisk rośnie wraz z nauką kolejnych języków obcych, niewielu zdaje sobie sprawę, jak niezwykle zróżnicowane mogą być dźwięki języków świata.

Różne dźwięki, różna artykulacja

Różnice w brzmieniu dźwięków mowy wynikają z różnic w sposobie artykulacji – sposobie ich wydobywania. Mówiąc w języku rodzimym lub w języku doskonale znanym, nie zastanawiamy się nad sposobem ułożenia ust, języka ani ewentualnym zamknięciem przepływu powietrza przez jamę nosową. Artykulacja w pełni świadoma byłaby zbyt powolna. Świadomie możemy kontrolować położenie tylko niektórych elementów toru głosowego (zob. rysunek poniżej), lecz i tak daje to ogromną rozpiętość możliwych do wydobycia dźwięków. Możemy to zaobserwować nie tylko w mowie, ale – być może w jeszcze większym stopniu – również w śpiewie. Każdy z języków naturalnych zadowala się jedynie niewielką częścią tego potencjału i poprzestaje zwykle na kilkudziesięciu istotnie różnych dla jego mówców dźwiękach-cegiełkach, z których budowane są wypowiedzi.

Tor głosowy w przekroju strzałkowym

O dźwięczności i wysokości głosu decydują przede wszystkim fałdy głosowe. Udział fałdów głosowych w artykulacji określa się terminem „fonacja”. Można odczuć ich drgania, przykładając palce z przodu do szyi na wysokości jabłka Adama (mają je również – choć mniejsze – kobiety). Cała reszta toru głosowego – jego budowa i kształt charakterystyczny dla danej osoby, jak i jego świadome lub automatyczne zmiany w czasie artykulacji – decyduje o formowaniu brzmienia dźwięku. Dźwięki powstające w otwartym dla przepływu powietrza torze głosowym to samogłoski. Jeśli tor głosowy zostaje w czasie artykulacji na chwilę w znacznym stopniu lub całkowicie zamknięty (np. język dotknie podniebienia, zamkną się usta), powstaje spółgłoska. Głoski z pogranicza, artykułowane przy zwężonym miejscowo torze głosowym, pozostające jakby „niedokończonymi spółgłoskami”, określa się mianem aproksymantów/półsamogłosek (np. w języku polskim dźwięki symbolizowane przez litery < ł > i < j >, zaś w alfabecie fonetycznym Międzynarowowego Towarzystwa Fonetycznego (International Phonetic Association), służącym do precyzyjniejszego notowania brzemienia wypowiedzi, zapisywane jako /w/ i /j/ (pochyłe nawiasy sygnalizują tzw. „transkrypcję szeroką”, zob. niżej)

Dziwne dźwięki dziwnych języków

Oczywiście, „dziwny” jest tutaj określeniem, które należy traktować z przymrużeniem oka i rozumieć przede wszystkim jako „rzadko spotykany”. Czytelnikom tego tekstu będą prawdopodobnie znane przede wszystkim duże języki europejskie, więc można przypuszczać, iż niektóre zjawiska artykulacyjne lub dźwięki języków Azji lub Afryki mogą się wydać bardzo odmienne od tego, z czym w języku mają do czynienia na co dzień.

Często przyjmuje się, że samogłoski to segmenty dźwięczne, gdyż tak jest w największych językach Europy. Jednakże, mówiąc szeptem, można ubezdźwięcznić samogłoski tych języków, przy czym pozostaną one zrozumiałe i wzajemnie odróżnialne. To sytuacja w pewnym sensie wyjątkowa. „Systemowo bezdźwięczne” samogłoski spotyka się w językach Indian takich, jak zuni [1], czejeński [2] lub w językach z rodziny totonakan w Meksyku. Tak zwana „laryngalizacja” może być przez nas postrzegana jako specyficzna, „chrypiąca” barwa głosu, pojawiająca się szczególnie w końcówkach wypowiedzi, kiedy to spada energia wydychanego powietrza i fałdy głosowe zaczynają drżeć nieregularnie. Istnieją jednak języki takie, jak np. kedang (język austronezyjski, którym mówi się w Indonezji) lub dżalapa mazatek, używany w Meksyku, w których owo „chrypienie” stanowi istotną cechę głoski. Podczas gdy przydechowość spółgłosek to cecha stosunkowo popularna, obecna w wielu językach świata, to występująca w dżalapa mazatek lub w gudżarati [3] przydechowość samogłosek pozostaje cechą względnie rzadką.

SPRÓBUJ SAM

Aby wydobyć dźwięk z przydechem (zwanym też aspiracją), wypowiedz dowolną spółgłoskę, starając się jednocześnie wydychać powietrze. Tutaj znajdziesz szczegółowe instrukcje:

https://www.youtube.com/watch?v=WC1k1JWLz2E

A oto przykład tego, jak przydech funkcjonuje w konkretnym języku:

https://www.youtube.com/watch?v=MRzZ2VDr6go

***

Żeby wydobyć dźwięk z laryngalizacją, spróbuj długo wymawiać wybraną samogłoskę, starając się coraz wolniej wydychać powietrze – aż poczujesz (i usłyszysz), że fałdy głosowe zaczynają wibrować nieregularnie, a głos staje się chrapliwy.

Gdy mowa o rzadkich dźwiękach, często wymienia się mlaski (clicks). Występują one przede wszystkim w Południowej Afryce, lecz znane są również z rytualnego języka damin, używanego w Australii.

SPRÓBUJ SAM

Poniższy film demonstruje cztery mlaski, występujące w języku khoekhoegowab [4]:

http://www.youtube.com/watch?v=Nz44WiTVJww

Spróbuj wydobyć te dźwięki. W izolacji jest to łatwe, ale w ciągłej wypowiedzi znacznie trudniejsze. Oczywiście, nie dla rodzimych mówców, którym mlaski nie przeszkadzają nawet w śpiewaniu.

Miriam Makeba, piosenkarka pochodzący z Afryki Południowej, rozpowszechniła wiedzę o mlaskach dzięki swojej piosence w języku xhosa [5]. Prawdziwym tytułem piosenki jest „Qongqothwane”, ale poza Afryką jest znana jako „Piosenka mlasków” („The Click Song”).

MLASKI W JĘZYKU XHOSA

Tutaj możesz obejrzeć występ wraz z krótką przedmową w wykonaniu artystki.

W zapisie opartym na alfabecie łacińskim, mlask może być oznaczany np. wykrzyknikiem (zob. przykłady w kolejnej sekcji).

Zajrzyj na Interaktywną Mapę i spróbuj rozwiązać ćwiczenia dla języków taa i ǂakhoe haiǁom.

Klasy dźwięków: fonemy

Jak widać, każdy język może dysponować innym zbiorem dźwięków, a w ich rozróżnianiu mogą być ważne różne cechy. Tradycyjna metoda ustalania inwentarza dźwięków języka naturalnego opiera się na obserwowaniu kontekstów ich występowania i wpływu, jaki mają na znaczenia. Poszukuje się tak zwanych par minimalnych, czyli par wyrazów, które różnią się tylko jednym dźwiękiem, i jest to różnica sprowadzająca się do zaledwie jednej cechy tego dźwięku, np. dama i tama (o szczegółach mowa poniżej). Ten sam rodzaj różnicy między dźwiękami (fonami) może być w jednym języku istotny i umożliwiać rozróżnianie klas dźwięków, w innym zaś nie. Jeśli okazuje się, że zmiana pewnej cechy jednej z głosek w danym wyrazie sprawia, że zmienia on znaczenie (staje się innym wyrazem), można powiedzieć, że ten rodzaj cechy jest istotny fonologicznie, i że te dwa dźwięki (pierwotny i zmieniony) należą do różnych klas – różnych fonemów. Cechy pozwalające rozróżniać dźwięki danego języka mogą należeć do różnych wymiarów, związanych z miejscem i sposobem artykulacji, albo z cechami brzmienia – jeśli patrzeć na nie od strony akustycznej. Cechą taką może być na przykład dźwięczność, stanowiąca cechę dystynktywną w wielu językach świata. W języku polskim wyrazy dama i tama zaczynają się od fonemów różniących się jedną cechą: dźwięcznością. Obecność tej cechy (lub jej brak) decyduje o znaczeniu wyrazu. W niektórych językach cechą dystynktywną może być iloczas, czyli czas trwania dźwięku. Najczęściej mamy do czynienia z długimi i krótkimi samogłoskami (np. w języku hindi). Dwa wyrazy mogą mieć różne znaczenia tylko dlatego, że różnią się długością jednej z samogłosek (np. niem. raten ‘radzić’ i Ratten ‘szczury’, ang. beat vs. bit – chociaż wnikliwy słuchacz zauważy, że w tych przypadkach zachodzi także pewna zmiana barwy głoski). Zdarzają się również języki, w których istotne są różnice w iloczasie spółgłosek. W języku polskim iloczas jest istotny, między innymi, dla zrozumiałości oraz dla ekspresywnej wartości wypowiedzi (coooo?). Jednak wydłużanie lub skracanie segmentów nie przekłada się na zmianę znaczenia leksykalnego wyrazu (coooo = co: = co – w transkrypcji wydłużenie często oznacza się dwukropkiem).

System fonologiczny to abstrakcyjny system, który funkcjonuje w ludzkim umyśle i zawiera informacje (między innymi) o inwentarzu dźwięków danego języka. Jego jednostkami są wspomniane wyżej fonemy. Fonem jest jednostką, która może różnicować znaczenie, chociaż sama go nie niesie. Fonemy nie posiadają znaczenia w rozumieniu takim, w jakim posiadają je wyrazy lub zdania. Języki mogą się bardzo różnić pod względem ich liczby, która sięga od kilkunastu dla języków takich jak rotokas [6], piraha [7] lub ajnuski [8], do więcej niż stu w językach grupy khoisan w Południowej Afryce jak np. taa (zwany też !xóõ lub !xuun; wykrzyknik oznacza jeden z rodzajów mlasków). Znaczny inwentarz fonemów posiada język irlandzki – 69 [9]. Zazwyczaj jednak liczba fonemów w językach naturalnych mieści się między 20 a 60.

Dowiedz się więcej

Dowiedz się więcej o inwentarzach fonetycznych różnych języków świata dzięki World Atlas of Language Structure w rozdziale 1 oraz rozdziale 2 napisanym przez językoznawcę Iana Maddiesona.

Fonemy dzieli się tradycyjnie na samogłoskowe i spółgłoskowe. Ale istnieją również takie, które leżą gdzieś pośrodku (aproksymanty/półsamogłoski). Najczęściej liczba fonemów spółgłoskowych jest znacznie wyższa od samogłoskowych (jak np. w języku polskim lub niemieckim). Do wyjątków należą języki takie jak markiski (grupa dialektów środkowo-wschodniej Polinezji), w których liczba fonemów spółgłoskowych i samogłoskowych jest porównywalna. Na stronie projektu dokumentacji języka markiskiego można odsłuchać kilka próbek tego języka (m.in. przepis na ośmiornicę na krucho). W wymarłym już języku ubyskim (język północno-zachodniokaukaski – jego ostatni rodzimy użytkownik umarł w roku 1992) językoznawcy doliczyli się aż 82 fonemów spółgłoskowych i tylko dwóch samogłoskowych. Jednak otoczenie spółgłoskowe samogłosek wywiera wyraźny wpływ na ich realizację, więc te dwie samogłoski mogły w różnych kontekstach różnić się brzmieniem. Za język o największej liczbie fonemów samogłoskowych uznaje się taa, który (w jednym z jego dialektów) zawiera ich 31.

Językoznawcy uważają, że w umyśle człowieka istnieje skomplikowany system, który zawiera informacje o jednostkach języka, i określają go mianem „leksykonu umysłowego”, chociaż jego funkcjonowanie i budowa bardzo różnią go od zwykłego słownika. Można umownie przyjąć, że każdy wyraz o znanej danemu człowiekowi wymowie ma w jego leksykonie umysłowym reprezentację w postaci zapisu fonematycznego, a więc jest tam przedstawiony jako sekwencja fonemów. Wymawiając go, „realizujemy” poszczególne fonemy – z abstrakcyjnych zbiorów cech stają się one konkretnymi, fizycznie istniejącymi i dostępnymi dla percepcji dźwiękami – fonami. Jednak przełożenie sekwencji fonemów na sekwencję fonów nie jest procesem prostym. W jego trakcie dochodzi do wielu zjawisk, które sprawiają, że – zależnie od kontekstu i innych czynników – ten sam wyraz może być wypowiadany nieco inaczej, a fonemy składające się na jego reprezentację fonematyczną, być realizowane (np. pod wpływem sąsiedztwa) na różne sposoby. Przy tym może on nadal w sensie znaczenia leksykalnego pozostawać tą samą jednostką.

System dźwiękowy języka to nie tylko abstrakcyjny zestaw fonemów i „przepisów” na ich realizację w konkretnych kontekstach. To również zbiór reguł fonotaktycznych, które określają dopuszczalne sekwencje dźwięków. W wielu językach obserwujemy skłonność do rozdzielania sąsiadujących spółgłosek samogłoskami. W niektórych są jednak dopuszczalne niezwykle złożone zbitki spółgłoskowe (polskie pstryknąć /pstrɨknɔw̃ʨ̑/ lub czeskie čtvrtek /ʨ̑tvrtek/), których pojawienie się np. w wypowiedzi w języku angielskim od razu wydałoby się podejrzane jego rodzimym użytkownikom. Konsekwencją tego ograniczenia jest to, że inwentarz możliwych sylab danego języka nie da się automatycznie wyliczyć jako liczba możliwych zestawień par, trójek, itd., jego fonemów. Jest ona od tej hipotetycznej liczby znacznie mniejsza.

ĆWICZENIE

Spróbuj wypisać wszystkie dźwięki języka polskiego. Nie sugeruj się systemem pisma i dostępną liczbą liter. Czy jakieś pary lub trójki tych dźwięków jeden po drugim są niemożliwe?

Ton i intonacja

Prócz wymienionych do tej pory cech brzmienia, istnieją jednak jeszcze inne elementy systemu dźwiękowego, które w pewnych językach wpływają na znaczenie. W językach tonalnych każda sylaba jest realizowana z określoną melodią – tonem. Zmiana tej melodii może spowodować zmianę znaczenia wyrazu, w skład którego wchodzi dana sylaba (oczywiście, może to być wyraz złożony tylko z tej jednej sylaby). Jeśli w danym języku ton sylaby może zmieniać leksykalne znaczenie wyrazu, to mamy do czynienia z tzw. tonem leksykalnym.

W popularnych tekstach o językach tonalnych często natkniemy się na poniższy przykład, pochodzący z języka mandaryńskiego (jednego z głównych języków Chin). Sekwencja dźwięków /ma/ może się stawać różnymi wyrazami, w zależności od tonu, z jakim zostanie wypowiedziana:

mā 媽 matka (ton równy)
má 麻 konopie (ton wznoszący)
mǎ 馬 koń (ton opadająco-wznoszący)
mà 罵 przeklinać (ton opadający)

Gdy mowa o tonalności, często podaje się właśnie przykłady języków Azji Południowo-Wschodniej (mandaryński, wietnamski, tajski, i inne). Tymczasem kontynentami bogatymi w języki tonalne są również Ameryka Północna oraz Afryka (szczególnie zaś środkowo-zachodnia część tego kontynentu). Ton leksykalny funkcjonuje np. w języku jaka (język z grupy języków bantu rodziny języków nigero kongijskich, pochodzący z Azji Środkowej):

mbókà – wioska
mbòká – pola
mbóká – cyweta (ssak z rodziny łaszowatych)

(Przykład zaczerpnięty z pracy Kutsch Lojenga z roku 2011.)

Językiem tonalnym pochodzącym z Ameryki Północnej jest czirokeski [10]. Przyjmuje się, że standardowo funkcjonują w nim cztery tony:

Zgodnie z niektórymi badaczami, obserwujemy obecnie stopniowy zanik tonu w tym języku.

W Afryce można zetknąć się z językami, w których ton (a więc melodia realizowana w obrębie sylaby) może zmienić różne aspekty znaczenia wypowiedzi, np. czas gramatyczny. Oto jak ton gramatyczny działa w języku ngiti, używanym w Demokratycznej Republice Konga:

ma màkpěnà ‘gwizdałem’ (nieodległa przeszłość)
ma mákpěná ‘gwizdałem’ (średnio odległa przeszłość)
ma makpéna ‘będę gwizdał’ (bliska przyszłość)
ma makpénà ‘zwykłem byłem gwizdać’ (czynność wykonywana regularnie w przeszłości)

(Do reprezentacji tonów wykorzystano znaki diakrytyczne w następujący sposób: á – ton wysoki, à – ton niski, a – ton średni, ǎ – ton wznoszący)

(Przykład zaczerpnięty z tekstu Kutsch Lojenga z roku 1994.)

Fonacja niemodalna („niestandardowa”, tj. nie oparta na regularnych drganiach fałdów głosowych) pociąga za sobą problem z ustaleniem przez mówcę wysokości głosu i jej zmian, a więc i problem z ewentualną identyfikacją kategorii tonu, w językach, w których występują te dwa zjawiska (ton i fonacje niemodalne), kontrasty między nimi rzadko nakładają się.

Duża część języków europejskich to języki intonacyjne. Tutaj zmiana melodii wyrazu nie zmienia jego podstawowego, leksykalnego znaczenia, ale może np. wyrazić pewne emocje lub ocenę mówcy. Melodia zdania może wskazywać na jego kategorię (np. czy jest to stwierdzenie, czy też pytanie). Języki tonalne też zawierają pewne elementy intonacji, ale – chociaż dyskusje na ten temat nadal trwają – najczęściej musi być ona podporządkowana tonowi. Do rzadkości należą języki „hybrydowe” (jak np. czirokeski), w których akcent realizowany intonacyjnie współwystępuje z tonem leksykalnym.

PYTANIE

Czy język polski jest tonalny czy intonacyjny? Czy myślisz, że to możliwe, że jeśli obecnie jest intonacyjny, kiedyś mógł być tonalny? A odwrotnie?

Akcent i rytm

Sylabizowanie nie stanowi dla nas większego problemu, chociaż czasami intuicyjne podziały na sylaby okazują się niezgodne z zalecanymi przez normy dla danego języka. Dla lingwisty sylaba pozostaje jednostką trudną do zdefiniowania. Rodzimy mówca danego języka stosunkowo łatwo dostrzega w wypowiedzi, że pewne jej sylaby są bardziej „donośne” lub „prominentne” niż pozostałe z ich najbliższego otoczenia. Lecz znowu, uniwersalne i ścisłe zdefiniowanie owej „donośności” okazuje się niełatwe dla językoznawcy.

W tym kontekście często mówimy o akcencie, przycisku lub emfazie. Przeglądając hasła słownika języka angielskiego, niemieckiego, polskiego i wielu innych języków, natkniemy się niekiedy na oznaczenia tych sylab, które należy (lub można) w danym wyrazie zaakcentować. Może się okazać, że w długim wyrazie jest kilka sylab prominentnych: np. jedna jest nośnikiem akcentu prymarnego (najsilniejszego), inne zaś akcentów niższego rzędu, słabszych. Wskazane w wyrazie miejsce akcentu leksykalnego można określić jako „potencjalne miejsce akcentowania”, gdyż – chociaż może nie bez pewnego wysiłku, a niekiedy kosztem poprawności lub zrozumiałości – będziemy mogli wymówić ten wyraz z realnym akcentem na dowolnej innej sylabie. Miejsce akcentu może być ściśle związane z budową morfologiczną wyrazu, może też być określone wstępnie, np. akcent na pierwszą sylabę w języku czeskim, na ostatnią sylabę w języku francuskim lub na przedostatnią w języku polskim. Istnieją języki, w których akcent na poziomie wyrazu nie jest w zasadzie definiowany (np. koreański) – pojawia się dopiero w konkretnych wypowiedziach, aby spełnić różnorakie funkcje. W innych mamy do czynienia z akcentem ruchomym (np. rosyjski). W pewnych językach (także w języku rosyjskim) zmiana lokalizacji akcentu może zmieniać znaczenie wyrazu (np. w angielskim: wyraz research akcentowany na pierwszej sylabie jest rzeczownikiem, natomiast na drugiej – czasownikiem). Jak to działa w języku polskim?

Różne mogą być środki akcentuacji. Aby sylaba stała się prominentna, wyróżniała się wśród innych, można wypowiedzieć ją głośniej, zmienić na niej wystarczająco gwałtownie wysokość głosu lub przedłużyć ją, jak i zastosować jakąkolwiek kombinację tych metod.

ĆWICZENIE

Nagraj kilka swobodnie wypowiedzianych zdań i uważnie je odsłuchaj. Zastanów się, jakie są środki akcentowania w Twoim języku. Czy któreś z nich wydają Ci się bardziej typowe i częściej stosowane niż inne?

Fakt, że poszczególne sylaby mogą być bardziej lub mniej donośne, dłuższe i krótsze, i że występują w pewnych sekwencjach, sprawia, że w wypowiedzi językowej można dostrzec pewien rytm. Jest to rytm nieco inny od powszechnie znanego rytmu muzycznego, kojarzącego się z ciągłym powtarzaniem stałych wzorców rytmicznych. W języku taka wyraźna powtarzalność jest zjawiskiem rzadkim – najłatwiej znaleźć ją w poezji, w piosenkach i w melorecytacji. Jednak rytm w języku istnieje. Kiedy posłuchamy wypowiedzi w językach angielskim i francuskim, a następnie spróbujemy je imitować, zastępując „prawdziwe” sylaby przez „da”, „dam” lub podobne sekwencje dźwięków, dostrzeżemy wyraźną różnicę między systemami rytmicznymi tych języków. Zgodnie z jedną z hipotez, języki można podzielić pod względem rytmu na dwie główne grupy: oparte na sylabie (syllable-timed) i oparte na akcencie (stress-timed). W przypadku pierwszych, rytmem wypowiedzi kieruje tendencja do utrzymania stałej długości sylaby, w drugich – stałej odległości między akcentami. Obecnie ten pogląd jest często krytykowany, chociaż na pewno warto się z nim bliżej zapoznać. Być może uda się Tobie znaleźć miejsce Twojego języka lub języków w licznych klasyfikacjach tego rodzaju (zob. sekcję Dowiedz się więcej u dołu strony). Warto odnotować, że polski często wskazuje się jako szczególny przykład języka leżącego pomiędzy tymi dwoma grupami.

Archiwizacja i rekonstrukcja systemów dźwiękowych języków

Obecnie jedną z podstawowych metod dokumentacji języka jest rejestracja wypowiedzi mówionych (której podstawy zostały bardziej szczegółowo omówione w rozdziale 10). Dzięki temu możemy stosunkowo łatwo analizować i odtwarzać systemy dźwiękowe języków, którymi nikt się już nie posługuje. Jednak prawdziwie przenośny sprzęt do rejestracji dźwięku dobrej jakości stał się technicznie dostępny dopiero w latach sześćdziesiątych (magnetofony szpulowe Nagra; o historii tych magnetofonów możesz przeczytać w Wikpedii), a większość językoznawców musiała czekać do lat siedemdziesiątych na pojawienie się niedrogich i lekkich magnetofonów kasetowych. Wprawdzie istnieją nagrania ginących języków, które pochodzą z początków ubiegłego wieku (np. wałki Bronisława Piłsudskiego z zapisem wypowiedzi w języku ajnuskim; dowiedz się więcej tutaj), lecz są one rzadkością. Jak możemy zatem odtworzyć brzmienie języka, którym nikt już nie mówi? Jeśli język ten posiadał pismo alfabetyczne, w którym znaki odpowiadały w pewnym zakresie dźwiękom, zadanie to wydaje się wykonalne, chociaż nadal niezwykle trudne. Jak bowiem ustalić, jakie zachodziły relacje między znakami a dźwiękami? W wielu przypadkach takie próby rekonstrukcji wymagają rozległej wiedzy i badań wykraczających poza dany język. Możemy zadać sobie pytanie, pod wpływem jakich innych, znanych nam lepiej języków i kultur pozostawał, albo czy wywodzą się z niego jakieś współcześnie używane języki, które możemy analizować. Czy wśród nich są jakieś podobieństwa brzmieniowe, które można by wyjaśnić ich wspólnym pochodzeniem?

Warto jeszcze odnotować, że język mówiony pod wieloma względami różni się od pisanego – różnice wykraczają dalece poza możliwość użycia w mowie prozodii i specyficznej barwy głosu. Wypowiedzi zapisywane są zwykle bardziej uporządkowane, przemyślane, częściej spełniają kryteria poprawności gramatycznej. Stąd, nawet jeśli posiadamy dokumenty pisane, które pozwalają nam coś powiedzieć o systemie dźwiękowym wymarłego języka, pełne odtworzenie sposobu posługiwania się nim na co dzień będzie trudne lub niemożliwe. Jest to kolejny argument przemawiający na rzecz gromadzenia korpusów językowych, obejmujących mowę spontaniczną. Dotyczy to wszystkich języków, lecz w wypadku tych zagrożonych i małych warto się spieszyć.

Jak zapisać dźwięki języka?

Obecnie rejestracja foniczna wypowiedzi mówionych jest zadaniem technicznie stosunkowo prostym (zob. rozdział 10 o Dokumentacji języków). Jednak do wielu celów jest potrzebny ich zapis graficzny. Językoznawcy badający język mówiony nazywają taki zapis transkryptem. Często różni się on znacząco od zwykłego, zapisanego ortograficznie tekstu.

Systemy pisma wielu języków świata nie odnoszą się bezpośrednio do brzmienia zapisywanych wypowiedzi – brakuje wyraźnego związku między poszczególnymi znakami graficznymi a dźwiękami mowy. Znaki odpowiadają, na przykład, całym wyrazom i nie niosą informacji o tym, z jakich „dźwiękowych cegiełek” się te wyrazy składają. Największej odpowiedniości między znakami graficznymi a dźwiękami moglibyśmy oczekiwać w przypadku języków posługujących się pismem alfabetycznym, na przykład łacińskim (jak większość języków Europy). Jednak i tutaj okazuje się, że np. ta sama litera może oznaczać różne dźwięki – być czytana na różne sposoby. W angielskim podwójne o czyta się inaczej w wyrazie blood, inaczej w book, a jeszcze inaczej w door. Można się zastanawiać, po co w tymże języku używa się niekiedy nawet czterech liter do zapisania jednego dźwięku (np. thought). „Naturalne” systemy pisma są z reguły uwarunkowane tradycją i w wielu sytuacjach okazują się niewygodne w zastosowaniach językoznawczych. Poza tym, znaczna liczba języków – szczególnie małych i zagrożonych – w ogóle pisma nie posiada (zob. rozdział 5). W takiej sytuacji badaczowi potrzebny jest uniwersalny, przemyślany system zapisywania dźwięków mowy, który można byłoby zastosować zarówno wobec znanego, jak i nieznanego języka – system, który dawałby możliwość zanotowania dźwięków powstających przy niemal dowolnych konfiguracjach artykulacyjnych. Takim systemem jest system transkrypcji fonetycznej IPA (International Phonetic Association czyli Międzynarodowe Towarzystwo Fonetyczne). Przypisuje się w nim poszczególne symbole konfiguracjom aparatu artykulacyjnego, czyli różnym zestawom cech artykulacyjnych (zob. wyżej). Przegląd symboli IPA znajdziemy np. tutaj). System ten jest bardzo rozbudowany, a jego praktyczne opanowanie i właściwe stosowanie wymaga długiej praktyki. Nawet doświadczeni fonetycy nie zawsze będą zgodni co do transkrypcji fonetycznej danej wypowiedzi. Wynika to między innymi z tego, że system operuje binarnymi kategoriami cech: głoska może być dźwięczna albo bezdźwięczna, nosowa albo nie. W praktyce fonetyk dostrzega jednak, że nosowość czy dźwięczność są w wymowie stopniowalne i niekiedy trudno zadecydować, czy dana cecha już się pojawiła, czy jeszcze nie – np. czy dany segment uznać za dźwięczny.

Jeśli znany jest inwentarz fonemów danego języka, tzn. znamy zbiór jego „podstawowych dźwięków”, można transkrybować wypowiedzi w sposób nieco łatwiejszy, uwzględniający jedynie do jakiego fonemu należy dany dźwięk w wypowiedzi. W tym przypadku bierzemy pod uwagę kluczowe cechy – cechy dystynktywne, nie zaś np. detale artykulacji typowe dla danego mówcy. Jest to transkrypcja szeroka (fonematyczna, fonologiczna). Zawiera ona tyle podstawowych symboli, ile potrzeba do zapisu wszystkich fonemów w danym języku. Jest więc związana z konkretnym językiem naturalnym, chociaż niekiedy może służyć większej liczbie języków o podobnych systemach fonologicznych. Rodzimy użytkownik danego języka będzie ją mógł właściwie stosować po znacznie krótszej praktyce niż w przypadku transkrypcji fonetycznej (wąskiej). Dla osoby nie znającej danego języka ten sposób transkrypcji będzie jednak nadal trudny, gdyż nie będzie ona wiedziała, jakie są istotne cechy różniące poszczególne segmenty wypowiedzi i jak je przypisać do poszczególnych fonemów.

Warto wiedzieć, że ze względu na nietypowe formy znaków IPA, fonetycy stosują niekiedy inne symbole, oparte na kombinacjach podstawowych znaków alfabetu łacińskiego, tzn. system SAMPA. SAMPA jest często stosowana do transkrypcji szerokiej i istnieją jej liczne wersje „narodowe” (o SAMPA przeczytać możesz tutaj).

W szeregu sytuacji lingwiści zadowalają się systemem transkrypcji opartym na ortografii danego języka. Często dodają pewną liczbę symboli, dzięki którym można zapisać zjawiska takie, jak np. ziewanie, ciszę, jęki namysłu, albo uściślić brzmienie głosu (np. chrapliwy, wysoki, szept). Niekiedy rezygnują ze stosowania znaków interpunkcyjnych, rozróżniania wielkich i małych liter (o ile takie rozróżnienie w ogóle funkcjonuje w danym systemie pisma) i innych norm ortograficznych, aby zminimalizować dozę arbitralności i subiektywności. Jednak transkrypcja zawsze pozostaje subiektywną interpretacją zawartości dźwiękowej wypowiedzi.

A oto przykład transkrypcji ortograficznej, IPA oraz SAMPA dla krótkiego fragmentu wypowiedzi. Aby łatwiej było je porównać, umownie podzielono je na sylaby. Uwaga! Jest to transkrypcja szeroka i w dodatku „hipotetyczna” – ktoś może zrealizować tę wypowiedź nieco inaczej, np. utrzymać nosowość ostatniego segmentu.

Zapis ortograficzny

pew

pół

noc

wiatr

słoń

sprze

cza

się

IPA

pev

puw

not͡s

nɨ

vjatr

swoɲ

tse

spʃe

͡tʃa

ɕe

SAMPA

pev

puw

not^s

vjatr

swon’

t^se

spSe

t^Sa

s’e

*) Posłużono się tutaj mutacją polskiego alfabetu SAMPA, która została przygotowana przez J. Kleśtę pod kątem badań porównawczych tak, aby nie dochodziło do niejasności i odmiennego użycia symboli dla kilku różnych języków (Pol’n’Asia Project)

Widzialny dźwięk

Określenie to można rozumieć na przynajmniej dwa sposoby. Po pierwsze, fakt, że widzimy twarz mówcy, w zaskakująco dużym stopniu pomaga identyfikować wymawiane przez niego wypowiedzi. O wpływie czynnika widzialności świadczy między innymi tzw. zjawisko McGurka: przez to, że widzimy ruchy ust mówcy, percepcja wymawianych przez niego dźwięków się zmienia.

SPRÓBUJ SAM

Warto przetestować zjawisko McGurka na sobie, na przykład tutaj lub tutaj. Jeśli potrafisz edytować ścieżkę dźwiękową w filmie i dysponujesz kamerą w swoim komputerze, możesz spróbować samodzielnie przygotować własną wersję filmu.

W czasie rozmowy telefonicznej, nawet jeśli dźwięk jest dobrej jakości, częściej pojawiają się problemy komunikacyjne i nieporozumienia niż w rozmowie twarzą w twarz.

Mianem „widzialnego dźwięku” można też określić wizualizacje sygnałów dźwiękowych, tworzone przez odpowiednie urządzenia lub oprogramowanie i często stosowane w badaniach fonetycznych. Najprostszą w sensie technicznym wizualizacją jest oscylogram, który przedstawia zmiany amplitudy fali dźwiękowej w czasie. Można też na jego podstawie powiedzieć coś o brzmieniu sygnału. Jeśli wykres będzie przypominał sinusoidę, będzie to prawdopodobnie dźwięk fletu lub podobnego prostego instrumentu. W przypadku mowy, oscylogram jest zwykle znacznie bardziej „poszarpany”, gdyż w sygnale mieści się wiele składowych, które się na siebie nakładają. Najbardziej informatywną i najczęściej stosowaną przez fonetyków wizualizacją sygnału mowy jest spektrogram (widmo). Chociaż przedstawiony na dwuwymiarowej płaszczyźnie, w istocie odnosi się on do trzech wymiarów. Reprezentuje zmiany poziomu poszczególnych składowych częstotliwości w czasie. Oś pionowa najczęściej jest wyskalowana w hercach (symbol Hz, częstotliwość), pozioma to oś czasu. Im bardziej zaczerniony (lub – w wypadku spektrogramu barwnego – zwykle zaczerwieniony) dany obszar, tym wyższa energia pojawia się w okolicach danej częstotliwości w danym momencie czasu.

W badaniach intonacji często stosuje się automatyczną ekstrakcję częstotliwości podstawowej (f₀), która jest w dużej mierze odpowiedzialna za postrzeganą wysokość głosu – a więc za intonację i ton. Typowa wysokość częstotliwości podstawowej dla mężczyzn waha się w granicach 100-150 Hz, zaś dla kobiet 180-230 Hz; u dzieci jest jeszcze wyższa.

Warto podkreślić, że omawiane wizualizacje sygnału mowy najczęściej pomijają pewien kluczowy element: nie wyróżniają w żaden sposób tego, co szczególnie istotne dla odbiorcy sygnału, a nie pomijają tego, czego i tak nie dostrzega. Nie biorą zatem pod uwagę uwarunkowań percepcyjnych.

Poniżej przedstawiono przykładowy oscylogram, spektrogram i intonogram dla wypowiedzi „nie, wystarczy” /n’evystart^Sy/ (posłuchaj tutaj). Zwróć uwagę na fakt, że ciemniejsze obszary w niższej części spektrogramu układają się niekiedy w poziome pasy – odpowiadają one częstotliwościom formantowym. W górnym obszarze również widać ciemniejsze chmury, lecz pozbawione poziomych pasów. W ten sposób są reprezentowane głoski szumowe – energia szumu skupia się w pewnej części wyższego pasma częstotliwości. W końcowej części spektrogramu widoczne jest ciemniejsze, pionowe pasmo, które obejmuje większą część zakresu widocznego częstotliwości. Przed nim na spektrogramie widać jedynie delikatną mgiełkę szumów otoczenia. Ów pionowy pas to reprezentacja plozji, która jest elementem głoski /t^S/. Plozję poprzedza niedostrzegalna dla słuchacza chwila ciszy, potrzebnej na wytworzenie w jamie ustnej odpowiedniego ciśnienia, a następnie uwolnienie sprężonego powietrza.

Małe języki a technologia

Coraz większą rolę w zastosowaniach zaczyna odgrywać technologia języka, która pozwala konstruować systemy syntezy, rozpoznawania i interpretacji wypowiedzi, komputerowe systemy eksperckie i dialogowe, jak i aplikacje służące do nauki języków obcych lub wspomagające tłumaczenie. W przypadku małych języków dostępność tego rodzaju oprogramowania jest ograniczona, bo wielkim firmom nie opłaca się inwestować w tak małe, a często również słabe ekonomicznie rynki. Okazuje się jednak, że niewielkim kosztem i stosunkowo małym nakładem sił i czasu można tworzyć, na przykład, systemy syntezy mowy oparte na koncepcji MBROLA. Nie dorównują one jakością najnowszym osiągnięciom w tym zakresie, ale mogą być w pełni funkcjonalne i znaleźć wiele zastosowań. Posługujesz się małym, zagrożonym lub po prostu mniej zbadanym językiem? Można stworzyć dla niego system syntezy mowy na bazie systemu MBROLA. Dafydd Gibbon z powodzeniem propagował tę metodę w Afryce i w Indiach. Prowadzono próby syntezy mowy dla języków takich jak joruba [11], bete [12] (tutaj możesz posłuchać próbki syntezy; dzięki uprzejmości Jolanty Bachan) lub igbo [13].

Ćwiczenia fonetyczne

Chciał(a)byś zapoznać się bliżej z dźwiękami różnych języków i spróbować fonetyki w praktyce? Zajrzyj do sekcji: Ćwiczenia fonetyczne.

Sprawdź się!

Sekcja Sprawdź się! – Rozdział 4. Zobacz, ile już wiesz lub czego możesz się jeszcze dowiedzieć z Księgi Wiedzy Języków w Niebezpieczeństwie!

Przypisy:

[1] W języku zuni mówi około 9.000 osób w Nowym Meksyku. Więcej informacji znajdziesz na: http://www.amerindianarts.us/articles/zuni_language.shtml

[2] Językiem czejeńskim posługuje się około 2100 osób w stanach Oklahoma i Montana. Więcej informacji na: http://www.cheyenneindian.com/cheyenne_language.htm lub na stronie endangeredlanguages.

[3] Język indoeuropejski, jeden z większych języków w Indiach.

[4] Używany w Namibii. To największy język z grupy khoisan, ma około 200 tysięcy mówców i jest używany w szkołach. Dowiedz się więcej tutaj.

[5] Xhosa to jeden z oficjalnych języków Południowej Afryki. Należy on do rodziny Bantu, a posługuje się nim około 7,8 mln ludzi.

[6] Język z grupy wschodniopapuańskiej, używany na wyspie Bougainville.

[7] Zagrożony język z Brazylii; jest izolatem czasem włączanym do rodziny mura.

[8] Język izolowany (nie spokrewniony z innymi używanymi obecnie), używany w przeszłości na wyspach: Sachalin i Kuryle (obecnie w Federacji Rosyjskiej) oraz Hokkaido (Japonia). Obecnie ma zaledwie kilku starszych użytkowników.

[9] Irlandzki jest językiem celtyckim z rodziny indoeuropejskiej.

[10] Językiem czirokeskim posługuje się około 16 tysięcy ludzi w Oklahomie i w Północnej Karolinie. Należy on do języków południowoirokeskich.

[11] Język joruba (także: yoruba) jest językiem z rodziny nigero-kongijskiej używanym przez ok. 19 milionów ludzi w Nigerii i Beninie.

[12] Język zagrożony z rodziny języków nigero-kongijskiej używany w Nigerii.

[13] Igbo to jeden z największych spośród języków niger-kongijskich. Szacuje się, że mówi nim ponad 20 milionów ludzi w Nigerii.

Dowiedz się więcej:

Zróżnicowanie fonetyczno-fonologiczne języków świata:

Ladefoged, P., Maddieson, I. 1996. The sounds of the world’s languages. Oxford: Blackwell.
“Vowels and consonants” – znana publikacja on-line Petera Ladefogeda, wprowadzająca podstawy fonetyki i zawierająca ilustracje dźwięków wielu języków świata: http://www.phonetics.ucla.edu/vowels/contents.html

Teksty mówione wraz z autoryzowaną przez IPA transkrypcją:

Transkrypcja fonetyczna a polskie gwary: http://www.gwarypolskie.uw.edu.pl/index.php?option=com_content&task=view&id=72http://web.uvic.ca/ling/resources/ipa/handbook_downloads.htm
„Północny Wiatr i Słońce” – opowiadanie wykorzystywane przez fonetyków jako „standardowy tekst czytany”:
wersja angielska: http://en.wikipedia.org/wiki/The_North_Wind_and_the_Sun
wersja polska: http://pl.wikipedia.org/wiki/Wiatr_P%C3%B3%C5%82nocny_i_S%C5%82o%C5%84ce

Jeśli chcesz poczytać o intonacji różnych języków świata

Hirst, D., Di Cristo, A. (red.) 1998. Intonation Systems. CUP.

Technologia mowy dla małych języków

Duruibe, U. V. 2010. A Preliminary Igbo text-to-speech application. BA thesis. Ibadan: University of Ibadan.
Gibbon, D., Pandey, P., Kim Haokip, M. & Bachan, J. 2009. Prosodic issues in synthesising Thadou, a Tibeto-Burman tone language. InterSpeech 2009, Brighton: UK.

Archiwalne nagrania śpiewu w różnych językach na wałkach woskowych: http://sounds.bl.uk/World-and-traditional-music/Ethnographic-wax-cylinders

Inne:

Jassem, W. 1973. Podstawy fonetyki akustycznej. Warszawa: PWN.
Jassem, W. 2003. Illustrations of the IPA: Polish. Journal of the IPA, 33(6)
Kutsch Lojenga, C. 1994. Ngiti: A Central-Sudanic language of Zaire. Volume 9. Nilo-Saharan. Köln: Rüdiger Köppe Verlag.
Kutsch Lojenga, C. 2011. Orthography and Tone: Tone system typology and its implications for orthography development. Leiden University / Addis Ababa University / SIL International Linguistic Society of America Annual Meeting – Pittsburg – Jan 6-9, 2011.
Ostaszewska, D., Tambor, J. 2010. Fonetyka i fonologia współczesnego języka polskiego. Wydawnictwo Naukowe PWN.
Silverman, D., Lankehship, B., Kirk, P., Ladefoged, P. 1995. Phonetic Structures in Jalapa Mazatec. Anthropological Linguistics, (37), str. 70-88.

powrót