Reply to this topicStart new topicStart Poll

> [轉載]爲什麼漢語是世界上最先進的語言之一
徐元直
發表於: Jan 12 2014, 17:17  評價+2
Quote Post


攤抖首領
************

發表數: 7,909
所屬群組: 君主
註冊日期: 9-18-2003

活躍:63
聲望:4175


爲什麼漢語是世界上最先進的語言之一

作者:冷酷的哲學
http://lkong.cn/thread/715623

首先要承認標題只是個噱頭,語言學一般認為語言沒有先進落後之分。大家都有自己的看法,見仁見智吧。但是總看到有人在爭論到底漢語是先進還是落後。雖然我不是專業人士,但是就用點通訊和存儲上的概念來聊聊為什麼漢語是一種非常先進的語言。需要注意的是,雖然以下的論證都是基於實際的實驗數據,但是計算都很粗糙,而且實驗的規模都不大。換句話說就是,雖然在這裡漢語佔優,但是換一批實驗參與者,可能就倒過來了。現在實在沒有什麼特別全面的測試。所以下面的數字大家看看就行,不必太過認真。世界主要語言的效率其實都已經達到當前人腦的一個瓶頸了,總體看差異不大。我的目的也主要是打擊一下逆向民族主義者。


一、語言水平高低的評判準則

口語,放在今天來分析,實際上是一種通訊協議。就是說,語言實際上是把人的思想通過發音器官變成一串頻率不同、波形不同的聲波,然後有另一個個體的聽覺器官和相關的腦部組織重新轉變回思想。通訊協議,就是一個規則,一個規定了應該如何把思想/信息轉變為易於傳輸的信號的規則。計算機上,通訊協議基本上有這麼兩個評判標準:傳輸效率和抗噪能力。所謂傳輸效率,是說,在單位時間裡,按照該通訊協議能夠傳輸多少信息。所謂抗噪能力,是說這種通訊方式能夠在多大的噪音下仍然保證絕大多數信息正確傳輸。

傳輸效率又有兩個方面,一個是編碼效率,一個是傳輸速度。編碼效率是說,這個通訊協議能夠把一個信息用多短的一串信號來表達。傳輸速度是說一段信號,能夠以多快的速度傳輸。

評價一種語言的口語是否先進,就要分析上面這幾個問題。


文字,則是一種數據存儲方式。存儲格式的要求與通訊協議不同。存儲格式要求存空間小、讀寫速度快。相比於讀取速度,書寫速度是次要的。這是因為平均下來一次書寫對應很多次閱讀,而人在閱讀文字上花的時間一般遠遠大於書寫。尤其是現代社會,手寫越來越少,計算機輸入、打印、印刷都大大加快了記錄文字的速度。而閱讀速度卻沒有多少提升。因此在現代社會,閱讀速度就在定義文字水平上佔據了更重要的地位。

需要注意的是,下面的討論中「音節」均採用西方語言學定義。粗略地講就是一組連續元音與其前後的輔音共同構成一個音節。比如To、Bliss、Strength是單音節,漢語Ba、Chuang也是單音節。雖然單音節詞的發音長度並不完全相同,但至少是可比的。


二、語言的分類

這個世界上的語言大致分為兩種,一種叫做分析語(或稱孤立語),一種叫做綜合語(其下又劃分為黏著語、屈折語等子類型)。簡單地說,綜合語可以通過改變詞的形態來表達不同的意思。而分析語則單純通過詞與詞之間的關係來表達不同的意思。

我們舉個簡單的例子:
中文(分析語):我昨天告訴他了。
英文(綜合語):I told him yesterday.

英文你首先可以看到told和him兩個變形。其中把tell變成told表示過去發生的動作,把he變成him表示客體。而中文用昨天來直接指明時間,如果不指明時間則需要用「已經」、「過」之類來表示過去,而並不改變詞的形態。中文還通過各自的位置來體現誰是主體誰是客體。

實際上,英語已經是綜合語中非常接近分析語的了。比方說英語的未來時態用的詞形和一般時態沒有區別。而很多其他語言中不同的時態都是用不同的詞形來表達的。再比方說英文對於各個詞的位置有明確的規定。而很多其他綜合語,諸如拉丁語中,詞的位置可以不固定。換句話說就是可以說出這樣的句子:Him yesterday told I。然後通過詞形裡的主格詞形和賓格詞形來判斷究竟是誰告訴了誰。

這是非常糟糕的,因為在讀取的時候,總是有先後的差別。我們希望的讀取順序是:先讀取我們的大腦需要先處理的部分。分析語天然就有這種優勢。很多綜合語在逐步的發展中也確立了類似的規則,比如拉丁語的後裔之一——法語。

上古古漢語也曾是一種綜合語。但是由於漢字的限制,古漢語的詞形變化僅存在於口頭中。比方說文言文中的使動用法,如「文王以百里之壤而臣諸侯」中的臣(使臣服),在上古時期,是需要在漢字發音前加「s-」音來標識的。這就是一個典型的綜合語的詞形變化。

有人認為現在的漢語仍然帶有一定的綜合語色彩,他們認為加入諸如「了」、「的」這種助詞實際上就是詞的變形。這種看法就只能見仁見智了。

從整體發展趨勢來看,世界各地的口語都是從綜合語向分析語發展。雖然不能說分析語就一定優於綜合語。但是這個趨勢說明分析語的某種特性符合歷史的發展。這個優勢就是數據的壓縮。


三、數據壓縮:分析語的高超之處

當年計算機發展到了新的時代,人們開始研究如何在計算機上存儲視頻文件。一開始的方案極其簡單,就是把一幀一幀圖像全部都存儲下來。但是這無疑是低效的。因為這裡面的冗余信息太多。舉個簡單的例子。一個夜晚的場景,畫面上很多地方都是黑的。何必把每一個點的色彩反覆記錄呢?所以接下來的一個思路就是,不再存儲每一幀圖像的完整信息,而存儲下一幀圖像與上一幀圖像之間的差異之處。兩幅圖像中顏色一樣的部分全部跳過。

分析語恰恰就具有這樣的效果。舉個簡單的例子。一個人在用漢語談論昨天發生的事情時,只需要一開始提及「下面這些事情都發生在昨天」,後面就再也不必提及時態了。而英文,則需要反覆使用時態來表明這事情發生在過去。在交流時你需要時刻考慮時間、主格/賓格、數量、主動/被動。這對交流是有影響的。當然熟練使用這種語言之後會大大降低考慮這些的時間,但是即便熟練的綜合語使用者還是會在這方面犯錯。在上下文的幫助下,這些變化都可以省掉。時間變形,可以依靠在第一句中加入時間狀語完成描述,其後描述相同時間段的句子就再也不用考慮描述時間了。這就是分析語的數據壓縮能力。

當然,這並不是說分析語就一定優於綜合語。在缺乏上下文的情況下,一句綜合語可以用比較簡單的形式傳遞比較多的信息。但是隨著人類社會交流量的上升,一次交流的上下文就變得豐富起來,很多在單詞、單句的條件下很有效率的信息交流方式,也就顯得越來越冗余了。因此世界上的各個主要語言紛紛向分析語靠攏。

另外,有的人認為分析語劣於綜合語,他們是這樣說的「綜合語只用幾個字母組成一個詞綴就能表示一個特定含義,而漢語做不到」。這就是沒有看到,在當今世界上的實際交流中,上下文總是很豐富。這種變形的方式在單句下很有價值,但在實際交流中就沒有什麼意義了。

關於各個語言的表意效率,也就是信息密度,2011年法國里昂大學做了一個實驗。
http://www.time.com/time/health/article/0,...2091477,00.html
http://ohll.ish-lyon.cnrs.fr/fulltext/pell...11_Language.pdf

這個實驗裡,研究者找了59位不同語言使用者,其中包括英語、法語、德語、日語、漢語、意大利語和西班牙語。為他們提供了20段文字,這些文字都翻譯成各自的語言。然後請這些人分別用正常語速朗讀。研究者全程錄音。

然後研究者計算所有音節數量,計算朗讀中表現的義項(表意的基本單位)的數量,然後得出結論。當然,這個實驗並不能完全準確地表現各個語言的差異,但是還是可以用來定性的。

其中,漢語信息密度為0.94,位居第一。英語信息密度為0.91,位居第二。另外值得注意的是,距離分析語更遠的法語(0.74)、德語(0.79)、意大利語(0.72)、西班牙語(0.63)的信息密度,都比到英語低。而日語信息密度為0.49,有人認為這是因為日語的表意方式與其他語言不同。

此處信息密度是通過計算每個音節所包含的義項數量來獲得的。由於義項的數量是從原始文本——英文版裡統計的。而翻譯之後有可能會增加或減少義項。為了防止翻譯過程中的扭曲造成數據標準不統一。各個語言的文本都被單獨翻譯為越南語,然後與各自越南語文本中每個音節所包含的義項數量相除,最終得到比較公平的數據。

這讓我不由地想到,經過大規模注水的現代漢語信息密度還是這麼高,那麼文言文究竟已經高到了何種地步?很遺憾沒有這方面的研究。不過,根據使用頻率進行加權平均,現代漢語平均每個詞中的字數差不多是1.5左右。在文言文中,其中很多都是用單音節詞表達的。折中一下,我猜想文言文的信息密度達到現代漢語的1.25倍應該是不成問題的。這在古代更是個恐怖的數字。因為拉丁語可不是比現代歐洲各主要語言簡單。受到古代文字記錄空間的限制,漢語的顯然在文字記錄方面更加佔優。這也許就是我國古代文字記錄非常豐富的原因所在。

有人質疑說,有時候一個很長的音節意思很簡單,而一個很短的單詞意思卻很複雜。這種情況當然是存在的。我需要說明的是,所有複雜事物的優劣都是一個統計概念,「高」並不是絕對在任何條件下都高,而是在大多數情況下高。如果一種語言平實交流平均下來就是比另一種語言多用一個音節,那麼很顯然其表意效率都是很低的。

還有人說,音節不能作為衡量信息密度的單位,因為不同的音節,發音長度很不一樣。這個問題提的非常好。事實上我下一節就要講到英語與漢語發音長度的問題。英語單音節平均發音長度比漢語長。因此在口語的信息密度方面,漢語的優勢更大。

值得注意的是,可能由於漢字與讀音是分離的,理解和朗讀無法同步進行,所以用漢語朗讀,就會比較慢。里昂大學的這個實驗中,漢語朗讀者每秒朗讀5.18個音節。大大慢於其他語言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗讀中,漢語傳遞信息的效率比較低,換算出來的朗讀信息傳遞效率為英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。

當然,以上里昂大學的研究也受到了一些批評。有人覺得做的太糙了,而且有些地方不能自圓其說。比如按文中數據明明日語表意效率明顯低,但作者又說其實一分鐘內各個語言表達的信息量是差不多的。


四、傳輸的優勢:聲調

口語信息的傳輸,是通過聲音完成的。聲音一般分為四個部分:音質、音高、音長、音強。對於語言的一個音節來說,音質指的是其中輔音與元音的組合。其他三個都很好理解。

一般現代語言不太規定音強,因為這實在無法在各個人之間得到統一,而且受到說話人的距離、情緒、身體狀態等影響。此處需注意,英語中的「重讀」,實際上是音高變化。

而剩餘的三個元素,則都在語言中得到了廣泛的運用。

我們拿漢語舉例,音質很容易理解,就是發音除去聲調。而聲調本身則分為音高和音長兩項。

漢語普通話的四聲,是四種不同音高變化模式。一聲是保持音高。二聲是音高由低到高變化。三聲是音高從高到低再到高。四聲是音高由高到低。雖然我們當年語文課裡說輕聲是沒有聲調,但實質上輕聲是縮短音長。輕聲一般是縮短音長的四聲或一聲(有時音高很低)。不過輕聲很短,比較難以聽清,所以普通話中僅作為特定用途使用(語氣助詞、複數標誌等)。

英語的重讀實際上是音高的差異。所以嚴格地說,英語是有聲調的。只不過英語的音調只有兩個:高和低。但是英語中音調僅用於部分音節。除了表示疑問、強調等情況,通常英語單詞不變調。除少量英語單詞(如Record)外,英語單詞不借助音調來區分不同的詞義。英語的確使用音長要素(如Sheep和Ship)。由於英語一般只用音質和音長來區分詞義,所以一般也認為是一種沒有聲調的語言。

首先從編碼效率上,我們可以說漢語就是世界上編碼效率最高的語言之一。漢語是世界上為數不多的使用音高來區分不同單詞的語言。因此從編碼上說,漢語發音的表意能力就比一般語言高出一個維度。也就是說,使用單個音節,漢語能夠表達的不同信息的種類,理論上最高可以達到一般外語的4倍。

為什麼外國人學漢語學得這麼辛苦,而中國人學英語則沒有那麼辛苦?就是中國人是已經掌握了在發音是音高變化,現在再去學低級的兩個固定音高。而在學習漢語中,很多外國人最吃力的問題之一就是聲調,因為只習慣於兩個固定的音高,而沒有聽到過、練習過在發音時連續變化音高。

有人提出,聲調本身會影響發音速度。這當然是存在的。比方說二聲,要求發音時音調逐漸上升,要表現出這個,發音時要表現出兩個音調,自然是要比單一音調要費事。但是聲調的好處在於,能夠在同一組輔音和元音組合的基礎上產生出多種不同的發音,所以就不必借助更多的輔音來區別兩個具有類似發音的詞(比如英文life和light)。英文音節中,輔音-元音組模式的音節,發音確實比漢語略快。但是其他模式,諸如輔音-輔音-元音組-輔音(Blight),或輔音-元音組-輔音,往往就比漢語發音慢了。而輔音-元音組模式的音節,由於英語缺乏音調,所以數量遠小於漢語。整體平均下來,英語單個音節的發音應慢於漢語。

對於「英語單個音節的發音應慢於漢語」這個結論,可能有的人覺得不是很信服。我們來舉一個非常簡單的例子。普通中國人的初等數學能力往往超過歐美。這並不簡簡單單是教育的問題。更關鍵地,這是中文對數字命名結果。

漢語所有數字均為單音節,其中6和9有兩個元音(或按照國際學術便准,三個元音),發音稍慢;0有後鼻音,發音可能稍慢。還有幾個帶捲舌音,可能會稍慢。

英語所有數字,除7以外,全部都是單音節。其中覆蓋了「輔音-元音」結構(如4)、「輔音-輔音-元音」結構(如3),「輔音-元音-輔音」結構(如5),「輔音-元音-輔音-輔音」結構(如6),元音-輔音結構(如8)、雙元音結構(如0,注意一般數字裡0讀「ou」,不讀zero,後者實在太費勁了),等等。可以說英語的這些數字大致包含了英語的各種單音節詞的音節結構。當然這裡還沒有最神奇的輔-輔-元-輔-輔結構,但是那個和單元音結構一樣比較少見。

那麼平均下來英語的數字比漢語慢多少呢?

首先我們需要知道,人對數字的短期記憶,實際上是對數字發音的記憶。換句話說,你能記住的數字位數,是由數字發音的總長度決定的。研究表明(見 http://deepblue.lib.umich.edu/bitstream/ha....pdf?sequence=1 ),中國人從小開始短期數字記憶能力就高過美國人。該文獻說明美國大學生的數字記憶長度平均為7.2位,中國大學生為9.2位。美國大學生的短期數字記憶位數,是中國學生的78.26%。換句話說就是,英語數字的平均發音長度比漢語數字高27.78%。去掉英文數字7(雙音節)對平均音長的影響(10%),那麼平均下來,單音節英語發音長度大概比漢語高17.78%左右。

更進一步,中國的數字都是徹徹底底的單音節,因此可以採用絕對邏輯的方式構建整個數字表。九十六,就是九個十加一個六。英語是「九十」(與九和十都不同的特殊詞)加一個六。法語是四個二十加十六。漢語種最簡潔而最富邏輯的結構,在世界上是極為罕見的。九九乘法口訣表,就是構建在這個基礎上的。其他國家的兒童如果想背下來這張表,可以說比中國兒童難了幾倍。這種語言上的優勢就提高了中國人的初等數學能力。

順便,還有人說,古漢語聲調更多啊,難道漢語越發展越回去了麼?這當然是錯誤的。有些音調受說話者情緒等條件的影響,在辨識的時候不確定性因素比較多。這個問題我們將在抗噪能力一節中詳細講解。


五、信息論上的優勢

從信息論角度來考慮,編碼是很有學問的。舉個例子。我們知道計算機傳輸信息,實際上傳輸的都是0和1。那麼,如果我們傳輸的各種信息出現的頻率不一樣高怎麼辦?答案是,出現越頻繁的,編碼越短。這樣就能提高總體效率。

比方說,我們只有四種信息要傳遞。按一般的想法,自然是把這四種信息分別用00、01、10、11來表示。每個信息都需要用兩位二進制數來表示,也就是說傳播100條信息需要發送200個二進制數。但是如果其中有一種信息出現的概率是91%,而另外三種分別是3%。那麼就可以使用另一種編碼方式:1,01,001,000。平均下來這種傳播方式傳播100條信息需要發送91+2*3+3*3+3*3=115個二進制數。顯然比前面那種效率要高。

世界各主要語言經過了幾千年的進化,其詞彙的長度分佈,都比較符合信息論的要求。你會發現各個語言中越常用的詞,一般就越短。英語裡,我、你、他、她、我們,都是單音節詞。

英文的單音節詞非常豐富,實際上比中文的單音節發音要多,這是因為英文可以在一個輔音-元音組合的前後都添加輔音,來實現各種不同的單音節發音。這樣排列組合下來,英文的單音節詞就是一個比較龐大的詞庫了。但是這就有一個代價,就是抗噪性能低。這個問題我們放在下一節講解。

按西方音節定義,英語的單音節詞的使用比漢語要頻繁。根據統計分析。漢語使用者平均詞長約為1.5字上下。(見《Reading Chinese Script: A Cognitive Analysis》這本書裡有一個章節《Eye Movements in Reading Chinese and English Text》),而成年英語使用者平均每詞音節數約為1.4(見 http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf ,這也得到了另一個研究的支持:分析10小時的發聽錄音,平均沒詞音節長度為1.38)。

所以,就音節數而言,漢語詞平均比英語詞長7.14%。然而,考慮到英語一個音節比漢語單音節實際上長得多(即便把上一節得到的17.78%折半,也有8.89%)。再加上漢語每音節信息含量大致比英語高3.30%(見第三節數據)。從信息論的角度講,漢語的信息傳遞效率基本上比英語高。(是的是的,我知道信息論的計算還需要更多的數據,只有平均值是不夠。但是實在找不到啊,只能草草估計了。)

這一點也得到了另一個實驗的驗證(見 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

這篇論文找了8個漢語使用者和8個英語使用者。然後讓他們兩人一組。一組之中,一個人描述圖片(描述者),另一個人根據描述來繪製(繪畫者)。最後對比圖片的準確度。同時觀察描述者的語言。

最後結果是,漢語描述者明顯比英語描述者先開始描述。描述者開始描述與繪畫者開始繪畫之間的時間差,漢語使用者低於英語使用者。繪畫時間,漢語繪畫者低於英語使用者。整體時間,漢語組顯著低於英語使用者。所以漢語組所有都比英語組快。而且越複雜的繪畫,漢語組就快得越多。

繪畫結果,144次繪畫。漢語組平均每次犯8.1個錯誤,其中描述者平均每次犯3.7個錯誤,繪畫者犯4.4個錯誤。英語組平均每次犯13.25個錯誤,其中描述者平均每次犯8.5個錯誤,繪畫者犯4.75個。兩者的差距仍然在統計誤差之內。所以並不算顯著。(嗯?剛才誰說漢語沒有英語精確來著?)

之後,為了考慮繪畫者的技巧差異。讓每個繪畫者直接對照原圖繪畫。結果漢語組反而慢於英語組。

繪畫期間,漢語組使用音節數顯著少於英語使用者。兩組語速(每秒音節數)接近(這個結論與前面的播音速度分析結果一致)。

這雖然是一個初步的實驗,但是還是能看出漢語在交流上的優勢的:用詞更少,時間更短,描述精確水平差不多(如果不是更高的話)。這個實驗還說明了……我國人民美術水平還有待提高……

至於歐洲主要其他語言,根據第三節提到的數據,它們發音頻率比英語高,信息密度比英語低。要那些語言在這方面超過漢語,我覺得可能性不大。


六、組詞邏輯

由於英語單音節詞資源比較豐富,但平均發音長度較長。所以你會注意到英語裡單音節詞比例高於漢語,而多音節詞的使用比例就小於漢語。很多邏輯上非常相關的詞由於不得不全部擠入有限的單音節詞庫,其發音就失去了聯繫。這就導致英語的常用詞往往缺乏組詞的邏輯。

比如我們可以很輕鬆地說「公雞」、「母雞」、「小雞」、「雞蛋」。而英語裡就成了「Cock」、「Hen」、「Chick」、「Egg」,毫無聯繫。如果常用詞要建立聯繫,那麼英語就必須提高這些單詞的音節數,那麼平均詞長就要上升,從信息論角度講,信息傳遞效率就更低了。所以英語只能在組詞的邏輯性上進行妥協。

相比之下,漢語就從容的多了,即便在當前這種信息效率下,漢語仍然能保證絕大多數詞語構造具有邏輯性。因此相比於英語詞彙,漢語詞彙就比較容易記憶。這就產生了一個結果,那就是漢語的常用詞彙量遠遠多於英語。

英文使用者的單詞量和生詞辨識能力可見1995年的以下論文:
http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大學生平均自稱單詞量為16141,經過多項選擇測試發現,平均能夠辨識其中71%的詞彙。也就是說平均大學生詞彙量估計為11460個單詞。老年人平均自稱單詞量為21252,經過多項選擇測試,發現平均能辨識其中80%。也就是說老年人的詞彙量大致為17002。對於從未見過的詞的正確理解概率,大學生為30%,老年人為39%。

沒有找到中國的相關研究。不過這裡是商務印書館的《現代漢語常用詞表(草案)》:
http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以進去看看自己的詞彙量。我感覺大學生達到五萬應該不成問題。而且這肯定不是一個人的全部單詞量。不過這裡面有些詞是英語裡幾個詞合起來的。所以中國人詞彙量未必比美國人高這麼多。但我覺得定性的結論還是可以下的。

另外裡面可能有你沒見過的詞,可以看看有多少你猜不出正確含義……我覺得除了極少數,確實沒什麼難度……

另外,漢語和英語都各自在組詞上有一個弱點。漢語有大量的同音詞,而英語有大量的多義詞。漢語有「攻擊」和「公雞」,英語的Ball既可以是球也可以是舞會,當然還有相關的一些列動詞含義。漢語中,曾經在文言文中大規模使用的單音節多義詞現在大多變成了雙音節單義詞。漢語中真正的多義詞(各個意思之間沒有直觀邏輯聯繫)是極少數。而英語裡的同音詞也是極少數。可以說這兩種語言在各自的發展路徑上都做了妥協。

由於英語多義詞比例比較大,所以儘管英語使用者詞彙量比漢語使用者低,也不能說明英語的描述能力不如漢語。另外注意到,美國大學生的詞彙量遠低於老年人,這說明他們並不是已經記下了所有能見到的詞彙,而是在那個年齡段,還沒有足夠的時間記下。因此可以看出,英語一詞多義很多的原因,很可能就是英語單詞的記憶難度比漢語大。

所以總的來說,由於漢語精簡了發音,並且每音節信息密度較高,這就使得漢語可以有較長的平均詞長,因此組詞邏輯相比於英語就有了一定的優勢。至於其他主要語言,信息傳遞效率與漢語相比差距更大。主要方面都無法相比,這種次要方面就不需要再比了。(不過話說回來法語之類組詞邏輯比英語確實要好)


七、強勁的抗噪能力

前面講到,英語依靠大量的單音節詞才能夠接近漢語的信息傳遞效率。但這不是沒有代價的。

構造大量的單音節詞,就需要在詞彙中使用大量的輔音。輔音分為兩種。一種屬於響音,就是能夠持續發音的,諸如m、n、ng(除這類輔音外,所有的元音也都是響音),一類叫做阻礙音。阻礙音本身發音短促、強度低、音高也很低。只有當阻礙音與元音結合,才能發出強度比較大的音。

漢語普通話中,所有阻礙音都是與元音結合的。而英語以及歐洲所有拼音語言,都大量使用了不與元音結合的阻礙音。事實上,古漢語中不與元音結合的阻礙音是極度常見的,音節結構比現代漢語的諸多方言都複雜。但是後來這種輔音用法就基本淘汰了。具體上古漢語的發音案例,大家可以自行搜索「《關雎》上古漢語朗讀」。雖然學界對上古漢語的具體發音還有很多爭議,但古漢語音節的複雜度在那個朗讀中體現得很好。

消滅獨立的阻礙音,首先加快了發音速度,第二保證所有音都具有很高的強度。但是其代價就是大大縮小了單音節詞庫。不過在上面的比較中我們可以看出,這個代價是值得的。漢語的信息傳遞效率仍然非常高。

那麼我們繼續一個前面提到的話題,是不是音調越多越好呢?

有一個搞笑論調是這麼說的,"我們的普通話叫「mandarin」,什麼意思啊?滿大人,滿族人清朝入關之後,說不出我們的口語,他就把很多調去掉了,把入聲去掉了,說的發音越來越簡單了。然後逼著全國人都這麼說。所以我們現在的口語比粵語要簡單得多。"

這是一個非常愚昧的論調。首先,Mandarin這個英語單詞來自於葡萄牙語mandarim,葡萄牙語這個詞又來源於馬來語mĕntĕri,馬來語這個詞來源於梵語mantrin,而梵語這個詞的意思是官員。換句話說,mandarin的願意是「官話」。而且Mandarin這個詞能查找到的最早的記錄出現於1589年。大家可以查查那時候「滿大人」在哪裡呢。

很多人以為粵語是正宗的漢語發音。這話對,也不對。粵語具備一些中古漢語的發音特徵。但是它也是在中古漢語的基礎上發展而成的,語音還是有相當大的差異。有人認為北方官話/中原官話的形成,是因為蠻族入侵「污染」了漢語。這個說法同樣,對,也不對。北方官話之所以在中古漢語的基礎上進一步的發展,就是因為戰爭與征服,北方漢民與語言不通的外族加深的了交流,多種族的融合,教育,逐漸把一些發音變得更加容易。

舉一個例子,粵語裡白菜的白是Baak6,普通話是Bai2。粵語裡尾部的這個k是一個不發音的舌頭動作。這個動作略微改變了原來Baa的發音。但是這個音,如果不費力就很難造成Baa明顯的變化。相比之下,Bai本身就容易發,雙元音ai的發音是通過舌頭跟隨下顎動作完成的。我們知道咀嚼肌的力量比舌頭大,運動也快。依靠下顎完成的ai音顯然比依靠舌頭完成的aak音要容易發。當然這不是一個公平的比較,相比之下普通話Liu、Lang的發音難度與粵語Baak相近,但是這兩個音的尾部都是響音,不需要費力就能發得很清楚。

與這個不發音的k類似的,還有粵語中p和t結尾。這種發音方式正式名稱叫做不除阻的塞音尾。在亞洲很多國家和方言裡都有。這應該是古漢語流傳下來的特點。這種塞音尾既不抗噪也不省力。在交流更廣泛、更頻繁的北方方言裡是很難見到的,應該是已經演化成其他發音了。

粵語依具體方言不同,有6-10個聲調。其音高變化模式並不超出普通話的四個音調。之所以多出來這麼多音調,是因為粵語還引入了不同基準音高。比方說在一些方言裡,粵語的第1、3、6聲都是保持音高,但是這三個聲調各自保持的音調高度不同。再比如粵語第2、5聲,都是音高由低到高變化,但起始音高不同。粵語總共有四種不同的基準音高,分別是do、re、mi和sol。類似的情況在很多南方方言裡都存在。

這就是為什麼有時候南方方言聽起來有些像唱歌。大概也就是為什麼吳儂軟語聽起來很好聽。

然而粵語音調最大的問題就是,每一個人音調高低是不一樣的。有的人說話音調高,有的人音調低。沒有一個統一標準。甚至同一個人說話的時候,在低沉、平靜、激動時,音調高低也是不同的。因此,與一個不熟悉的人說話,出現單獨的一個音高或兩個音高,都很難分辨出到底是哪一聲。必須要三到四個基準音高都繁出現,才能判斷準確對方的音高究竟屬於哪一聲。而這些基準音高是否會頻繁出現,這就是比較看人品的了。當然,就漢語的冗余度而言,一部分音高判斷不準是沒有太大關係的。但這就讓粵語發音多變的優勢大大削弱了。

此外,粵語的7、8、9聲都是短促音,其音高和音高變化模式與1、3、6聲沒有區別。短促音抗噪能力不如普通音長的發音,但它們的發音速度更快。不過在現今人類口語交流中,瓶頸是大腦的思維速度,發音速度太快並沒有明顯的好處。

有人問到底多少個聲調最合適。我覺得這很不好說。現在沒有客觀的評估。但是無論如何有聲調的漢語(及其方言)總是要比沒有聲調的外語強。

那麼漢語的抗噪性能有沒有什麼證明呢?

有的。出了國,尤其是到了歐美的人,就會發現一個問題。那就是中國人說英語,相比於當地人來說,總有點含混不清。外語老師總是要求中國人說英語的時候嘴巴要張大、舌頭的運動要有力,甚至要求用牙齒咬住一根鉛筆來訓練唇舌運動。這是為什麼呢?因為中國人已經習慣了唇舌微微運動的發音過程。

首先漢語發音具有很高的信號強度。而且由於捨棄了所有單獨發音的輔音,所以一個音節裡的元音就能保持更長的時間(這也就是為什麼我們一般覺得漢語說話比英語慢的緣故)。我們知道長時間保持一個信號,也有利於對抗隨機噪聲。發音強度大、元音維持時間長,這就導致,同等發音強度時,漢語的抗噪能力更加強大。換句話說就是,同等噪音條件下,漢語所需要的音量更小。因此漢語使用者發音不必費力,唇舌運動幅度比英語之類明顯小。


八、口語的速度

說到口語的速度,我們先來看這篇論文: http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

其中圖1顯示,根據一些談話樣本,當去掉沉默與噪音佔據的時間後,英語會話者每分鐘一般能夠說160-280個詞。漢語會話者大致是250至400詞(這裡不是字)。這差不多是普通人不受思緒影響的最高語速。所以可以看出,漢語的理論最高信息傳遞能力是遠遠高於英語的。

但實際上受限於思維速度,兩者的速度差距並不大。以下這篇論文研究了在不同語速下聽眾正確聽得每個字的概率。 http://www.sciencedirect.com/science/artic...169814104001581

一般廣播節目的語速在4.3字每秒左右。也就是每分鐘260字上下。高於這個數字,就可能會聽眾接收語音時聽錯。從上文可以看出,年輕人在對方語速達到約650字每分鐘時(即吐字時間縮短60%)仍然能保持90%以上的正確接收率。但是老年人就會降低到約70%。可以看出這個速度實際是受限於大腦的處理速度。中國好聲音的華少,是47秒說350個字,也就是速度達到了446.8字每分鐘。這個速度上能說得字字清晰,這是很厲害的。

英文新聞播音一般在150-180詞每分鐘(當然,也取決於詞的長度)。根據10個小時的法庭錄音的數據結果( http://languagelog.ldc.upenn.edu/nll/?p=1255 ),可以看出美國大眾90%的情況下說話速度低於200詞每分鐘,99.75%的情況下低於250詞每分鐘。平均水平差不多是160-170詞每分鐘。(因為僅靠10小時庭審記錄統計,所以不會特別準確,這裡就是看個大概。)

所以,按照平均每詞1.4音節計算,基本上英文新聞播音一般每分鐘210-252個音節左右。這與庭審記錄中平均一分鐘226個音節接近。

英文播音平均每分鐘210-252個音節與漢語播音平均每分鐘240-260字沒有顯著區別。
可以說,人類接受語音的速度,現在是受到了人腦處理能力的限制。上面的播音速度,都不是播音員最快的說話速度,而是為了保證觀眾正常收聽才控制的速度。隨著交流的日益深入,人類說話的速度實際上在加快。40年前美國一般語速是145詞每分鐘。如今是160-170詞每分鐘。中國60年代播音185字每分鐘,如今是240-260字每分鐘。這也許是信息的豐富讓人腦的處理能力上升的緣故。


九、漢字:偉大的基礎

漢語一開始也是一種綜合語。大量使用詞根、詞綴。但是從文字角度,漢字為漢語成為分析語提供了非常關鍵的基礎結構。漢字導致詞形變化無法記錄在紙上。最後詞形變化就只能用額外的漢字來標記了。而這個增加的漢字就變成了一個通用的邏輯規則,也就與修飾的特定詞失去了必然關係。這樣漢語就逐漸變成分析語了。

而正是由於漢字將讀音與書寫割裂,使得漢語的語音能夠相對自由地發展。因此在漢語語音在幾千年中變化了如此之大,而我們的文化卻沒有多少割裂。

更進一步地,由於漢字並不受限於讀音,因此可以創造出大量同音異形字,幫助漢語降低平均音節長度、提高組詞的邏輯性。而且,雖然在口語上,漢語的同音異形詞和英語的多義詞都屬於「同一發音可能包含不同含義」的情況,但寫到紙面上,同音異形詞就比多義詞更容易辨識,減少歧義的可能。

有人可能會問,漢語口語交流,並沒有多少歧義的問題。那為什麼文字中會需要額外的消除歧義的能力呢?這是因為一般情況下口語交流是一種雙向交流,如果發現有可能有歧義,可以向對方詢問,主動消除歧義。而文字往往是一種單向交流(不包括網上文字聊天……),一旦出現歧義,就很難消除。因此文字裡的歧義一般需要比口語更小。

所以我們的文字、我們的語音以及我們整個語言整體,都是有機結合在一起的。推崇漢字的拼音化或拉丁語話,都是沒有看清這種密切聯繫。因此盲目把文字拼音化的韓國就會出那種把防水材料搞成吸水材料的笑話(韓語裡「防水」和「放水」讀音一致,結果建築公司錯誤理解了圖紙)。

另外,由於漢字不需要空格,所以相比於類似字號的英文單詞,同一個詞要高而窄。這在排版上有很大的優勢(行距要佔用額外的空間,高而窄可以減少行數)。加上漢語本身信息密度高。所以一般我們看到的中文版的書面文件都比外文版的頁數少。


十、閱讀速度的比較

和語音一樣,閱讀速度同樣受到大腦處理速度的制約。所以各個主要語言區別不大。

在《Reading Chinese Script: A Cognitive Analysis》這本書裡有一個章節《Eye Movements in Reading Chinese and English Text》專門講閱讀中英文時的眼球移動。這是中科院和悉尼大學的兩位學者寫的。這其中發現。熟練的中文閱讀者能夠每分鐘閱讀386個中文詞彙(580個漢字),而熟練的英文閱讀者可以每分鐘閱讀382個英文詞彙。一般人可能會低100詞左右。具體速度還取決於文章的複雜程度,文章簡單的話閱讀速度就更快。

漢語使用者眼睛每次凝視可以閱讀1.71個詞(2.57個漢字),每次凝視平均257毫秒。英文閱讀者每次凝視可以閱讀1.75個詞,每次凝視平均265毫秒。

總體上說,兩者閱讀速度不相伯仲。

在同一個章節中,作者提到,如果通過連續在同一位置顯示不同的詞(RSVP法),就能免去眼睛的運動。這樣,最高可以提升中文閱讀速度約33%(從640字每分鐘提升至853)。英文最高提升也基本上是33%上下(見 http://www.handwritten.net/mv/papers/oqvis...ntation.pdf)。


十一、雙線並行讀取能力:更穩定

經過長期的研究,人們發現不同語言使用者在閱讀時使用的大腦區域是不同的。一下這篇文章提供了部分綜述:
http://www.pitt.edu/~perfetti/PDF/Brain%20...%20et%20al..pdf

閱讀自己母語時,閱讀漢語的人腦部激活範圍比閱讀英語的人大。英語閱讀者在閱讀時主要激活左腦的一些部分。而漢語閱讀者同時激活左右腦。這是一個很有意思的發現。因為,時序信號(語音就是個時序信號)的處理區域一般在左腦,圖像、空間信息的處理區域一般在右腦。所以,很多人認為,漢語閱讀者的閱讀實際上有兩個處理通道。就是說在閱讀漢語時,我們總是一邊通過圖像來直接識別文字含義,一邊通過圖像轉換為讀音然後來識別文字含義。而表音語言只有一條顯著的處理通道。

為了確認這個結果。研究人員進一步研究了一個夾雜表意和表音文字的語言——日語。在閱讀日語時,左腦在閱讀平假名/片假名有優勢,而右腦在閱讀漢字時有優勢。

有意思的是,中國人在讀英語、日語時腦部活動與英美人士讀英語是不一樣的。顯示出中國人長期閱讀中文後,養成的圖形、讀音雙路識別的習慣。不過快速閱讀英文時右腦活躍度不高,可見此時主要依賴讀音識別。具體內容可見下面這篇文章
http://www.pitt.edu/~perfetti/PDF/Brain%20...%20et%20al..pdf

這些研究同時意味著,漢語的兩大處理途徑只有同時失效才會造成閱讀能力低下。這個結論受到近年來的研究支持。如下面這兩個報道:
http://blogs.scientificamerican.com/observ...91012121333.htm

學者研究了具有發展性閱讀障礙(失讀症)的中國兒童,他們大腦的處理語音的部分和處理圖像的部分活躍度都比較差。而英文失讀症的患兒,則不見得有圖像處理問題。事實上,有一種療法就是把英文發音用漢字表示,然後讓患兒閱讀。取得了很好的效果。具體可見1971年的這篇論文。
http://www.eric.ed.gov/ERICWebPortal/searc...&accno=EJ037129

患閱讀障礙的兒童比例也說明了中國兒童不易得閱讀障礙。
http://www.guardian.co.uk/education/2004/s...ighereducation2

根據上面這篇報道,英語區閱讀障礙者比例約為5-6%,而漢語區約為1.5%。百度的數據不知道哪裡來的,居然說中國失讀症患者和美國相當。我看到的英文文獻沒有一個說兩者相當的。都是中國比英美低。可能由於標準不同,還有另一組數據:中國7%,美國17%。實在是沒有見到哪裡有說兩者相當的。

不過值得注意的是,漢語閱讀與英語閱讀使用不同的大腦區域,病變區域也不同。所以具體的致病機理仍然在研究中。目前只能通過患者的行為現象來論證。

也有人懷疑,正是由於漢語造成更大的腦部活動,所以在教育水平普遍落後於發達國家的情況下,中國平均智商仍然高於歐美。關於全球各國平均智商,有兩位作者寫了很多本書。這些書的綜述可見這裡:
http://en.wikipedia.org/wiki/Nations_and_intelligence

不過以上這個智商研究的準確性受到了諸多質疑。所以大家看看就是了,不必太認真。


十二、不夠嚴謹?

有人說漢語的劣勢就是不夠嚴謹。

這其實可以說是分析語和綜合語的差異。分析語對於詞的具體含義需要通過上下文確定。如果上下文給予信息不足,就有可能出現歧義。而很多時候,上下文只能表明這個詞更可能是什麼意思,而不能完全否定其他理解。

這雖然在交流中不會有什麼問題,但是在那些防止別人鑽空子的文件裡就可能造成問題。

我們舉個例子:「中國絕不會首先使用核武器。」

這句話有三種解釋:1、在敵方沒有使用核武器之前,中國不會使用核武器。2、中國在使用常規武器之前不會使用核武器。3、中國不會是世界上第一個使用核武器的國家。

很顯然理解應該是1,但是並無法否定2和3的可能性。因此,很多人認為漢語的這種不嚴謹性會妨礙法律條文和合同。

但是英文難道就很嚴謹麼?He ran into a girl with an umbrella. 帶傘的是男的還是女的?I saw a car with a big flag, which looked really evil. 哪個看起來很邪惡,車還是旗子?China will not be the first to use a nuclear weapon. 這應該是上面的解釋1還是3?

想要做到嚴謹,都需要考慮到其他人閱讀時的想法,然後用其他語句來消除歧義。(順便推薦搞笑英語書籍《Anguished English: An Anthology of Accidental Assaults Upon Our Language》,裡面收錄了很多爆笑的歧義句,比如 If you have not got any fresh vegetables, you may get canned.)

所以,漢語要想說的嚴謹,也是沒有問題,只不過要比一般多一些口舌而已。分析語本身的表意效率就很高。多花一些筆墨,達到嚴謹的效果,也是完全可以做到的。所以這方面如果有差距的話,差距也不大。


十三、劣勢:難以學習

毋庸置疑,雖然漢字承載著漢語的諸多優勢,但是漢字本身最大的劣勢卻是不可迴避的。那就是不利於學習。

我在背英語單詞的時候,發現最好的記憶方法是把意思和讀音結合起來,然後通過讀音記憶拼寫。(完美的表音文字,應該是讀音與拼寫的直接對應。英語由於受到其他語言影響太多所以這方面相對較差,不過這種規律還是相通的。)

相對與文字,人對讀音的記憶速度更快。而表音文字,一旦掌握了拼寫和讀音之間的規律,就很容易記住文字。

而漢語在這方面是很差的。字和字之間缺乏聯繫,字和讀音之間很少有聯繫,而且由於幾千年語音的變化,經常看著是個形聲字,讀音卻與想像的相差甚遠。這是我們文字的劣勢。當然,如前面所說,這也有使用上的優勢。

我們可以看到,幾千年來文字的發展歷程。它總是首先於兩個因素:表意的需要,學習和書寫的難度。

一開始我們的老祖宗試圖用一個字代表一個特定含義。這是很自然的思路。但是後來隨著需要表達的意思成幾何級數增長。漢字逐漸就不夠用了。或者說,這樣的話,同音字實在太多,不利於傳播了。於是多個字組成的詞才出現。在此之後,一大批原來造出來的字都被拋棄了。

比方說騅、驪、騍這種專門為表示特定種類的馬的字。還有璇、璣等等一大堆帶王字旁(斜玉旁)表示特定種類的玉器的字。後者畢竟意思還不錯,還在名字裡用一用。

有一些人對漢字的簡化持有非常大的非議。我覺得大可不必。漢字的簡化是必要的。越複雜的字形,越難以學習。漢字幾千年的發展,使得字形與含義的距離也越來越遠。複雜的字形在表音、表意方面並無優勢。進與进、從與从、後與后,都沒看出來繁體字在表意方面有何優勢,而簡體在學習的簡便性上優勢倒是很明顯。每次看到「憂鬱的烏龜」,我自己都快憂鬱了。

當然,漢字簡化還將一些意思完全不同的字合成了一個字。有個著名的繁體字愛好者嘲笑簡體字的段子是「我女朋友下面給我吃」有歧義。而繁體字版,因為能區分面和麵,是沒有歧義的。當然現實生活裡是沒有人這樣說話的。一般對於「下麵」,我們不是說「下麵條」就是說「下點面」。

而且,拜託,我們是分析語好嗎?拜託有一點分析語的自覺好不好?你覺得專門找一段孤立的話,有什麼價值麼?如果找個綜合語,能用詞形變化把「(男性)我」和「(女性)我」分開,更可以輕易嘲笑漢語造成歧義。分析語本身就要求有上下文提供必要的信息,因為分析語借助邏輯關係省略了大量的信息才實現了更高效率的信息傳遞。這點小小的歧義在現實生活中是不會造成什麼影響。你要問為什麼,這很簡單,因為漢字簡化都不是幾十年前那些人坐在那裡拍腦袋寫出來的,而是之前至少上百年就有人大規模使用的。如果頻繁造成歧義,早就沒有人那樣用了。

當語法發展完全,使用充分之後,維持龐大而複雜的常用文字庫只能不利於學習。適當的簡化是必要的。漢字本身的優越性並不高,但是它為漢語的優越性提供了必要的基礎支持。沒有漢字就沒有漢語,但是漢字本身也是需要時不時進行改革的。畢竟學習的難度在目前條件下還是顯著高於其他語言。如果能在不傷害對漢語的支撐能力的情況下使得漢字更好學習,這無疑是一件好事。

另外,有人認為漢語的檢索非常困難。但是現在都是計算機和智能設備了。有幾個人近年來還翻過字典呢?有幾個人還跑到圖書館裡去查索引呢?連英文都不這麼做了。直接計算機一查,你要的東西在哪個位置就顯示出來了。


十四、漢語與拼音文字的起源對比

最後講個小問題。現在拼音文字大行其道。有的人認為這意味著拼音文字是更先進的文字,所以拼音文字戰勝了表意/意音文字。事實上,單從兩者的發展歷史,是得不到這個結論的。

文字,從一開始就是記錄信息用的。所有文明的最原始的文字,如果是自然生成的話,都是象形文字。這個原因並不難理解。一開始大家可能只要記錄今天是什麼日子、我有幾頭牛之類。顯然是畫個東西上去最簡單。中國、兩河流域、古埃及、古印度、瑪雅,一開始使用的都是象形文字。

從象形文字出發,一個文明可以發展出很多種不同的字形。但是隨著需要表達的意思迅速增加,就需要不斷添加新的字形。這時比較簡單的辦法就是讓一個字型一部分表音一部分表意。中國漢字在擴展時主要採用形聲字策略。用形旁和聲旁組合成一個漢字。而埃及的聖書體也與此類似,聖書體的一個單詞包含兩個部分,一部分用象形符號表音,一部分用象形符號表意。

而歐洲現在主要語言都起源於拉丁文,拉丁文又起源於希臘語。希臘人的字母表是腓內基人教的。而腓內基人的字母又是從埃及人那裡來的。與此同時,還發現了一種可能是拼音文字的「前西奈字母」文字。這種文字與腓內基文字類似,也與聖書體有相似之處。有學者認為,腓內基文字就起源於「前西奈字母」,而「前西奈字母」則是聖書文的一種拼音簡化體。這類似於拼音文和漢字的區別。

所以說白了,從腓內基開始,一直到現在歐洲諸國。其拼音文字的起源,大概都由埃及的聖書體中的表音部分演化而來。

需要注意的是,由於口語先於文字出現,當一個民族還沒有自己文字的時候,接觸到外來文明,就容易用外來文明的字符體系來構建自己的文字。對於這些民族而言,最簡單的就是用先進文明的字母體系來直接表達自己語言的發音。

因此,自腓內基而後的歐洲的次生文明自然紛紛使用字母來記錄自己的語言。

再比如,日本儘管很早就引進了漢字,但是漢字與其原有的語言(當時還沒有文字)並不兼容。而漢語裡根本就沒有簡單的拼音符號。但是日本為了能夠真實記錄自己的語言,最終衍生出了平假名、片假名為漢字注音(這個音是日語裡同義詞的音,不是漢字本身的音)。後來這些就變成了日語的基本符號。

從這裡就可以看出,當次生文明在沒有發展出自己的象形文字體系就被原生文明文化入侵時。無論他們先接觸到的是什麼樣的原生文明語言,最終都會走上使用拼音文字的道路。這樣的拼音文字,同時也很適合直接囫圇吞棗地引進外語的詞彙,方便向先進文明學習。這種特點一直流傳到今天。比如日文「計算機」就是 Personal Computer 的音譯(實際上是PersoCom的音譯)。而英文的各種疾病的名字基本都可以追溯到希臘語,比如腎炎Nephritis,就是從希臘語的腎炎經過拉丁文倒買倒賣而來的。

順便,看到有人質疑希臘是次生文明的這個說法,不得不解釋一句。希臘是埃及和兩河流域的次生文明,正是因為它同時受到了兩大原生文明的哺育,才在古代具有高度發達的文化。但這改變不了希臘是次生文明的現實。這也就是為什麼各國論述古文明的書籍中,希臘文明總比古埃及、兩河、中國等原生文明低一個等級。曾經看到有人用希臘來否定中國在古文明中的地位,這是很可笑的。

那麼為什麼這世界上的表意文字這麼少呢?很顯然,這世界上的原生文明本來就那麼幾個,而次生文明卻要多幾個數量級。歷史大潮中三十年河東三十年河西,原生文明也有可能被次生文明所征服。在征服之後,語言也就有可能會逐漸消亡了。

所以,拼音文字廣泛使用,這並不說明拼音文字就優秀。只能說這世界上的原生文明實在太少。


後記

還是那句話,這文章裡的數據不要太認真,因為採樣的樣本都很小。但是我希望大家明白漢語從來就不是一種落後的語言。

本篇文章已被 徐元直 於 Jan 12 2014, 17:20 編輯過


--------------------
......
PMEmail Poster
Top
1 位使用者正在閱讀本主題 (1 位訪客及 0 位匿名使用者)
0 位會員:

Topic Options Reply to this topicStart new topicStart Poll

 



[ Script Execution time: 0.0163 ]   [ 12 queries used ]   [ GZIP 啟用 ]