权威字典们的单词音节划分问题
背景
最近要制作单词音节划分相关的内容,于是开始调研,发现各家字典的内容或多或少都有些问题。
如图所示,在韦氏字典中definition第一个i被当作单独的音节被划分出来,mother的th也被归到了第二个音节。按照读音划分的话,不应该是ba·llon和mo·ther吗?这非常的反直觉,这到底是怎么回事呢?
语言学的音节划分
在音韵学中,语言学家是这样划分音节的:
- syllable
- onset
- rhyme
- nucleus
- coda
其中音节可以被分成onset和rhyme,onset只能是辅音,rhyme既可以包括元音,也可以包括辅音。在rhyme中,nucleus只能是元音,而coda只能是辅音。
举几个英文单词的例子:
- 单词cat,/kat/,/k/是onset,/at/是rhyme,/a/是nucleus,/t/是coda
- 单词surprise,/səˈprʌɪz/,由两个音节组成
- 第一个音节sur /sə/,/s/是onset,/ə/是nucleus,没有coda
- 第二个音节prise /prʌɪz/,/pr/是onset,/ʌɪ/是nucleus,/z/是coda
- 单词eerie,/ˈɪəri/,也由两个音节组成
- 第一个音节ee /ɪə/,只有nucleus /ɪə/
- 第二个音节rie /ri/,/r/是onset,/i/是nucleus,没有coda
可以看到,音节划分是根据读音来的,而不是根据拼写来的。英语更是出了名的拼写和读音不对应,因此仅按照拼写判断音节是不科学的。
但是问题来了,在分配surprise的音节时,为什么我们分的是sur + prise,而不是surpr + ise?
这是因为在英语音韵学中有一个概念叫做Maximum Onset Principle(MOP),指的是英语音节在划分时,应当给onset分配最多的份额。
在单词拥有两个nucleus(元音)的情况下,理想情况也应当拥有两个onset,因此与其把/pr/分给第一个音节的coda,不如分给第二个音节当作onset。因此,definition /ˌdɛfɪˈnɪʃn/ 的正确音节划分应该是 de·fi·ni·tion,这样才能满足MOP。
至于为什么会有这个准则,以及为什么不是surp + rise,这个就涉及到音的响度排序sonority hierarchy和音的分类,此处不在赘述。总之,这样的音节区分是非常系统、自然以及科学的一个分法。
字典们的划分
那为什么字典们决定这么分呢?
我思索了很久并没有找到什么规律,而且发现很多自相矛盾甚至匪夷所思的例子。
例如,我曾以为重读音节可以免受诡异coda的划分,如猜测def·i·ni·tion中,ni是重读音节,所以才不会被分成in·i·tion。但是在par·a·graph中,par是重读音节,r还是被拆到了coda。
又例如,我曾以为是否划分为coda与音的响度有关,如no·tice·able和post·age,/s/和/st/均为响度较低的摩擦音和爆破音,所以不做onset。但是又有dem·on·strate和phe·nom·e·non这样诡异的反例。
再有就是所有字母双写的单词双写字母分属不同音节,似乎字典是依据拼写而不是读音拆分的音节,如an·ni·hi·late,bal·loon;以及所有a、e、o开头的无onset音节,全都没有音节划分,如arise和open。
似乎一不小心打开了一个潘多拉魔盒。
那友商是怎么解决的呢?
一部分友商会在韦氏、牛津字典音节划分的基础上,手动调整类似于moth·er这样完全不符合常理的例子,以及上述arise和open等数据缺失的单词。
另一部分友商,则直接按照语言学的音节划分录入数据,但还是能看到类似priv·acy这样莫名其妙的划分。
最后我们还是决定先使用使用xpath爬取字典内容,然后再从产品角度考虑哪种方案更适合当下这个情况。