权威字典们的单词音节划分问题

背景

最近要制作单词音节划分相关的内容,于是开始调研,发现各家字典的内容或多或少都有些问题。

XI3vfs.png
XI9TED.png

如图所示,在韦氏字典中definition第一个i被当作单独的音节被划分出来,mother的th也被归到了第二个音节。按照读音划分的话,不应该是ba·llon和mo·ther吗?这非常的反直觉,这到底是怎么回事呢?

语言学的音节划分

在音韵学中,语言学家是这样划分音节的:

其中音节可以被分成onset和rhyme,onset只能是辅音,rhyme既可以包括元音,也可以包括辅音。在rhyme中,nucleus只能是元音,而coda只能是辅音。

举几个英文单词的例子:

可以看到,音节划分是根据读音来的,而不是根据拼写来的。英语更是出了名的拼写和读音不对应,因此仅按照拼写判断音节是不科学的。

但是问题来了,在分配surprise的音节时,为什么我们分的是sur + prise,而不是surpr + ise?

这是因为在英语音韵学中有一个概念叫做Maximum Onset Principle(MOP),指的是英语音节在划分时,应当给onset分配最多的份额。

在单词拥有两个nucleus(元音)的情况下,理想情况也应当拥有两个onset,因此与其把/pr/分给第一个音节的coda,不如分给第二个音节当作onset。因此,definition /ˌdɛfɪˈnɪʃn/ 的正确音节划分应该是 de·fi·ni·tion,这样才能满足MOP。

至于为什么会有这个准则,以及为什么不是surp + rise,这个就涉及到音的响度排序sonority hierarchy和音的分类,此处不在赘述。总之,这样的音节区分是非常系统、自然以及科学的一个分法。

字典们的划分

那为什么字典们决定这么分呢?

我思索了很久并没有找到什么规律,而且发现很多自相矛盾甚至匪夷所思的例子。

例如,我曾以为重读音节可以免受诡异coda的划分,如猜测def·i·ni·tion中,ni是重读音节,所以才不会被分成in·i·tion。但是在par·a·graph中,par是重读音节,r还是被拆到了coda。

又例如,我曾以为是否划分为coda与音的响度有关,如no·tice·able和post·age,/s/和/st/均为响度较低的摩擦音和爆破音,所以不做onset。但是又有dem·on·strate和phe·nom·e·non这样诡异的反例。

再有就是所有字母双写的单词双写字母分属不同音节,似乎字典是依据拼写而不是读音拆分的音节,如an·ni·hi·late,bal·loon;以及所有a、e、o开头的无onset音节,全都没有音节划分,如arise和open。

似乎一不小心打开了一个潘多拉魔盒。

那友商是怎么解决的呢?

一部分友商会在韦氏、牛津字典音节划分的基础上,手动调整类似于moth·er这样完全不符合常理的例子,以及上述arise和open等数据缺失的单词。

另一部分友商,则直接按照语言学的音节划分录入数据,但还是能看到类似priv·acy这样莫名其妙的划分。

最后我们还是决定先使用使用xpath爬取字典内容,然后再从产品角度考虑哪种方案更适合当下这个情况。