权威字典们的单词音节划分问题

背景

最近要制作单词音节划分相关的内容，于是开始调研，发现各家字典的内容或多或少都有些问题。

如图所示，在韦氏字典中definition第一个i被当作单独的音节被划分出来，mother的th也被归到了第二个音节。按照读音划分的话，不应该是ba·llon和mo·ther吗？这非常的反直觉，这到底是怎么回事呢？

在音韵学中，语言学家是这样划分音节的：

其中音节可以被分成onset和rhyme，onset只能是辅音，rhyme既可以包括元音，也可以包括辅音。在rhyme中，nucleus只能是元音，而coda只能是辅音。

举几个英文单词的例子：

单词cat，/kat/，/k/是onset，/at/是rhyme，/a/是nucleus，/t/是coda
单词surprise，/səˈprʌɪz/，由两个音节组成
- 第一个音节sur /sə/，/s/是onset，/ə/是nucleus，没有coda
- 第二个音节prise /prʌɪz/，/pr/是onset，/ʌɪ/是nucleus，/z/是coda
单词eerie，/ˈɪəri/，也由两个音节组成
- 第一个音节ee /ɪə/，只有nucleus /ɪə/
- 第二个音节rie /ri/，/r/是onset，/i/是nucleus，没有coda

可以看到，音节划分是根据读音来的，而不是根据拼写来的。英语更是出了名的拼写和读音不对应，因此仅按照拼写判断音节是不科学的。

但是问题来了，在分配surprise的音节时，为什么我们分的是sur + prise，而不是surpr + ise？

这是因为在英语音韵学中有一个概念叫做Maximum Onset Principle（MOP），指的是英语音节在划分时，应当给onset分配最多的份额。

在单词拥有两个nucleus（元音）的情况下，理想情况也应当拥有两个onset，因此与其把/pr/分给第一个音节的coda，不如分给第二个音节当作onset。因此，definition /ˌdɛfɪˈnɪʃn/ 的正确音节划分应该是 de·fi·ni·tion，这样才能满足MOP。

至于为什么会有这个准则，以及为什么不是surp + rise，这个就涉及到音的响度排序sonority hierarchy和音的分类，此处不在赘述。总之，这样的音节区分是非常系统、自然以及科学的一个分法。

那为什么字典们决定这么分呢？

我思索了很久并没有找到什么规律，而且发现很多自相矛盾甚至匪夷所思的例子。

例如，我曾以为重读音节可以免受诡异coda的划分，如猜测def·i·ni·tion中，ni是重读音节，所以才不会被分成in·i·tion。但是在par·a·graph中，par是重读音节，r还是被拆到了coda。

又例如，我曾以为是否划分为coda与音的响度有关，如no·tice·able和post·age，/s/和/st/均为响度较低的摩擦音和爆破音，所以不做onset。但是又有dem·on·strate和phe·nom·e·non这样诡异的反例。

再有就是所有字母双写的单词双写字母分属不同音节，似乎字典是依据拼写而不是读音拆分的音节，如an·ni·hi·late，bal·loon；以及所有a、e、o开头的无onset音节，全都没有音节划分，如arise和open。

似乎一不小心打开了一个潘多拉魔盒。

那友商是怎么解决的呢？

一部分友商会在韦氏、牛津字典音节划分的基础上，手动调整类似于moth·er这样完全不符合常理的例子，以及上述arise和open等数据缺失的单词。

另一部分友商，则直接按照语言学的音节划分录入数据，但还是能看到类似priv·acy这样莫名其妙的划分。

最后我们还是决定先使用使用xpath爬取字典内容，然后再从产品角度考虑哪种方案更适合当下这个情况。