Определение частоты фонем английского языка

Во время работы над одним проектом понадобилась информация о том, как часто встречаются в английском языке различные фонемы. Поскольку в сети такой информации сходу не нашлось, приходится добывать ее самому.

Чтобы рассчитать требуемые величины необходима следующая информация: словарь произношения английских слов и частота, с которой они встречаются в среднем в текстах. Остальное – простая математика.

Фонетический словарь английского языка нашелся по адресу www.speech.cs.cmu.edu/cgi-bin/cmudict и содержал более 120 тысяч слов. Называется он The CMU Pronouncing Dictionary. Все слова в нем написаны заглавными буквами, а фонемы обозначаются комбинациями двух заглавных букв. Все это сразу навело на мысль, что эту базу данных начали составлять еще в седые времена, матричных принтеров и юниксов первых версий.

Информация о частоте слов в английском тексте после вдумчивого гугления обнаружилась на http://www.psy.uwa.edu.au/MRCDataBase/uwa_mrc.htm под названием MRC Psycholinguistic Database. Судя по всему в этой БД содержится огромная масса полезной лингвинистической информации, которую можно извлекать задавая самые разнообразные критерии отбора, но меня интересовали только два поля: Word – само слово и Kucera and Francis written frequency – искомая частота, а точнее количество слов в какой-то репрезентативной выборке. Судя по всему - это и было то, что мне требовалось. Список слов у которых указанный критерий был больше единицы содержал более 17 тысяч слов.

Оба текстовых файла были обработаны программой, приводить которую не буду из-за её простоты и одноразовости. Обнаружилось только около 15 тысяч слов, содержащихся и там и там. Программа просуммировала количество всех фонем каждого слова с весом равным частоте этого слова в тексте. Полученные данные выглядели так:

Фонема по CMU* Взвешенное
число вхождений
AA0 813
AA1 54473
AA2 2779
AE0 1899
AE1 104589
AE2 2784
AH0 287486
AH1 83341
AH2 1659
AO0 855
AO1 46213
AO2 2087
AW0 132
AW1 15522
AW2 910
AY0 1105
AY1 40137
AY2 2235
B 54853
CH 17688
D 121242
DH 116885
EH0 2907
EH1 75581
EH2 6968
ER0 56472
ER1 14763
ER2 506
EY0 311
EY1 40978
EY2 3266
F 56156
G 22859
HH 53340
IH0 35279
IH1 100104
IH2 17240
IY0 41305
IY1 51358
IY2 1007
JH 15946
K 86231
L 113584
M 87223
N 230441
NG 24703
OW0 3671
OW1 30571
OW2 1953
OY0 48
OY1 2247
OY2 74
P 57761
R 132553
S 132805
SH 27177
T 212515
TH 12335
UH0 130
UH1 11702
UH2 399
UW0 3576
UW1 55331
UW2 1345
V 71307
W 65295
Y 19163
Z 58455
ZH 2009
*Цифры у фонем означают вид ударения

Цифры были просуммированы по каждой фонеме без учета ударения, а соответствие обозначений CMU символам международного фонетического алфавита (МФА) было взято из работы Marie Roch IPA/CMU/TIMIT phone mappings and American English examples

Остались нормирование частот, сортировка таблицы и готово: Частотная таблица фонем английского языка

частота английских звуков.

Добрый вечер! Я аспирант и занимаюсь фоносемантикой английских звуков. Для моей работы мне необходима частота всех фонем в речи и письменном тексте. Как оказалось, эту информацию до сих пор трудно найти.Меня очень заинтересовал ваш метод подсчета частоты звуков. Вы упомянули программу, которая Вам в этом помогла. Не могли бы вы мне о ней написать, и если возможно, как можно было бы оформить ссылку на ваши данные (имею ввиду автора, когда и для чего производились подсчеты). Заранее спасибо.
Елена

Видите ли, я немного

Видите ли, я немного программист. Т.е. написать скриптик, который построчно читает файл, перемножает и суммирует цифры из него для меня не проблема. Методику и исходные данные я изложил тут.
Делалось это для проекта Автоматические транскрипции (http://transcriptor.ru) просто, как попутные данные.
Если вас еще что-то интересует, пишите.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Доступны HTML теги: <a> <em> <strong> <cite> <code> <s> <u> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>. Beside the tag style "<foo>" it is also possible to use "[foo]".
  • Images can be added to this post.

Подробнее о форматировании

CAPTCHA
Защита от спама: ответьте на вопрос.
Image CAPTCHA
Введите символы с картинки. Только заглавные буквы английского алфавита.