|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Всякое |
Определение частоты фонем английского языкаВо время работы над одним проектом понадобилась информация о том, как часто встречаются в английском языке различные фонемы. Поскольку в сети такой информации сходу не нашлось, приходится добывать ее самому. Чтобы рассчитать требуемые величины необходима следующая информация: словарь произношения английских слов и частота, с которой они встречаются в среднем в текстах. Остальное – простая математика. Фонетический словарь английского языка нашелся по адресу www.speech.cs.cmu.edu/cgi-bin/cmudict и содержал более 120 тысяч слов. Называется он The CMU Pronouncing Dictionary. Все слова в нем написаны заглавными буквами, а фонемы обозначаются комбинациями двух заглавных букв. Все это сразу навело на мысль, что эту базу данных начали составлять еще в седые времена, матричных принтеров и юниксов первых версий. Информация о частоте слов в английском тексте после вдумчивого гугления обнаружилась на http://www.psy.uwa.edu.au/MRCDataBase/uwa_mrc.htm под названием MRC Psycholinguistic Database. Судя по всему в этой БД содержится огромная масса полезной лингвинистической информации, которую можно извлекать задавая самые разнообразные критерии отбора, но меня интересовали только два поля: Word – само слово и Kucera and Francis written frequency – искомая частота, а точнее количество слов в какой-то репрезентативной выборке. Судя по всему - это и было то, что мне требовалось. Список слов у которых указанный критерий был больше единицы содержал более 17 тысяч слов. Оба текстовых файла были обработаны программой, приводить которую не буду из-за её простоты и одноразовости. Обнаружилось только около 15 тысяч слов, содержащихся и там и там. Программа просуммировала количество всех фонем каждого слова с весом равным частоте этого слова в тексте. Полученные данные выглядели так:
Цифры были просуммированы по каждой фонеме без учета ударения, а соответствие обозначений CMU символам международного фонетического алфавита (МФА) было взято из работы Marie Roch IPA/CMU/TIMIT phone mappings and American English examples Остались нормирование частот, сортировка таблицы и готово: Частотная таблица фонем английского языка |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Direqtor Home Page by ASIADATA. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Отправить комментарий