Частота арабских букв - Arabic letter frequency

В частота писем в тексте часто изучается для использования в криптоанализ, и частотный анализ особенно.

Ни в одном языке нет точного частотного распределения букв, поскольку все авторы пишут немного по-разному. Как правило, тексты на разных языках с использованием Арабский шрифт (например. арабский, Османский Турецкий, Персидский и Урду ) будет иметь разную частоту букв, что наиболее очевидно в случае букв, которые используются только в некоторых языках (например, персидские буквы پ, چ, گ, которые не используются для письма на арабском языке).

Методы кодирования наиболее часто встречающихся букв самыми короткими символами были впервые применены в телеграфных кодах и используются в современных методах сжатия данных, таких как Кодирование Хаффмана.

Что учитывается при вводе арабского текста?

Арабский алфавит состоит из 28 основных букв, это буквы с 1 по 28 в таблице 1. Восемь измененных букв, перечисленных в позициях с 29 по 36 в той же таблице, используются точно так же.[требуется разъяснение ]. Если эти 8 модифицированных форм сложить в основной список на основе формы или фонетического сходства, результат будет таким, как показано в таблице 2. Для точного частотного анализа частота каждой из 36 букв таблицы 1 подсчитывается независимо.

Порядок алфавита, показанный в таблицах, более логичен.[нужна цитата ] чем используется Unicode стандарт.

Рисунок 1: Арабские символы, которые могут быть созданы с помощью Арабская буквенная клавиатура Intellark.
Таблица 1: Арабский алфавит. Буквы с 1 по 28 - это первые буквы. Буквы с 29 по 36 - это модифицированные буквы.
Таблица 2: Арабский алфавит с измененными буквами, объединенными в их основные формы.
Распределение частоты букв для подсчитанных букв: данные гистограммы, отсортированные по значению Unicode
Распределение частоты букв для подсчитанных букв: данные гистограммы, отсортированные по частоте

Хотя полный набор арабских символов включает около десяти диакритических знаков, как показано на рисунке 1, частотный анализ арабских символов касается только вычисления частоты букв алфавита, показанной в таблице 2.

Источники с более чем пятью миллионами писем

Следующие известные арабские источники используются для получения приемлемого количества данных, по которым проводится статистика частоты.

  • Первые семь томов серии البداية والنهاية (Начало и конец)[1] из Ибн Касир, с 2 855 страницами, содержащими 1 096 047 слов, содержащих 4 326 031 букву.
  • Книга الرحيق المختوم (Запечатанный нектар )[2] Алмубаракфури, с 284 страницами, содержащими 134 662 слова, содержащие 553 740 букв.
  • Книга تحفة العروسين (Шедевр невест)[3] Аль-шури, с 239 страницами, содержащими 66 550 слов, содержащих 242 361 букву.

В совокупности эти источники составляют 3378 страниц, содержащих 1 297 259 слов и 5 122 132 буквы.

На следующих графиках показано распределение частоты букв для подсчитанных букв; На рисунке 2 показаны данные гистограммы, отсортированные по Unicode ценить. На рисунке 3 показаны данные гистограммы, отсортированные по частоте.

ПисьмоОтносительная частота в арабском языке
ء0.2%0.2
 
ؤ0.05%0.05
 
ئ0.18%0.18
 
ا12.5%12.5
 
آ0.1%0.1
 
أ3%3
 
إ1%1
 
ب4.5%4.5
 
ة3.2%3.2
 
ت0.8%0.8
 
ث1.1%1.1
 
ج1.8%1.8
 
ح0.8%0.8
 
خ0.9%0.9
 
د2.5%2.5
 
ذ0.8%0.8
 
ر4.1%4.1
 
ز0.4%0.4
 
س2.3%2.3
 
ش0.7%0.7
 
ص0.9%0.9
 
ض0.4%0.4
 
ط0.5%0.5
 
ظ0.1%0.1
 
ع3.9%3.9
 
غ0.3%0.3
 
ف2.7%2.7
 
ق2.6%2.6
 
ك1.9%1.9
 
ل12%12
 
م6.3%6.3
 
ن6.4%6.4
 
ه5%5
 
و5.8%5.8
 
ى1%1
 
ي6.2%6.2
 

Рекомендации

  1. ^ Ибн Касир, Исмаил (13 ??). Начало и конец (по-арабски). Получено 23 января 2011. Проверить значения даты в: | год = (помощь)
  2. ^ Альмубаракфури, Сафийюррахман (2002). Запечатанный нектар (по-арабски). ISBN  978-1591440710. Получено 24 января 2011.
  3. ^ Аш-сюри, ​​Маджди (19 ??). Шедевр невесты (по-арабски). Получено 24 января 2011. Проверить значения даты в: | год = (помощь)

внешняя ссылка