ISSN 2224-087X (Друкована версія)
ISSN 2224-0888 (Online версія)

Збірник наукових праць "Електроніка та інформаційні технології"

(З 1966 року до 2010 року виходив під назвою "Теоретична електротехніка")

Свідоцтво про державну реєстрацію КВ № 17618-6468ПР від 11.02.2011 р.

Головна сторінка Пошук Правила оформлення статей English     Русский

Випуск 9

Випуск 9, Сторінки: 94-105
ЗАКОНИ ЦІПФА І ГІПСА ДЛЯ ПРИРОДНОГО ТЕКСТУ ТА ДЕЯКИХ РАНДОМНИХ ТЕКСТІВ НА ЙОГО ОСНОВІ
О. Кушнір, В. Бурий, С. Гриджан, Л. Іваніцький, С. Рихлюк
На основі вихідного природного тексту згенеровано рандомізовані тексти Хомського і рандомні тексти "мавпи Міллера". Рандомні тексти створено за таким алгоритмом: усі літери мають однакову наперед задану ймовірність, а ймовірність розділювача поміж словами (пробілу) задається незалежно від них. Вивчено залежності ранг-частота, розподіли кумулятивної ймовірності Парето, розподіли ймовірності частоти слів і залежності кількості різних слів (словники) від кількості всіх слів як функції довжини тексту. Під рандомними текстами Хомського розуміємо природний текст, рандомізований так, що "слова" в ньому є довільними послідовностями літер і пробілів між найближчими появами деякої наперед визначеної літери (наприклад, i). Виконано порівняння показників степенів, які фігурують у різних степеневих законах, що описують статистику слів для природного тексту і рандомного тексту, а також проаналізовано, наскільки теоретичні співвідношення між цими степенями дотримано на практиці. Згадані співвідношення дещо нагадують аналоги так званих співвідношень універсальності поміж степенями різних критичних параметрів у фізиці критичних явищ. Емпірично доведено, що показники $alpha$ і $eta$ законів Ціпфа і розподілу ймовірності слів для рандомних текстів Хомського обмежені нерівностями $alpha<1$ і $eta>1$, тоді як показник закону Гіпса для словника повинен становити $etaapprox 1$. Ці результати порівняно з даними для текстів мавпи Міллера. З’ясовано, що словник текстів Хомського багатший, ніж словник текстів мавпи Міллера. Виявлено, що закон Гіпса для рандомних текстів Хомського виконується з винятковою точністю, схоже до рандомних текстів, генерованих згідно з процесом "intermittence silence". Це дещо відмінне від ситуації для достатньо довгих природних текстів, які виявляють дещо "випуклу" залежність словника від довжини тексту, побудовану в подвійному логарифмічному масштабі.
PDF-версія

Головна сторінка Пошук Правила оформлення статей English     Русский

© Львівський національний університет імені Івана Франка, 2011

Розробка програмного забезпечення та підтримка - лабораторія високопродуктивних обчислювальних систем