ISSN 2224-087X (Друкована версія)
ISSN 2224-0888 (Online версія)

Збірник наукових праць "Електроніка та інформаційні технології"

(З 1966 року до 2010 року виходив під назвою "Теоретична електротехніка")

Свідоцтво про державну реєстрацію КВ № 17618-6468ПР від 11.02.2011 р.

Головна сторінка Пошук Правила оформлення статей English     Русский

Випуск 6

Випуск 6, Сторінки: 155-164
Про статистику відстаней між словами в тексті та проблему розпізнавання змістових слів
О. Кушнір, А. Волоско, Л. Іваніцький, С. Рихлюк
У роботі досліджено статистику відстаней між найближчими слововживаннями тих же словоформ в україномовному тексті. Виділено три граничні випадки - стохастичний режим, рівномірний розподіл відстаней і випадок кластеризації слів, які відповідають відсутності лексичних взаємодій, синтаксичному "відштовхуванню" слів і їхньому "притяганню". Розглянуто нульову статистичну гіпотезу, яка відповідає експоненційному розподілу ймовірності відстаней, а також спостережувані відхилення від неї. Доведено, що згадані три граничні випадки описуються "параметром асиметрії" R - відношенням стандартного відхилення відстані до його середнього значення, яке приблизно дорівнює одиниці, є меншим або більшим за одиницю, відповідно. Показано, що великі значення R сигналізують про ключовий характер слова в тексті, а також проаналізовано переваги і недоліки цього методу розпізнавання змістових слів для україномовних текстів.
PDF-версія

Головна сторінка Пошук Правила оформлення статей English     Русский

© Львівський національний університет імені Івана Франка, 2011

Розробка програмного забезпечення та підтримка - лабораторія високопродуктивних обчислювальних систем