Частотность
Частотность — показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и других элементов в определенном массиве текста. Для измерения частотности используют корпусы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.
Корпусы русского языка[править]
В рамках Клавогонок чаще всего используются два профессионально составленных корпуса русского языка — корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).
Корпус С. А. Шарова[править]
Вероятно, использование корпуса Шарова обусловлено его легкой доступностью в поисковых системах по запросу «частотный словарь», а также наличием уже отсортированного по частоте списка лемм и словоформ[1].
Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980—1995 г. Газетные тексты датируются 1997—1999 г.
Национальный корпус русского языка[править]
С 2001 года на базе корпуса Шарова создаётся Национальный корпус русского языка (НКРЯ[2]). Его составили на базе более представительного объема текстов (более 340 миллионов словоупотреблений[3]). Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот[4].
Словари Клавогонок на основе частотности[править]
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:
- словоформ (наиболее популярная категория благодаря ее практической ценности; например, Частотный словарь, Соточка, Русский Частотный);
- лемм (то есть слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа — что ограничивает их практическую ценность, поскольку тренируются не все окончания);
- буквосочетаний (есть словари, основанные на частотности диграмм, триграмм, и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим Абракадабра;
- букв (стандартный режим Буквы и некоторые пользовательские словари на его основе).
По словоформам[править]
Создано множество словарей, основанных на частотности словоформ.
Частотный словарь[править]
Наиболее известный из них — Частотный словарь, созданный archi77 — подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым[1]. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте[5]. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.
Другие наборы словоформ от archi77[править]
Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частотный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.
50 % русского текста[править]
Словарь 50% русского текста создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.
Русский Частотный[править]
Словарь Русский Частотный создан JohnyCar на основе первой тысячи словоформ частотного списка НКРЯ. В этом словаре словоформы встречаются с разной частотой, более частые словоформы попадаются чаще более редких.
По леммам[править]
Наиблее популярным словарем этой категории является словарь 5000 самых частых слов archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.
По буквосочетаниям[править]
К этой категории относятся частотные абракадабры авторства Русинова (Абракадабра - частотная 1 и др.), наборы триграмм (Трехбукв сочетания - 1 и др. авторства Onami) и другие словари.
Комбинированные словари[править]
Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие кибертексты фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых частотные словоформы использованы в качестве болванки для тренировки других характеристик (например, "частотка!" - (Да ну?)).
Примечания[править]
- ↑ 1,0 1,1 С. А Шаров. Частотный словарь. [1]
- ↑ Национальный корпус русского языка
- ↑ Статистика НКРЯ
- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. Электронная версия издания
- ↑ Словоформы корпуса Шарова, отсортированные по частоте [2]