Частотность — различия между версиями
[досмотренная версия] | [досмотренная версия] |
MMMAAANNN (обсуждение | вклад) м (→Частотный словарь) |
(→Другие наборы словоформ от archi77) |
||
(не показано 9 промежуточных версии 2 участников) | |||
Строка 1: | Строка 1: | ||
− | '''Частотность''' | + | '''Частотность''' — показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и других элементов в определенном массиве текста. Для измерения частотности используют [[корпус]]ы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют. |
== Корпусы русского языка == | == Корпусы русского языка == | ||
− | В рамках Клавогонок чаще всего используются два корпуса русского | + | В рамках Клавогонок чаще всего используются два профессионально составленных корпуса русского языка — корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ). |
− | === Корпус С. | + | === Корпус С. А. Шарова === |
+ | Вероятно, использование [[Корпус Шарова|корпуса Шарова]] обусловлено его легкой доступностью в поисковых системах по запросу «частотный словарь», а также наличием уже отсортированного по частоте списка лемм и словоформ<ref name="sharov">С. А Шаров. Частотный словарь. [http://www.artint.ru/projects/frqlist.php]</ref>. | ||
− | + | Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980—1995 г. Газетные тексты датируются 1997—1999 г. | |
− | + | ||
− | Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке | + | |
=== Национальный корпус русского языка === | === Национальный корпус русского языка === | ||
− | + | С 2001 года на базе корпуса Шарова создаётся Национальный корпус русского языка ({{w|Национальный_корпус_русского_языка|НКРЯ}}<ref>[http://www.ruscorpora.ru/ Национальный корпус русского языка]</ref>). Его составили на базе более представительного объема текстов (более 340 миллионов словоупотреблений<ref>[http://www.ruscorpora.ru/corpora-stat.html Статистика НКРЯ]</ref>). Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот<ref name="Lyashevskaya">О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. [http://dict.ruslang.ru/freq.php Электронная версия издания]</ref>. | |
− | + | ||
== Словари Клавогонок на основе частотности == | == Словари Клавогонок на основе частотности == | ||
Строка 19: | Строка 17: | ||
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы: | Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы: | ||
* словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]); | * словоформ (наиболее популярная категория благодаря ее практической ценности; например, [[Частотный словарь]], [[Соточка]], [[Русский Частотный]]); | ||
− | * лемм ( | + | * лемм (то есть слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа — что ограничивает их практическую ценность, поскольку тренируются не все окончания); |
− | * буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], | + | * буквосочетаний (есть словари, основанные на частотности [[диграмма|диграмм]], [[триграммы|триграмм]], и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим [[Абракадабра]]; |
* букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе). | * букв (стандартный режим [[Буквы]] и некоторые пользовательские словари на его основе). | ||
Строка 27: | Строка 25: | ||
==== Частотный словарь ==== | ==== Частотный словарь ==== | ||
− | Наиболее известный из | + | Наиболее известный из них — [[Частотный словарь]], созданный [[archi77]] — подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым<ref name="sharov" />. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте<ref name="slovoformy-sharov">Словоформы корпуса Шарова, отсортированные по частоте [http://www.artint.ru/projects/frqlist/words.num.zip]</ref>. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы. |
==== Другие наборы словоформ от archi77 ==== | ==== Другие наборы словоформ от archi77 ==== | ||
− | Этим автором создан ряд других частотных словарей с дополнительной нумерацией ( | + | Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частотный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов. |
− | ==== | + | ==== 50 % русского текста ==== |
Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова. | Словарь [[50% русского текста]] создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова. | ||
Строка 39: | Строка 37: | ||
=== По леммам === | === По леммам === | ||
− | Наиблее популярным словарем этой категории является словарь [[5000 частых слов]] archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных | + | Наиблее популярным словарем этой категории является словарь [[5000 самых частых слов]] archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д. |
=== По буквосочетаниям === | === По буквосочетаниям === | ||
Строка 45: | Строка 43: | ||
=== Комбинированные словари === | === Комбинированные словари === | ||
− | Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие [[кибертексты]] фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых | + | Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие [[кибертексты]] фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых частотные словоформы использованы в качестве болванки для тренировки других характеристик (например, [["частотка!" - (Да ну?)]]). |
== Примечания == | == Примечания == | ||
<references/> | <references/> | ||
+ | |||
+ | [[Категория:Терминология Клавогонок]] |
Текущая версия на 17:43, 6 мая 2014
Частотность — показатель частоты встречаемости букв, буквосочетаний, слов, словосочетаний и других элементов в определенном массиве текста. Для измерения частотности используют корпусы (базы данных, состоящие из подборок текстов). Частотность сильно зависит от тематики базы текстов, в которой ее измеряют.
Корпусы русского языка[править]
В рамках Клавогонок чаще всего используются два профессионально составленных корпуса русского языка — корпус С. А. Шарова и Национальный корпус русского языка (НКРЯ).
Корпус С. А. Шарова[править]
Вероятно, использование корпуса Шарова обусловлено его легкой доступностью в поисковых системах по запросу «частотный словарь», а также наличием уже отсортированного по частоте списка лемм и словоформ[1].
Корпус Шарова построен из подборки современной прозы, политических мемуаров, современных газет и научно-популярной литературы объемом около 40 миллионов слов (на прозу приходится более половины этого объема). Тексты, входящие в этот корпус, были написаны на русском языке в промежутке между 1970-м и 2002-м годом, большей частью в промежутке 1980—1995 г. Газетные тексты датируются 1997—1999 г.
Национальный корпус русского языка[править]
С 2001 года на базе корпуса Шарова создаётся Национальный корпус русского языка (НКРЯ[2]). Его составили на базе более представительного объема текстов (более 340 миллионов словоупотреблений[3]). Однако для использования частотности словоформ приходится делать преобразования самостоятельно, поскольку доступен только алфавитный список словоформ с указанием их частот[4].
Словари Клавогонок на основе частотности[править]
Существует множество словарей, которые в той или иной мере учитывают частотность. В частности, созданы словари и режимы:
- словоформ (наиболее популярная категория благодаря ее практической ценности; например, Частотный словарь, Соточка, Русский Частотный);
- лемм (то есть слова только в начальных формах, например существительные в таких словарях упоминаются только в именительном падеже единственного числа — что ограничивает их практическую ценность, поскольку тренируются не все окончания);
- буквосочетаний (есть словари, основанные на частотности диграмм, триграмм, и т. д.). Одним из режимов, основанных на частоте буквосочетаний, является стандартный режим Абракадабра;
- букв (стандартный режим Буквы и некоторые пользовательские словари на его основе).
По словоформам[править]
Создано множество словарей, основанных на частотности словоформ.
Частотный словарь[править]
Наиболее известный из них — Частотный словарь, созданный archi77 — подготовлен на основе корпуса русского языка, опубликованного С. А. Шаровым[1]. Данный словарь представляет собой первые 70 словоформ из списка словоформ данного корпуса, отсортированного по частоте[5]. Словарь приобрел большую популярность благодаря тому, что это был самый ранний словарь, основанный на частотности, к тому же включенные в него слова коротки, широко применимы и быстро усваиваются, благодаря чему скорость в данном словаре растет быстро. Частотный словарь archi77 стал своеобразным стандартом и пользуется популярностью, превышающей некоторые стандартные режимы.
Другие наборы словоформ от archi77[править]
Этим автором создан ряд других частотных словарей с дополнительной нумерацией (Частотный словарь-2, Частотный словарь-3 и т. д.), которые представляют собой последовательные наборы словоформ по 200 из того же источника (корпус Шарова). Кроме того, этим автором создано множество других словарей, отчасти основанных на частотности словоформ и слов.
50 % русского текста[править]
Словарь 50% русского текста создан MMMAAANNN на основе корпуса Шарова. В нем использованы первые 630 словоформ частотного списка Шарова. Более частые словоформы в этом словаре встречаются чаще редких для большей имитации естественного текста. Название словаря основано на том факте, что эти 630 словоформ охватывают приблизительно половину корпуса Шарова.
Русский Частотный[править]
Словарь Русский Частотный создан JohnyCar на основе первой тысячи словоформ частотного списка НКРЯ. В этом словаре словоформы встречаются с разной частотой, более частые словоформы попадаются чаще более редких.
По леммам[править]
Наиблее популярным словарем этой категории является словарь 5000 самых частых слов archi77. Кроме того, существуют словари с набором частых глаголов, прилагательных и т. д.
По буквосочетаниям[править]
К этой категории относятся частотные абракадабры авторства Русинова (Абракадабра - частотная 1 и др.), наборы триграмм (Трехбукв сочетания - 1 и др. авторства Onami) и другие словари.
Комбинированные словари[править]
Существует множество словарей, в которых частотность используется, но не является основной характеристикой. В частности, многие кибертексты фактически используют три частотных словоформы в определенном порядке. Есть словари, в которых частотные словоформы использованы в качестве болванки для тренировки других характеристик (например, "частотка!" - (Да ну?)).
Примечания[править]
- ↑ 1,0 1,1 С. А Шаров. Частотный словарь. [1]
- ↑ Национальный корпус русского языка
- ↑ Статистика НКРЯ
- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики. 2009 г. Электронная версия издания
- ↑ Словоформы корпуса Шарова, отсортированные по частоте [2]