Конечно же, корпус не идеален. 50% - это скорее такое "маркетинговое название" :) Корпус Шарова я взял просто потому, что там было легко выделить самые частотные словоформы - там был список по убыванию частоты. Я сложил частоты самостоятельно, вышло, что 630 словоформ (не слов!) дают около 50% (на самом деле чуть меньше, 49 с десятыми долями). На точность не претендую. Тем не менее, считаю, что польза от заучивания до автоматизма наиболее частых словоформ возможна.
630 самых частых словоформ из исследования С. А. Шарова * на частоту в степени 0,75; охватывают примерно 50% русского текста
Словарь мне нравится, но с 50% охвата я никак не согласен. 1) Корпус Шарова слабоват, если уж брать за основу то НКРЯ . 2) Никакими 50% тут не пахнет без подтасовок. По данным НКРЯ 14336 словоформы дают менее 43% частотного охвата. 630 наиболее частотных словоформ по данным того же НКРЯ дают частотный охват что-то 35%.
следовательно, вполне возможно, чтобы 630 словоформ покрывали 50 % текста)
Спасибо за комментарий :)
Словарь мне нравится, но с 50% охвата я никак не согласен.
1) Корпус Шарова слабоват, если уж брать за основу то НКРЯ .
2) Никакими 50% тут не пахнет без подтасовок. По данным НКРЯ 14336 словоформы дают менее 43% частотного охвата. 630 наиболее частотных словоформ по данным того же НКРЯ дают частотный охват что-то 35%.
Чтобы оставлять комментарии, нужно зарегистрироваться.