November, 2021
Гэты праект - кутні камень у падмурак беларускага мовазнаўства XXI стагоддзя. Як граматыка Браніслава Тарашкевіча на пачатку XX стагоддзя адыграла важную ролю ў справе практычнага выкарыстання і ўмацавання беларускай мовы, так і Граматычная база мае вялікае практычнае значэнне ў наш лічбавы век, калі прысутнасць мовы ў інфармацыйных тэхналогіях адназначна надае ёй моцную падтрымку і выводзіць у шэрагі канкурэнтаздольных моў.
Базу можна разглядаць як самы поўны камп’ютарны збор слоў беларускае мовы, з усімі формамі і граматычнымі пазнакамі. Гэта дае шмат магчымасцяў, пра якія часам не здагадваюцца нават мовазнаўцы, то бок тыя, хто найбольш зацікаўлены ў выкарыстанні Граматычнай базы.
База ўтрымлівае каля 265 тыс. cлоў і ~4.5 млн. словаформаў. Калі выдаць яе на паперы, то атрымаецца 50-60 тамоў(37 тыс. старонак) такога фармату як “Тлумачальны слоўнік беларускай мовы” (у 5 тамах), таму быў створаны зручны для карыстальнікаў вэб-інтэрфейс.
Цяжка знайсці сучасны праект, звязаны з беларускай мовай, які не будзе мець карысці ад выкарыстання Граматычнай базы. Семантыка, фанетыка, распазнаванне і сінтэз маўлення, дыялекталогія, укладанне падручнікаў, камп’ютарная апрацоўка тэкстаў, пошукавыя сістэмы - для ўсяго гэтага Граматычная база проста неабходная.
Праверка правапісу. Граматычная база дае найбольш поўны і найбольш якасны спіс слоў для праверкі правапісу. Усе існыя да гэтага спісы не могуць з ёй канкураваць. Гэта значыць, што праверка правапісу беларускае мовы выходзіць на новы якасны ўзровень.
Аналіз. Выбаркі слоў па адмысловым крытэрыі дапамогуць аналізаваць групы слоў. Гэта значна спрашчае працу даследчыкам мовы, рэдактарам, перакладчыкам, выкладчыкам, студэнтам, школьнікам: яны з лёгкасцю могуць знайсці патрэбныя прыклады.
Стварэнне слоўнікаў. База значна спрашчае жыццё стваральнікам слоўнікаў: можна аўтаматычна выяўляць памылкі, правяраць ужыванне таго ці іншага слова, яго нарматыўны статус. Разнастайныя спісы слоў могуць укладацца амаль аўтаматычна.
Лічбавы выгляд. Нават слоўнікі, захаваныя на камп’ютары, разлічаныя на звычайнае чытанне з мінімальнай магчымасцю выбаркі інфармацыі. Але такі фармат зусім не прыдатны для камп’ютарнай апрацоўкі, бо ўтрымлівае розныя скарачэнні, неаднастайнае афармленне і г.д. Наша ж база арыентаваная найперш на камп’ютарную апрацоўку: можна не проста шукаць нейкае слова, як у тэкставым файле слоўніка, а рабіць выбаркі, як у звычайнай базе звестак. Напрыклад, выбраць усе дзеясловы другога спражэння, якія маюць у мінулым часе канчатак -еў. Пры патрэбе граматычную базу можна праглядаць у выглядзе, звыклым для карыстальнікаў папяровых слоўнікаў.
Новыя рэдакцыі - хутка і без памылак друку. Папяровыя кнігі і слоўнікі часам перавыдаюцца, і ў перавыданнях адбываецца спроба выправіць памылкі. Але з-за таго, што яны апрацоўваюцца як звычайны тэкст, падчас набору ці рэдагавання дадаюцца новыя памылкі, якіх раней не было. Захоўванне ў git усіх змен дазваляе адсачыць кожнае выпраўленне, і пазбягаць памылак. Такі падыход дазваляе карыстацца новай рэдакцыяй адразу, не чакаючы перавыдання, якое для папяровых слоўнікаў можа зацягнуцца на гады.
Ліцэнзія. База распаўсюджваецца пад ліцэнзіяй Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Гэта значыць, яе можна вольна распаўсюджваць і выкарыстоўваць пад такой самай ліцэнзіяй. Гэта адрозніваецца ад звычайных правіл выкарыстання слоўнікаў, дзе выдавецтва зацікаўленае зарабіць грошы на продажы і забараняе вольнае распаўсюджванне. Да таго ж, у Беларусі нават аўтары часам не могуць вызначаць правілы распаўсюджвання сваіх слоўнікаў.
База і далей будзе пашырацца і ўдасканальвацца.