2021
Патрэба ў стварэнні агульнай камп’ютарнай базы беларускай мовы ўзнікла яшчэ падчас выканання праграмы “Праблема моўнай рэпрэзентатыўнасці і прынцыпы пабудовы корпуса беларускай мовы”, якая распачалася ў 2001 г. у Інстытуце мовазнаўства імя Якуба Коласа Нацыянальнай акадэміі навук Беларусі. Такая база неабходная для камп’ютарнай апрацоўкі тэкстаў на беларускай мове, стварэння праграм праверкі арфаграфіі і г.д.
З 2011 г. пачалася праца па ўкладанні корпуса тэкстаў для новага “Тлумачальнага слоўніка беларускай мовы”. Стала зразумела, што існыя на той момант напрацоўкі ў гэтым кірунку не адпавядалі новым патрэбам, таму было прынята рашэнне перайсці на новую платформу. За аснову была ўзята граматычная база, якая ўжо існавала ў той час пад вольнай ліцэнзіяй Creative Commons Attribution/Share-Alike і выкарыстоўвалася збольшага для праверкі правапісу. У 2014 г. да распрацоўкі базы далучыўся аддзел лексікалогіі і лексікаграфіі Інстытута мовазнаўства, а з 2017 г. працу пераняў сектар камп’ютарнай лінгвістыкі. У розныя гады ў падрыхтоўцы звестак бралі ўдзел: С. Вагнер, В. Голубева, А. Лапцёнак, Т. Маракуліна, В. Мартысюк, Н. Снігірова, А. Трутчанка.
База была істотна перапрацавана і палепшана з улікам папярэдняга досведу працы над корпусамі тэкстаў (паралельнымі руска-беларускім і беларуска-рускім, а таксама корпусам навуковых тэкстаў Corpus Albaruthenicum).
Агульны аб’ём Базы на сённяшні дзень складае каля 265 тыс. парадыгмаў (каля 4,5 млн. формаў). У гэтым электронным выданні падаецца лексіка, якая зафіксавана ў буйных слоўніках беларускай мовы (гл. пералік ніжэй), і некаторая колькасць слоў, што шырока ўжываюцца, але пакуль не зафіксаваныя ў нарматыўных даведніках і ніжэйадзначаных слоўніках (напр., спампаваць, перазапуск і інш.). Такім чынам, у гэтую версію Базы ўключана ~240 тыс. парадыгмаў.
База даступная ў двух варыянтах: вэб-інтэрфейс для карыстальнікаў і XML-файлы для распрацоўшчыкаў, якія распаўсюджваюцца на ўмовах ліцэнзіі Creative Commons Attribution/Share-Alike 4.0.
Апрача тэкстаў, асноўнымі крыніцамі фактычнага матэрыялу паслужылі: «Тлумачальны слоўнік беларускай мовы. У 5 т.» (1984), «Слоўнік беларускай мовы (пад. рэд. М.В. Бірылы)» (1987), «Граматычны слоўнік назоўніка» (2008), «Граматычны слоўнік дзеяслова» (2008), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2008), «Руска-беларускі слоўнік. У 3 т.» (2011), «Беларуска-рускі слоўнік. У 3 т.» (2012), «Вялікі слоўнік беларускай мовы: арфаграфія, акцэнтуацыя, парадыгматыка (каля 223 000 слоў)» (2012), «Слоўнік беларускай мовы» (2012), «Граматычны слоўнік назоўніка» (2013), «Граматычны слоўнік дзеяслова» (2013), «Граматычны слоўнік прыметніка, займенніка, лічэбніка, прыслоўя» (2013), «Тлумачальны слоўнік беларускай літаратурнай мовы» (2016).
Арфаграфія слоў пададзена ў адпаведнасці з «Правіламі беларускай арфаграфіі і пунктуацыі» (2008) і «Правіламі беларускай арфаграфіі і пунктуацыі» (1959), словазмяненне грунтуецца на нарматыўных акадэмічных граматыках: «Граматыка беларускай мовы» (1962), «Беларуская граматыка» (1985), «Кароткая граматыка беларускай мовы. Фаналогія. Марфаналогія. Марфалогія» (2007).
База прадстаўлена ў фармаце XML-файлаў і ўяўляе сабой збор слоў з марфалагічнымі і іншымі паметамі.
Кожная лексема аформлена ў асобную парадыгму. Кожная парадыгма змяшчае адзін ці больш варыянтаў, якія могуць адрознівацца правапісам, націскам і г.д. Кожны варыянт змяшчае спіс форм.
Атрыбуты парадыгмаў (Paradigm):
Атрыбуты варыянтаў (Variant):
Атрыбуты форм (Form):
Граматычная інфармацыя рэпрэзентавана тэгамі, якія складаюцца з літар і лічбаў у пэўнай паслядоўнасці:
Назоўнік | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Уласнасць |
|
3) Адушаўлёнасць |
|
4) Асабовасць |
|
5) Скарачэнне |
|
6) Род (апрача субстантываваных і множналікавых назоўнікаў) |
|
7) Скланенне (апрача субстантываваных і множналікавых назоўнікаў) |
|
7) Скланенне (для субстантываваных і множналікавых прыметнікаў) |
|
7) Скланенне (для множналікавых назоўнікаў) |
|
Граматычныя пазнакі, уласцівыя асобным формам (уласна назоўнікі): | |
8) Склон |
|
9) Лік |
|
Граматычныя пазнакі, уласцівыя асобным формам (субстантываваныя прыметнікі): | |
8) Род (апрача субстантываваных і множналікавых назоўнікаў) |
|
9) Склон |
|
10) Лік |
|
Прыметнік | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Тып |
|
3) Ступень параўнання (апрача нескланяльных) |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
4) Прыметнік у функцыі прыслоўя |
|
4) Род (апрача нескланяльных) |
|
5) Склон (апрача нескланяльных) |
|
6) Лік (апрача нескланяльных) |
|
Лічэбнік | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Словазмяненне |
|
3) Значэнне |
|
4) Форма |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
5) Род |
|
5) Нескланяльны |
|
6) Склон (апрача нескланяльных) |
|
7) Лік (апрача нескланяльных) |
|
Займеннік | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Словазмяненне |
|
3) Разрад |
|
4) Асоба |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
5) Род |
|
6) Склон (апрача нескланяльных) |
|
7) Лік (апрача нескланяльных) |
|
Дзеяслоў | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Пераходнасць |
|
3) Трыванне |
|
4) Зваротнасць |
|
5) Спражэнне |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
6) Час |
|
6) Загадны лад |
|
6) Інфінітыў |
|
7) Асоба |
|
7) Дзеепрыслоўе |
|
7) Род (прошлы час) |
|
8) Лік |
|
Дзеепрыметнік | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Стан |
|
3) Час |
|
4) Трыванне |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
5) Род |
|
5) Кароткая форма |
|
6) Склон |
|
7) Лік |
|
Прыслоўе | |
---|---|
Граматычныя пазнакі для ўсёй парадыгмы: | |
1) Часціна мовы |
|
2) Спосаб утварэння |
|
Граматычныя пазнакі, уласцівыя асобным формам: | |
3) Ступень параўнання |
|
Злучнік | |
---|---|
1) Часціна мовы |
|
2) Тып |
|
3) Тып падпарадкавальнага злучніка |
|
3) Тып злучальнага злучніка |
|
Прыназоўнік | |
---|---|
1) Часціна мовы |
|
Часціца | |
---|---|
1) Часціна мовы |
|
Выклічнік | |
---|---|
1) Часціна мовы |
|
Пабочнае слова | |
---|---|
1) Часціна мовы |
|
Прэдыкатыў | |
---|---|
1) Часціна мовы |
|
Часткі слоў | |
---|---|
1) Частка слова |
|
2) Тып |
|
Для зручнага карыстання базай распрацаваны візуальны інтэрфейс, які дазваляе хутка атрымліваць інфармацыю пра слова ў анлайн-рэжыме.
Пошук можна рабіць у двух рэжымах: па пачатковай форме слова, па ўсіх формах слова.
Па пачатковай форме: трэба абраць адпаведны рэжым, у поле пошуку ўвесці пачатковую форму слова (інфінітыў для дзеясловаў, назоўны склон для назоўнікаў і г.д.) і націснуць кнопку “Пошук”:
Унізе з’явяцца вынікі пошуку ў выглядзе слова (ці спісу слоў) і яго граматычнай характарыстыкі. Часам падаецца значэнне слова (калі слова рэдкае або ў выпадку аманіміі).
Пры націсканні на слова адкрываецца акно з яго граматычным апісаннем:
Таксама можна рабіць пошук па частках слоў з выкарыстаннем знака «*» і з улікам граматычных характарыстык (палі “Удакладніць граматыку” і “Паказаць адмысловую форму”. Вынікі пошуку можна выводзіць як у прамым алфавітным парадку, так і ў адваротным.
Рэжым “Па ўсіх формах” дазваляе шукаць аманімічныя формы, а таксама ўсе формы слоў (уключна з пачатковымі) паводле зададзеных характарыстык.
Пошук у абодвух рэжымах можна рабіць з указаннем толькі граматычных характарыстык; у такім выпадку генеруецца спіс усіх слоў з абранымі характарыстыкамі як у пачатковай форме, так ва ўскосных.
Калі абрана “Паказваць адмысловую форму” і ў выніках мусіць выводзіцца некалькі ўскосных форм аднаго слова, то такія выпадкі можна згрупаваць, паставіўшы гачак у чэкбокс “Групаваць”.