"AI-yə Azərbaycan dilini öyrətməyin vaxtıdır – milli platforma yaradılmalıdır” -TƏKLİF

Şamil Sadıq: “Dilçi, proqramçı və redaktorlar birgə çalışmasa, AI-də norma pozuntuları artacaq”

Süni intellektin sürətlə inkişafı Azərbaycan dilində hazırlanan mətnlərin keyfiyyəti və dil normalarına uyğunluğu ilə bağlı müzakirələrə səbəb olub.

Mütəxəssislər hesab edirlər ki, böyük dil modellərinin əsasən ingilis dili bazasında formalaşması Azərbaycan dilində leksik və üslubi qüsurların yaranmasına səbəb olur.

Sherg.az xəbər verir ki, Azərbaycan Nəşriyyatları Assosiasiyasının sədri, Hədəf Şirkətlər Qrupunun qurucu direktoru dosent Şəmil Sadiq bu problemin aradan qaldırılması üçün ölkə səviyyəsində sistemli və uzunmüddətli addımların atılmasını vacib hesab edir. Onun sözlərinə görə, Aİ-nin Azərbaycan dilində verdiyi cavablarda bəzən leksik norma pozulur, cümlə quruluşu süni görünür və ingilis dilindən gələn kalkalara rast gəlinir:

"Problemin aradan qaldırılması üçün ölkə səviyyəsində kompleks tədbirlər görülməlidir. Böyük dil modelləri çox vaxt ingilis sintaksisi və düşüncə məntiqi əsasında formalaşdığı üçün Azərbaycan dilində danışarkən də həmin təsir hiss olunur. Bu problemin həlli istiqamətində beş əsas sahəyə diqqət yetirilməlidir.  Süni İntellektin Azərbaycan dilində daha təbii və normativ danışması üçün ilk növbədə milli Azərbaycan dili korpusu formalaşdırılmalıdır. Məqsəd sadəcə çoxlu mətn toplamaq deyil, redaktə olunmuş, keyfiyyətli, janrlar üzrə təsnif edilmiş və leksik normalara uyğun mətn bazası yaratmaqdır. Bu korpusda bədii ədəbiyyat, publisistik yazılar, elmi mətnlər, rəsmi sənədlər, dərsliklər, danışıq dili nümunələri, dialektlər və tarixi mətnlər ayrıca təbəqələr şəklində yer almalıdır. Hazırda Azərbaycan dili üçün müəyyən təşəbbüslər mövcuddur. Məsələn, AzCorpus layihəsi özünü Azərbaycan dili üçün böyük NLP korpusu kimi təqdim edir və 1.9 milyon sənədlik bazadan danışır.  LLM.az isə Azərbaycan dili üçün korpuslar, datasetlər, modellər, benchmarklar və alətləri toplayan açıq reyestrdir; orada DOLLMA kimi 651 milyon sözlük ümumi korpus da göstərilir.  Amma bunlar dövlət, universitet, nəşriyyat və media səviyyəsində sistemli milli layihəyə çevrilməlidir. Yəni, Azərbaycan dilinin süni intellektə verilən xammalı təsadüfi internet dili yox, redaktə olunmuş milli dil nümunələri olmalıdır".

Mütəxəssisin fikrincə, eyni zamanda Süni İntellekt üçün Azərbaycan dili üzrə leksik norma bazası hazırlanmalıdır:

" Ölkədə orfoqrafiya və izahlı lüğətlər, eləcə də terminoloji bazalar mövcud olsa da, süni intellekt sistemlərinin istifadəsi üçün ayrıca dil norması bazasına ehtiyac var. Belə bir bazada süni intellektin tez-tez işlətdiyi, lakin Azərbaycan dilinin normalarına uyğun hesab edilməyən ifadələr və onların tövsiyə olunan qarşılıqları yer almalıdır. Məsələn, "problemi adresləmək" əvəzinə "problemi həll etmək" və ya "məsələyə baxmaq", "qərar almaq" əvəzinə "qərar vermək", "prosesin içində olmaq" əvəzinə isə "prosesdə iştirak etmək" kimi ifadələrdən istifadə edilməlidir. Bu resurs yalnız lüğət funksiyasını daşımamalı, eyni zamanda Azərbaycan dilində sözlərin təbii işlənmə qaydalarını da əhatə etməlidir. Buraya "tədbir keçirmək", "məsələ qaldırmaq", "rəy bildirmək", "nəticə çıxarmaq", "təklif irəli sürmək" kimi sabit söz birləşmələri və kollokasiyalar daxil edilməlidir. Fikrimcə, süni intellektin Azərbaycan dilində yaratdığı problemlərin əhəmiyyətli hissəsi ayrı-ayrı sözlərin seçilməsindən deyil, sözlərin bir-biri ilə təbii şəkildə birləşdirilməməsindən qaynaqlanır".

Ş. Sadiq Azərbaycan dili üzrə süni intellekt modellərinin qiymətləndirilməsi üçün xüsusi milli benchmark sisteminin yaradılmasının da vacib olduğunu qeyd edib:

" Modelin Azərbaycan dilini nə dərəcədə düzgün bildiyini yalnız mətn yazdırmaqla müəyyən etmək mümkün deyil. Bunun üçün vahid qiymətləndirmə meyarları hazırlanmalıdır. Belə bir sistem çərçivəsində süni intellekt modelləri leksik normalara riayət etməsi, sintaktik cümlə quruluşunun təbiiliyi, müxtəlif üslublarda – rəsmi, publisistik, bədii, elmi və danışıq dilində mətn hazırlamaq bacarığı, terminlərin düzgün seçimi, Azərbaycan türkcəsinə uyğun frazeoloji ifadələrdən istifadə, rus və ingilis dillərindən keçən kalkaların müəyyənləşdirilməsi, məktəb dərsliklərinə uyğun sadə izah verməsi, həmçinin klassik və müasir Azərbaycan mətnlərini anlama qabiliyyəti üzrə yoxlanılmalıdır. Dünyanın bir sıra ölkələrində dil modellərinin inkişafı üçün bu cür etalon qiymətləndirmə sistemlərindən geniş istifadə olunur. Nümunə kimi Çin dili üçün yaradılmış qiymətləndirmə resurslarını göstərə bilərəm. Azərbaycanda da "AZ-Bench", "AZ-Norm" və "AZ-Style" kimi milli qiymətləndirmə platformalarının yaradılması süni intellektin Azərbaycan dilində daha keyfiyyətli işləməsinə mühüm töhfə verə bilər".

Assosiasiya sədrinin sözlərinə görə, Süni İntellektin Azərbaycan dilində daha səlis və normativ işləməsi yalnız filoloqların və ya təkcə proqramçıların fəaliyyəti ilə mümkün deyil. Bu sahədə dilçi, proqramçı və redaktordan ibarət multidissiplinar komandaların birgə fəaliyyəti zəruridir:

"Universitetlərdə dil texnologiyaları strateji istiqamət kimi inkişaf etdirilməlidir. Azərbaycan dili aqlütinativ dil olduğu üçün çoxsaylı şəkilçi formalarına malikdir və bu xüsusiyyət sadə lüğət bazası ilə işləməyi qeyri-kafi edir. Morfoloji analizator, lemmatizator, nitq hissəsi etiketləyici, sintaktik parser, terminoloji uyğunlaşdırıcı alətlər lazımdır.  Digər az resurslu dillər üçün də oxşar dil texnologiyaları infrastrukturu yaradılır və bu təcrübə Azərbaycan dili üçün də nümunə ola bilər. Ölkənin ali təhsil müəssisələrində "Azərbaycan dili və süni intellekt" üzrə tədqiqat mərkəzləri yaradılmalı, bu istiqamətdə AMEA, universitetlər, Elm və Təhsil Nazirliyi, Medianın İnkişafı Agentliyi, nəşriyyatlar və özəl texnologiya şirkətləri arasında sistemli əməkdaşlıq qurulmalıdır. Nəşriyyatların, media qurumlarının, məktəblərin və elmi müəssisələrin milli dil korpusunun formalaşdırılmasında fəal iştirakı ona görə vacibdir ki, Azərbaycan dilinin ən keyfiyyətli nümunələri kitablarda, qəzetlərdə, dərsliklərdə, elmi jurnallarda, arxivlərdə və peşəkar redaktədən keçmiş media materiallarında cəmləşib. Bu mətnlər süni intellekt modellərinin təlimi üçün əlçatan olmazsa, sistemlər əsasən internetdəki pərakəndə, səhvlərlə dolu və müxtəlif dillərin təsiri altında formalaşmış mətnlər əsasında öyrənəcək. Bu isə Azərbaycan dilində qeyri-təbii ifadələrin və dil normalarından kənar konstruksiyaların artmasına səbəb ola bilər.

Nəşriyyatlar seçilmiş kitabları, media qurumları redaktə edilmiş xəbər mətnlərini, universitetlər elmi məqalə və terminoloji bazaları, məktəblər isə dərslik və metodik vəsaitlərin normativ dil nümunələrini milli korpusa təqdim etməlidir. Eyni zamanda, dövlət arxivlərində saxlanılan klassik və tarixi mətnlərin rəqəmsallaşdırılması sürətləndirilməli, bütün bu proses müəllif hüquqları qorunmaqla xüsusi lisenziyalar əsasında həyata keçirilməlidir. Bu məqsədlə "Azərbaycan Dili üçün Milli Süni İntellekt Platforması" yaradılmalıdır". 

Mütəxəssisin fikrincə, platforma milli dil korpusu, süni intellekt üçün leksik norma bazası, terminoloji uyğunlaşdırma sistemi, xarici dillərdən gələn kalkaları aşkarlayan redaktor, Azərbaycan dili üzrə qiymətləndirmə sistemi, açıq verilənlər bazası, müəllim və jurnalistlər üçün təlim proqramları, dövlət qurumları üçün rəsmi dil yoxlayıcısı, eləcə də məktəblər üçün "AI ilə düzgün Azərbaycan dili" modullarını özündə birləşdirməlidir. Şəmil Sadiq son olaraq qeyd edib ki, süni intellektə Azərbaycan dilini öyrətməyin əsas şərti əvvəlcə həmin dilin güclü rəqəmsal yaddaşını yaratmaqdır: "Bu istiqamətdə dövlət qurumları, akademik çevrələr, universitetlər və özəl sektor birlikdə fəaliyyət göstərməsə, gələcəkdə süni intellektin təsiri ilə Azərbaycan dilində qeyri-təbii və norma pozuntuları daha da arta bilər".