Ғылым • Бүгін, 09:00

Қазақша сөйлейтін ЖИ: ISSAI зертханасындағы бір күн

30 рет
көрсетілді
17 мин
оқу үшін

Жасанды интеллект дәуіріне қадам бастық. Дамыған елдерде бұл бағыт әлдеқашан жүйелі жолға қойылып, бірнеше жылдан бері үздіксіз дамып келеді. Біз де сол көштен қалмауға ұмтылып жатырмыз. Бұлай деуімізге атаулы жылды күтпей, пандемияға дейін іргесі қаланған шағын департаменттің бүгін толыққанды институтқа айналғаны дәлел. Бүгінде цифр­лы кеңістіктің қазақ тілінде «сөйлей» бастауы, деректермен жұмыс, жаңа технологияларды игеру – бәрі осы жерде жүзеге асып отыр. Ғылым күні қарсаңында осы бағыттағы жұмыстың нәтижесін көзбен көріп, ұйымның тыныс-тіршілігімен танысып, ондағы сақа сарапшылардың салмақты ойын, арзу-тілегін тыңдап қайттық.

Қазақша сөйлейтін ЖИ: ISSAI зертханасындағы бір күн

Департаменттен институтқа дейін

Ақылды жүйелер мен жасанды интеллект институты (ISSAI) 2019 жылдың қыркүйегінде Назарбаев университетінің базасында құрылды. Бүгінде өзінше бөлек зерттеу ұйымы ретінде жұмыс істейді. Бұл уақыт талабынан туған бастама болды. Ал алғаш департамент деңгейінде құрылғанда әлем әлі жасанды интеллект дәуіріне толық еніп үлгермеген еді. 2019 жылдың күзі. Пандемия жоқ, ChatGPT жоқ. Бірақ болашақты дөп басқан шешім бар еді. Ұжымның сол кездегі басты мақсаты – әрбір жү­зеге асқан жоба арқылы ғылыми мақала әзірлеп, оны тек Қазақстан деңгейінде емес, халықаралық ғылыми журналдар мен конференцияларда таныту болатын. Алайда көп ұзамай пандемия басталып, өмір онлайн кеңістікке көшті. Дәл осы кезеңде дауысты мәтінге айналдыратын, мәтінді түсініп, жауап беретін интеллектуалды жүйелер қарқынды дамыды. Сол кезде ұжымдағы зерттеушілердің көкейінде «Неге осындай жүйелер қазақша сөйлемейді?» деген бір заңды сұрақ туды. Жауап іздеу әрекеті нақты іске ұласты. Бірақ алғашқы кедергі бірден сезілді. Сол кедергіні бұзып жарған сәулелі сәтті еске алған «ISSAI» атқарушы директоры Ербол Абсалямов тынымсыз еңбекпен мыңнан астам адамнан сапалы аудио дерек жиналғанын айтты.

п

«Жасанды интеллект жасауға ең маңызды үш нәрсе керек: адам ресурсы, есептеу инфрақұрылымы және деректер. Соның ішінде ең әлсіз тұсы қолжетімді қазақша дерек еді. Осы олқылықтың орнын толтыру мақсатында институт өз күшімен дерек жинауға кірісті. Нәтижесінде, бірнеше айдың ішінде елдің әр өңірінен, әртүрлі жастағы мыңдаған адам қатысып, жүздеген сағаттық таза аудио дерек жиналды. Арнайы интерфейс жасалып, кез келген адам сайтқа кіріп, ұсынылған мәтіндерді оқып, дауысын жазып қалдыра алатын мүмкіндікке қол жеткіздік. Қарапайым ғана әрекет үлкен істің басы еді. Сол кезде оқу орны құрамында едік, сөйтіп Назарбаев университе­ті өңірдегі суперкомпьютерді пай­даланған бірінші акаде­мия­лық орталықтардың бірі болды. Сонымен қатар еліміздегі алғашқы ашық қазақ тіліндегі сөйлеу корпусы құрылды. Кейін бұл қорды стартаптар мен ірі компаниялар да пайдалана бас­тады. Келесі маңызды қадам – үлкен тілдік модель (LLM) жасау болды. 2024 жылы осы бағытта «KazLLM» әзірленіп, кейін мемлекетке тапсырылды. Бұл жоба Цифрлық даму министрлігі мен Ғылым және жоғары білім ми­нистрлігінің қолдауымен жү­зеге асты. Қаржылай емес, көбіне инфра­құрылымдық, ұйым­дасты­ру­шылық қолдау көрсетілді», деді атқарушы директор.

р

«KazLLM» – тек бір институт­тың жетістігі емес, бүкіл цифр­лық экожүйеге серпін берген қадам, логикалық эволюция еді. Алайда ғалымдар мұнымен тоқтап қалуға болмайтынын түсінді, себебі жасанды интеллект саласы өте жылдам дамып жатыр. Бірнеше жылда жасалуға тиіс технологиялар бірнеше ай ішінде пайда болады. Мысалы, қазіргі модельдер тек мәтін­мен емес, сурет, аудио, видео сияқты көпқырлы деректермен жұмыс істей алады. Осыған байланысты институт та бағытын өзгертіп, жаңа буын модельдерді дамытуға көшті. Мұнда да жаһан­дық бәсекеде қиындықтар бар. Ірі халықаралық компаниялар миллиардтаған доллар инвестиция салып, ондаған мың графикалық процессормен жұмыс істейді. Ал Қазақстандағы мүмкіндіктер бұған қарағанда әлдеқайда шектеулі. Соған қарамастан, отандық ғалымдардың қажыр-қайратымен қазақ тілін цифрлық кеңістікте дамыту жұмысы жалғасып келеді. Ғылыми бағытта да нәтижелер бар, атап айтқанда, осы уақытқа дейін 150-ге жуық мақала жарияланған. Кейбір зерттеулер халықаралық деңгейде жоғары бағаланып, беделді гранттарға ие болды.

«Институттың қазіргі жұ­мы­сының басты бағыты – бірін­шіден, ғылыми зерттеулерді жалғастыру болса, екіншісі – генеративті жасанды интеллект модельдерін дамыту. Бұл ретте екі қағидаға мән беріледі, ең маңыздысы жасанды интеллект адамға пайдалы болуы керек, келесі талап елге нақты пайда әкелуге тиіс. Бүгінде институт зерттеу негізінде қолданысқа қажет нақты өнімдер әзірлеуге көшті. Жалпы, институттың миссиясы – қазақ тілін жасанды интеллект дәуіріне толық енгізу, осы арқылы елдің технологиялық дамуына үлес қосу. Бұл тұрғыда есептеу инфрақұрылымы мен қаржыландыру жағы маңызды мәселе болып отыр. Дегенмен инс­титут дербес ұйымға айналғаннан кейін гранттарға тікелей қатысу, инвестор тарту, жобаларды жылдам іске асыру мүмкіндігі артты», дейді атқарушы директор.

Жоғарыдағы институттың миссиясы деген жерін тағы бір оқып көріңізші, шындығында өте ауқымды іс, жүгі ауыр жұмыс. Ұлт ұстазы Ахмет атамыз «Тілі жоғал­ған ұлттың өзі де жоғалады», деді атақты аталы сөзінде. Қазіргідей цифрлы дәуірде тіліміз болмаса, қолданылмаса, ең үлкен қауіп осы болмақ. Қоғамда қазақ тілі­нің жанашырлары көп екенін бай­қаймыз, десе де әлеуметтік желінің «желі» қаттырақ есіп тұрған кезде кейбірінікі көбірек жарнамаға жақын болып көрінеді. Ал институт ұжымының мис­сиясы, оны қазірдің өзінде толық орындап жүруі – сөзден іске көшкен, жанкешті, нағыз адал әрекет. 

Өндірісті өркендеткен өнімдер

Сөзден іске көшкен дедік қой, соған дәлел болсын, бүгінде институт мамандары әзірлеген цифрлы өнімдер қолданысқа енгізіліп үлгерген. Кез келген адам «Іssai.kz» сайтында қарапайым тіркеуден өтіп пайдалана алады. Өзіміз де осының игілігін көріп бастадық. Алғашқыда тегін лимит беріледі, кейін қызмет құнына ақы төлеп қолданасыз. 1-2 мың теңге шетелдік өнімдерді қолдауға да, қолдануға да жұмсалып жатыр ғой. Отандық өнімдерді қол­дансаңыз, ғалымдарымыздың ана тілімізді цифрлық дәуірге енгізу жолындағы жобаларына инвес­тиция салған боласыз. Өйткені институт алдағы жылдары да қо­ғамға қазақ тілінің ерекшелігі мен мәдениетін түсінетін отандық өнімдер ұсынуды көздеп отыр. Мемлекеттік тіліміздің цифрлы кеңістіктегі қолданылу аясын кеңейту бағытындағы даңғыл жолда ана тілімізге деген жанашырлықты қолданушылардан да күтеді.

д

Өнім және сыртқы байланыс­тар жөніндегі директор орын­басарының міндетін атқарушы Әмина Байкенова айтқандай, институт мамандары әзірлеген өнімдер қазірдің өзінде түрлі мекемелер мен компанияларда кеңінен қолданылып жатыр. Әсіресе құжат айналымы бірнеше тілде жүретін ұйымдар үшін аудар­ма құралдары аса қажет, бұл ретте «Mangisoz» көмекке келе алады. Мойындайықшы, кө­бі­міз мәтін аудару қажет бол­ған­да шетелдік жүйелерді қолда­на жөнелеміз. Соған салып жат­қан кейбір деректер, маңызды мәлімет­тер сол шетелдіктердің базасына түсетінін, жинақталатынын ескере бермейміз. Ал өзіміздің өнім осы олқылықтың орнын толтырады.

«Біз жасап шыққан «Mangisoz» жүйесінің басты артықшылығы – деректердің қауіпсіздігі. Себебі мұндағы барлық сервер Қазақстан аумағында орналасқан әрі біз қол­данушылардың нақты қандай мәтін аударғанын көрмейміз. Бұл – басқа жүйелермен салыстырғанда маңызды айырмашылық, себебі оларда мәліметтер шетелдік серверлерге жіберіледі. Сонымен қатар біздің өнімдер диалектілерді түсінеді, табиғи сөйлеу тілін өң­дейді. Біз алғашқылардың бірі болып қазақ тілінде сапалы дыбыстау (озвучка) функциясын енгіздік, қазір бұл әртүрлі эмоциямен аудио жасауға дейін дамып отыр. Мұндай функция, мысалы, фильмдерді дубляждау немесе мультимедиалық контент жасауға жақсы мүмкіндік береді. Бүгінде біздің өнімдерді мектеп оқушылары мен студенттер де белсенді қолданады. Мәселен, «Oylan» сервисі математикалық есептерді түсініп, қазақ тілінде шешім ұсына алады, ал «Tilsync» платформасы лекциялар мен іс-шараларда нақты уақытта субтитр арқылы аударма жасап, көптілді ортаны қолдауға көмектеседі», дейді Ә.Байкенова.

Әминаның айтуынша, қара­пайым қолданушылардан түсетін табыс өнімдерді жасауға кететін шығынды ақтамайды, сондықтан негізгі серіктестікті бизнес, мем­лекеттік сектор арқылы дамытып отыр. Түскен қаражат серверлерді ұстауға, деректерді жинауға, мо­дельдерді одан әрі жетілдіруге жұмсалады.

 «Oylan» сервисін өз бетін­ше қолданып көрдік, кәдімгі «ChatGPT»-ге ұқсас, керегіңді жаз­саң да, айтып сұрасаң да іздеп, тауып береді. Мұнымен қоймай, дәл қай жерден алғанын көрсетіп, сілтемесін шығарады. Ал институт мамандары әзірлеген «Beynele» сервисі қазақы қоғамды шетелдік жүйелерден жақынырақ түсінеді. Мысалы, біз мәтінге, жарнама, хабарландыру, кітаптарға шетелдік жүйелерден баланың суре­тін сұрасақ, лаванда алқабындағы англиялық балдырғанын берсе, «Beynele» қызғалдақтардың ор­тасындағы тақия киген қарадо­малақты ұсынуы мүмкін. Осын­дайда өз өнімімізді пайдалану тиімді. Қазақы «ойлайтын» сурет генераторы «Beynele» креативті индустрияда сұранысқа ие. 

Дамудың негізі – ғылымда

Иә, қалыптасу кезеңін айттық, дайын өнімдерді таныстырдық. Ал «ISSAI» – ең алдымен институт қой, яғни өнімдердің барлығы зерттеудің нәтижесінде туған. Институттың аға деректер талдаушысы, роботтехника инженериясы бойынша PhD Жанат Махатаева бізге баяндағандай, мұндағы зерттеу жұмыстары бірнеше негізгі бағытты қамтиды.

л

«Біріншіден, жасанды интеллект үшін аса маңызды деректер қорын қалыптастыру, яғни сапалы датасеттер жасау. Себебі модельдердің тиімді жұмыс істеуі тікелей деректердің сапасына байланысты. Екіншіден, дайын модельдер болғанның өзінде оларды қазақ тіліне немесе нақты бір міндетке бейімдеу үшін «архитектурасын» өзгертіп, қайта оқыту қажет. Сонымен қатар компьютерлік көру бағытында да алгоритмдер әзірленіп жатыр. Менің жеке зерттеу бағытым – адам мен жасанды интеллектінің өзара әрекеттесуі (Human-AI Interaction). Бұрын адам мен компьютердің өзара байланысы зерттелсе, қазір жасанды интеллектінің дамуына байланысты осындай жаңа бағыт қалыптасты. Біз жасанды интеллектімен тек мәтін арқылы ғана емес, дауыс, сурет, түрлі интерфейстер арқылы да қарым-қатынас жасай аламыз. Біз әртүрлі интерфейстерді әзірлеп, олардың адамға қаншалықты ыңғайлы әрі түсінікті екенін зерттейміз», дейді Ж.Махатаева.

Ғалым түсіндіргендей, мұндай жүйелерді жасағаннан кейін міндетті түрде тестілеу кезеңі бо­лады. Қолданушыларды тар­тып, олардың тәжірибесін зер­де­лейді: жауап беру уақыты, жүйе­нің кешігуі, интерфейстің ыңғай­лы­лығы сияқты көрсеткіштер ба­ға­ланады. Жасанды интеллектіні барынша «адамға ұқсас» ету – эмоцияны түсіну, эмпатия көрсету, табиғи қарым-қатынас орнату да маңызды бағыттардың бірі. Жал­пы, мұндай деңгейдегі техно­логияларды дамыту үшін үлкен ең алдымен осының бәріне негіз болатын зерттеу бағыты дамуға
тиіс.

Рас, ғылым кез келген ірі істің, ауқымды өзгерістің өзегі болған­да оның өнімі көл-көсір болмақ. Ал ғылымда ең құнды шикізат – өндірістің қозғаушы күші болатын тиімді технологияны табу ғой. Бұл күрделі кезеңде зерттеу сапасы, ғалымдардың әлеуеті рөл ойнайды. Осы бір өзара біте қайнасып жатқан дүние түптің түбінде ел тәуелсіздігінің, ұлттық экономиканың тұрақтылығына тірек бола алады. 

Әр саланың драйвері – маман

Кез келген өндірісті өрістету ондағы мамандарға, олардың кедергісіз жұмыс істеуіне жасалған жағдай мен біліктілігіне тікелей тәуелді. Қытайдың ұлттық ғылым академиясында 5 жыл еңбек еткен тәжірибелі, деректерді өңдеу маманы Мамырбек Парахат елімізде жаңа саланың дамуын тежеп тұрған түйткілдер мен шешу жолдарын ұсынды. Оның пікірінше, Қазақстанда жасанды интеллектіні дамытудағы басты мәселе – сапалы деректердің тапшылығы. Әсіресе қазақ тіліндегі мәтіндік қордың аздығы отандық модельдер сапасына әсер етеді.

л

«Қазіргі жағдайда мамандар көбіне интернеттен жиналған деректерді өңдеп, қажетті фор­мат­қа келтіреді немесе басқа тілдерден аударылған синтетика­лық деректерге жүгінуге мәж­бүр. Алайда мұндай тәсіл тіл­дің табиғи болмысын толық жет­кі­зе алмайтындықтан, бұл тәсіл уақытша шешім ретінде қарас­ты­рылады. Мәселенің түпкі ше­шімі – ұлттық тілдік корпусты қалыптастыру. Мұндай база бар­лық зерттеушіге ортақ ресурс болып, қайталанатын жұмысты азай­тып, ғылыми, технологиялық прог­ресті жеделдетер еді. Сонымен қатар қазақ тіліндегі цифрлық контентті көбейту де аса маңызды. Себебі интернет кеңістігінде қазақша ақпарат неғұрлым көп болса, тілдің қолдану аясы да кеңейе түседі. Бізде әлі цифрланбаған көп­теген дереккөз бар: кітаптар, диссертациялар, архивтік материал­дар. Оларды цифрландырып, жүйе­­леп, категорияларға бөліп, ор­тақ форматқа келтіру қажет. Қа­зір де­ректер – ең құнды ресурс», дейді маман.

М.Парахаттың ойынша, цифр­ландыру, жасанды интеллект саласында әлеуетіміз жақсы, бірақ әлі де алдыңғы қатар­лы елдерден үйренетін тұстар көп. Мысалы, Қытайда академияға қа­расты институттың бірінде жасал­ған зерттеудің нәтижесі екін­ші бір институттың зерттеуіне қа­жет болса, еңбекті сатып алады. Сол де­­ректерді қайта зерттеп алуға уа­қыт жоғалтпайды. Олар­дың тәжі­рибесіндегі кооперация, ре­сурс­­тарды ортақ пайдалану, ғалым­дарға жасалатын кешенді қолдау үлгі бола алады.

«Жасанды интеллектіні дамы­ту тек жоғары оқу орындарымен шектелмей, мектеп деңгейінен бас­тап оқушылардың практикалық дағдыларын дамыту қажет. Қазіргі білім жүйесі көбіне олимпиадаға бағытталған, өндірістік қолдану жағы кенже қалып отыр. Жалпы, елімізде жасанды интеллектіні дамыту үшін дерек қоры, инфра­құрылым, адам капиталы, мемле­кет­тік қолдау қатар жүруге тиіс. Осы төрт тірек үйлесім тапқанда ғана қазақ тіліндегі сапалы цифр­лық өнімдер пайда болып, ел­дің технологиялық бәсекеге қабілет­і арта түспек», дейді маман.

Түйін: Әр сөзінен жауапкерші­лік пен ізденіс, әр пікірінен үміт пен талап аңғарылатын институт мамандарымен бірнеше сағат тілдескеннен кейін еріксіз ойға шомасыз. Енді ғана қанат жайып, қарқыны күн санап үдей түскен ғылым саласында еліміздің де өз орны барын көріп, іштей марқайып қаласыз. Зерттеушілердің әлеуеті жоғары: бәрі дерлік беделді шетелдік ЖОО түлектері, тәжірибелі, әлемнің кез келген жерінде сұранысқа ие мамандар. Соған қарамастан, елде қалып еңбек етуді таңдауы – туған жерге ту тіккені емес пе? Тек соны бағалай білсек болғаны… 

Соңғы жаңалықтар