Жасанды интеллект дәуіріне қадам бастық. Дамыған елдерде бұл бағыт әлдеқашан жүйелі жолға қойылып, бірнеше жылдан бері үздіксіз дамып келеді. Біз де сол көштен қалмауға ұмтылып жатырмыз. Бұлай деуімізге атаулы жылды күтпей, пандемияға дейін іргесі қаланған шағын департаменттің бүгін толыққанды институтқа айналғаны дәлел. Бүгінде цифрлы кеңістіктің қазақ тілінде «сөйлей» бастауы, деректермен жұмыс, жаңа технологияларды игеру – бәрі осы жерде жүзеге асып отыр. Ғылым күні қарсаңында осы бағыттағы жұмыстың нәтижесін көзбен көріп, ұйымның тыныс-тіршілігімен танысып, ондағы сақа сарапшылардың салмақты ойын, арзу-тілегін тыңдап қайттық.
Департаменттен институтқа дейін
Ақылды жүйелер мен жасанды интеллект институты (ISSAI) 2019 жылдың қыркүйегінде Назарбаев университетінің базасында құрылды. Бүгінде өзінше бөлек зерттеу ұйымы ретінде жұмыс істейді. Бұл уақыт талабынан туған бастама болды. Ал алғаш департамент деңгейінде құрылғанда әлем әлі жасанды интеллект дәуіріне толық еніп үлгермеген еді. 2019 жылдың күзі. Пандемия жоқ, ChatGPT жоқ. Бірақ болашақты дөп басқан шешім бар еді. Ұжымның сол кездегі басты мақсаты – әрбір жүзеге асқан жоба арқылы ғылыми мақала әзірлеп, оны тек Қазақстан деңгейінде емес, халықаралық ғылыми журналдар мен конференцияларда таныту болатын. Алайда көп ұзамай пандемия басталып, өмір онлайн кеңістікке көшті. Дәл осы кезеңде дауысты мәтінге айналдыратын, мәтінді түсініп, жауап беретін интеллектуалды жүйелер қарқынды дамыды. Сол кезде ұжымдағы зерттеушілердің көкейінде «Неге осындай жүйелер қазақша сөйлемейді?» деген бір заңды сұрақ туды. Жауап іздеу әрекеті нақты іске ұласты. Бірақ алғашқы кедергі бірден сезілді. Сол кедергіні бұзып жарған сәулелі сәтті еске алған «ISSAI» атқарушы директоры Ербол Абсалямов тынымсыз еңбекпен мыңнан астам адамнан сапалы аудио дерек жиналғанын айтты.
«Жасанды интеллект жасауға ең маңызды үш нәрсе керек: адам ресурсы, есептеу инфрақұрылымы және деректер. Соның ішінде ең әлсіз тұсы қолжетімді қазақша дерек еді. Осы олқылықтың орнын толтыру мақсатында институт өз күшімен дерек жинауға кірісті. Нәтижесінде, бірнеше айдың ішінде елдің әр өңірінен, әртүрлі жастағы мыңдаған адам қатысып, жүздеген сағаттық таза аудио дерек жиналды. Арнайы интерфейс жасалып, кез келген адам сайтқа кіріп, ұсынылған мәтіндерді оқып, дауысын жазып қалдыра алатын мүмкіндікке қол жеткіздік. Қарапайым ғана әрекет үлкен істің басы еді. Сол кезде оқу орны құрамында едік, сөйтіп Назарбаев университеті өңірдегі суперкомпьютерді пайдаланған бірінші академиялық орталықтардың бірі болды. Сонымен қатар еліміздегі алғашқы ашық қазақ тіліндегі сөйлеу корпусы құрылды. Кейін бұл қорды стартаптар мен ірі компаниялар да пайдалана бастады. Келесі маңызды қадам – үлкен тілдік модель (LLM) жасау болды. 2024 жылы осы бағытта «KazLLM» әзірленіп, кейін мемлекетке тапсырылды. Бұл жоба Цифрлық даму министрлігі мен Ғылым және жоғары білім министрлігінің қолдауымен жүзеге асты. Қаржылай емес, көбіне инфрақұрылымдық, ұйымдастырушылық қолдау көрсетілді», деді атқарушы директор.
«KazLLM» – тек бір институттың жетістігі емес, бүкіл цифрлық экожүйеге серпін берген қадам, логикалық эволюция еді. Алайда ғалымдар мұнымен тоқтап қалуға болмайтынын түсінді, себебі жасанды интеллект саласы өте жылдам дамып жатыр. Бірнеше жылда жасалуға тиіс технологиялар бірнеше ай ішінде пайда болады. Мысалы, қазіргі модельдер тек мәтінмен емес, сурет, аудио, видео сияқты көпқырлы деректермен жұмыс істей алады. Осыған байланысты институт та бағытын өзгертіп, жаңа буын модельдерді дамытуға көшті. Мұнда да жаһандық бәсекеде қиындықтар бар. Ірі халықаралық компаниялар миллиардтаған доллар инвестиция салып, ондаған мың графикалық процессормен жұмыс істейді. Ал Қазақстандағы мүмкіндіктер бұған қарағанда әлдеқайда шектеулі. Соған қарамастан, отандық ғалымдардың қажыр-қайратымен қазақ тілін цифрлық кеңістікте дамыту жұмысы жалғасып келеді. Ғылыми бағытта да нәтижелер бар, атап айтқанда, осы уақытқа дейін 150-ге жуық мақала жарияланған. Кейбір зерттеулер халықаралық деңгейде жоғары бағаланып, беделді гранттарға ие болды.
«Институттың қазіргі жұмысының басты бағыты – біріншіден, ғылыми зерттеулерді жалғастыру болса, екіншісі – генеративті жасанды интеллект модельдерін дамыту. Бұл ретте екі қағидаға мән беріледі, ең маңыздысы жасанды интеллект адамға пайдалы болуы керек, келесі талап елге нақты пайда әкелуге тиіс. Бүгінде институт зерттеу негізінде қолданысқа қажет нақты өнімдер әзірлеуге көшті. Жалпы, институттың миссиясы – қазақ тілін жасанды интеллект дәуіріне толық енгізу, осы арқылы елдің технологиялық дамуына үлес қосу. Бұл тұрғыда есептеу инфрақұрылымы мен қаржыландыру жағы маңызды мәселе болып отыр. Дегенмен институт дербес ұйымға айналғаннан кейін гранттарға тікелей қатысу, инвестор тарту, жобаларды жылдам іске асыру мүмкіндігі артты», дейді атқарушы директор.
Жоғарыдағы институттың миссиясы деген жерін тағы бір оқып көріңізші, шындығында өте ауқымды іс, жүгі ауыр жұмыс. Ұлт ұстазы Ахмет атамыз «Тілі жоғалған ұлттың өзі де жоғалады», деді атақты аталы сөзінде. Қазіргідей цифрлы дәуірде тіліміз болмаса, қолданылмаса, ең үлкен қауіп осы болмақ. Қоғамда қазақ тілінің жанашырлары көп екенін байқаймыз, десе де әлеуметтік желінің «желі» қаттырақ есіп тұрған кезде кейбірінікі көбірек жарнамаға жақын болып көрінеді. Ал институт ұжымының миссиясы, оны қазірдің өзінде толық орындап жүруі – сөзден іске көшкен, жанкешті, нағыз адал әрекет.
Өндірісті өркендеткен өнімдер
Сөзден іске көшкен дедік қой, соған дәлел болсын, бүгінде институт мамандары әзірлеген цифрлы өнімдер қолданысқа енгізіліп үлгерген. Кез келген адам «Іssai.kz» сайтында қарапайым тіркеуден өтіп пайдалана алады. Өзіміз де осының игілігін көріп бастадық. Алғашқыда тегін лимит беріледі, кейін қызмет құнына ақы төлеп қолданасыз. 1-2 мың теңге шетелдік өнімдерді қолдауға да, қолдануға да жұмсалып жатыр ғой. Отандық өнімдерді қолдансаңыз, ғалымдарымыздың ана тілімізді цифрлық дәуірге енгізу жолындағы жобаларына инвестиция салған боласыз. Өйткені институт алдағы жылдары да қоғамға қазақ тілінің ерекшелігі мен мәдениетін түсінетін отандық өнімдер ұсынуды көздеп отыр. Мемлекеттік тіліміздің цифрлы кеңістіктегі қолданылу аясын кеңейту бағытындағы даңғыл жолда ана тілімізге деген жанашырлықты қолданушылардан да күтеді.
Өнім және сыртқы байланыстар жөніндегі директор орынбасарының міндетін атқарушы Әмина Байкенова айтқандай, институт мамандары әзірлеген өнімдер қазірдің өзінде түрлі мекемелер мен компанияларда кеңінен қолданылып жатыр. Әсіресе құжат айналымы бірнеше тілде жүретін ұйымдар үшін аударма құралдары аса қажет, бұл ретте «Mangisoz» көмекке келе алады. Мойындайықшы, көбіміз мәтін аудару қажет болғанда шетелдік жүйелерді қолдана жөнелеміз. Соған салып жатқан кейбір деректер, маңызды мәліметтер сол шетелдіктердің базасына түсетінін, жинақталатынын ескере бермейміз. Ал өзіміздің өнім осы олқылықтың орнын толтырады.
«Біз жасап шыққан «Mangisoz» жүйесінің басты артықшылығы – деректердің қауіпсіздігі. Себебі мұндағы барлық сервер Қазақстан аумағында орналасқан әрі біз қолданушылардың нақты қандай мәтін аударғанын көрмейміз. Бұл – басқа жүйелермен салыстырғанда маңызды айырмашылық, себебі оларда мәліметтер шетелдік серверлерге жіберіледі. Сонымен қатар біздің өнімдер диалектілерді түсінеді, табиғи сөйлеу тілін өңдейді. Біз алғашқылардың бірі болып қазақ тілінде сапалы дыбыстау (озвучка) функциясын енгіздік, қазір бұл әртүрлі эмоциямен аудио жасауға дейін дамып отыр. Мұндай функция, мысалы, фильмдерді дубляждау немесе мультимедиалық контент жасауға жақсы мүмкіндік береді. Бүгінде біздің өнімдерді мектеп оқушылары мен студенттер де белсенді қолданады. Мәселен, «Oylan» сервисі математикалық есептерді түсініп, қазақ тілінде шешім ұсына алады, ал «Tilsync» платформасы лекциялар мен іс-шараларда нақты уақытта субтитр арқылы аударма жасап, көптілді ортаны қолдауға көмектеседі», дейді Ә.Байкенова.
Әминаның айтуынша, қарапайым қолданушылардан түсетін табыс өнімдерді жасауға кететін шығынды ақтамайды, сондықтан негізгі серіктестікті бизнес, мемлекеттік сектор арқылы дамытып отыр. Түскен қаражат серверлерді ұстауға, деректерді жинауға, модельдерді одан әрі жетілдіруге жұмсалады.
«Oylan» сервисін өз бетінше қолданып көрдік, кәдімгі «ChatGPT»-ге ұқсас, керегіңді жазсаң да, айтып сұрасаң да іздеп, тауып береді. Мұнымен қоймай, дәл қай жерден алғанын көрсетіп, сілтемесін шығарады. Ал институт мамандары әзірлеген «Beynele» сервисі қазақы қоғамды шетелдік жүйелерден жақынырақ түсінеді. Мысалы, біз мәтінге, жарнама, хабарландыру, кітаптарға шетелдік жүйелерден баланың суретін сұрасақ, лаванда алқабындағы англиялық балдырғанын берсе, «Beynele» қызғалдақтардың ортасындағы тақия киген қарадомалақты ұсынуы мүмкін. Осындайда өз өнімімізді пайдалану тиімді. Қазақы «ойлайтын» сурет генераторы «Beynele» креативті индустрияда сұранысқа ие.
Дамудың негізі – ғылымда
Иә, қалыптасу кезеңін айттық, дайын өнімдерді таныстырдық. Ал «ISSAI» – ең алдымен институт қой, яғни өнімдердің барлығы зерттеудің нәтижесінде туған. Институттың аға деректер талдаушысы, роботтехника инженериясы бойынша PhD Жанат Махатаева бізге баяндағандай, мұндағы зерттеу жұмыстары бірнеше негізгі бағытты қамтиды.
«Біріншіден, жасанды интеллект үшін аса маңызды деректер қорын қалыптастыру, яғни сапалы датасеттер жасау. Себебі модельдердің тиімді жұмыс істеуі тікелей деректердің сапасына байланысты. Екіншіден, дайын модельдер болғанның өзінде оларды қазақ тіліне немесе нақты бір міндетке бейімдеу үшін «архитектурасын» өзгертіп, қайта оқыту қажет. Сонымен қатар компьютерлік көру бағытында да алгоритмдер әзірленіп жатыр. Менің жеке зерттеу бағытым – адам мен жасанды интеллектінің өзара әрекеттесуі (Human-AI Interaction). Бұрын адам мен компьютердің өзара байланысы зерттелсе, қазір жасанды интеллектінің дамуына байланысты осындай жаңа бағыт қалыптасты. Біз жасанды интеллектімен тек мәтін арқылы ғана емес, дауыс, сурет, түрлі интерфейстер арқылы да қарым-қатынас жасай аламыз. Біз әртүрлі интерфейстерді әзірлеп, олардың адамға қаншалықты ыңғайлы әрі түсінікті екенін зерттейміз», дейді Ж.Махатаева.
Ғалым түсіндіргендей, мұндай жүйелерді жасағаннан кейін міндетті түрде тестілеу кезеңі болады. Қолданушыларды тартып, олардың тәжірибесін зерделейді: жауап беру уақыты, жүйенің кешігуі, интерфейстің ыңғайлылығы сияқты көрсеткіштер бағаланады. Жасанды интеллектіні барынша «адамға ұқсас» ету – эмоцияны түсіну, эмпатия көрсету, табиғи қарым-қатынас орнату да маңызды бағыттардың бірі. Жалпы, мұндай деңгейдегі технологияларды дамыту үшін үлкен ең алдымен осының бәріне негіз болатын зерттеу бағыты дамуға тиіс.
Рас, ғылым кез келген ірі істің, ауқымды өзгерістің өзегі болғанда оның өнімі көл-көсір болмақ. Ал ғылымда ең құнды шикізат – өндірістің қозғаушы күші болатын тиімді технологияны табу ғой. Бұл күрделі кезеңде зерттеу сапасы, ғалымдардың әлеуеті рөл ойнайды. Осы бір өзара біте қайнасып жатқан дүние түптің түбінде ел тәуелсіздігінің, ұлттық экономиканың тұрақтылығына тірек бола алады.
Әр саланың драйвері – маман
Кез келген өндірісті өрістету ондағы мамандарға, олардың кедергісіз жұмыс істеуіне жасалған жағдай мен біліктілігіне тікелей тәуелді. Қытайдың ұлттық ғылым академиясында 5 жыл еңбек еткен тәжірибелі, деректерді өңдеу маманы Мамырбек Парахат елімізде жаңа саланың дамуын тежеп тұрған түйткілдер мен шешу жолдарын ұсынды. Оның пікірінше, Қазақстанда жасанды интеллектіні дамытудағы басты мәселе – сапалы деректердің тапшылығы. Әсіресе қазақ тіліндегі мәтіндік қордың аздығы отандық модельдер сапасына әсер етеді.
«Қазіргі жағдайда мамандар көбіне интернеттен жиналған деректерді өңдеп, қажетті форматқа келтіреді немесе басқа тілдерден аударылған синтетикалық деректерге жүгінуге мәжбүр. Алайда мұндай тәсіл тілдің табиғи болмысын толық жеткізе алмайтындықтан, бұл тәсіл уақытша шешім ретінде қарастырылады. Мәселенің түпкі шешімі – ұлттық тілдік корпусты қалыптастыру. Мұндай база барлық зерттеушіге ортақ ресурс болып, қайталанатын жұмысты азайтып, ғылыми, технологиялық прогресті жеделдетер еді. Сонымен қатар қазақ тіліндегі цифрлық контентті көбейту де аса маңызды. Себебі интернет кеңістігінде қазақша ақпарат неғұрлым көп болса, тілдің қолдану аясы да кеңейе түседі. Бізде әлі цифрланбаған көптеген дереккөз бар: кітаптар, диссертациялар, архивтік материалдар. Оларды цифрландырып, жүйелеп, категорияларға бөліп, ортақ форматқа келтіру қажет. Қазір деректер – ең құнды ресурс», дейді маман.
М.Парахаттың ойынша, цифрландыру, жасанды интеллект саласында әлеуетіміз жақсы, бірақ әлі де алдыңғы қатарлы елдерден үйренетін тұстар көп. Мысалы, Қытайда академияға қарасты институттың бірінде жасалған зерттеудің нәтижесі екінші бір институттың зерттеуіне қажет болса, еңбекті сатып алады. Сол деректерді қайта зерттеп алуға уақыт жоғалтпайды. Олардың тәжірибесіндегі кооперация, ресурстарды ортақ пайдалану, ғалымдарға жасалатын кешенді қолдау үлгі бола алады.
«Жасанды интеллектіні дамыту тек жоғары оқу орындарымен шектелмей, мектеп деңгейінен бастап оқушылардың практикалық дағдыларын дамыту қажет. Қазіргі білім жүйесі көбіне олимпиадаға бағытталған, өндірістік қолдану жағы кенже қалып отыр. Жалпы, елімізде жасанды интеллектіні дамыту үшін дерек қоры, инфрақұрылым, адам капиталы, мемлекеттік қолдау қатар жүруге тиіс. Осы төрт тірек үйлесім тапқанда ғана қазақ тіліндегі сапалы цифрлық өнімдер пайда болып, елдің технологиялық бәсекеге қабілеті арта түспек», дейді маман.
Түйін: Әр сөзінен жауапкершілік пен ізденіс, әр пікірінен үміт пен талап аңғарылатын институт мамандарымен бірнеше сағат тілдескеннен кейін еріксіз ойға шомасыз. Енді ғана қанат жайып, қарқыны күн санап үдей түскен ғылым саласында еліміздің де өз орны барын көріп, іштей марқайып қаласыз. Зерттеушілердің әлеуеті жоғары: бәрі дерлік беделді шетелдік ЖОО түлектері, тәжірибелі, әлемнің кез келген жерінде сұранысқа ие мамандар. Соған қарамастан, елде қалып еңбек етуді таңдауы – туған жерге ту тіккені емес пе? Тек соны бағалай білсек болғаны…