19 сентября прошел ежегодный Kazakhstan Growth Forum, на котором презентовали исследование "X20: самые инновационные компании Казахстана". Эксперты оценивали финансовые показатели, численность профильных специалистов, customer experience и продуктовые инновации. Возглавил рейтинг Beeline Казахстан – цифровой оператор с самым широким покрытием LTE, которого выбирают своим провайдером связи 11 миллионов казахстанцев. Что же вывело Beeline в лидеры инноваций?
19 сентября прошел ежегодный Kazakhstan Growth Forum, на котором презентовали исследование "X20: самые инновационные компании Казахстана". Эксперты оценивали финансовые показатели, численность профильных специалистов, customer experience и продуктовые инновации. Возглавил рейтинг Beeline Казахстан – цифровой оператор с самым широким покрытием LTE, которого выбирают своим провайдером связи 11 миллионов казахстанцев. Что же вывело Beeline в лидеры инноваций?
Не только оператор связи, но и IT-компания
Сегодня более 9 миллионов клиентов Beeline пользуются сервисами цифровой экосистемы Beeline: смотрят фильмы, играют в игры, слушают музыку, расплачиваются за покупки, берут кредиты, хранят свои данные на облачном сервисе.
"В 2018 году мы решили, что не хотим быть просто каналом, по которому интернет-контент поступает к абоненту. И поставили новую цель – быть рядом с пользователем и улучшать его жизнь с помощью передовых цифровых решений. Так началась наша трансформация в цифрового оператора", — рассказывает Евгений Настрадин, CEO Beeline Казахстан.
Новые технологии присутствуют в каждом продукте. Например, биометрия упрощает авторизацию и сокращает время обслуживания в офисах – больше не нужно заполнять бумажные бланки, данные подтягиваются автоматически. Приложение "Мой Beeline" анализирует интересы пользователя и персонализирует главную страницу: релевантные предложения перемещаются выше. Вы не найдете двух одинаковых страниц в "Моем Beeline".
В игры в "Моем Beeline" играет почти 1 миллион абонентов
Более 60 внутренних и внешних цифровых продуктов связны в одну большую экосистему, и команда из 750 специалистов поддерживает и улучшает ее работу. В 2023 году разработка вышла на новый уровень – появилась дочерняя компания QazCode. Теперь эксперты создают решения не только для Beeline, но и для других компаний в Казахстане и даже за рубежом.
"Без своей команды разработки сложно быть инновационной цифровой компанией. Готовые вендорские решения не адаптированы к локальным особенностям, часто нуждаются в значительной доработке. У нас получается гибче, быстрее и эффективнее создавать продукты. Например, наше решение, основанное на технологии биометрии, в международном рейтинге NIST (National Institute of Standards and Technology) занимает 60-ю позицию из 500", - отмечает Алексей Шаравар, CEO QazCode.
От чат-бота до национального искусственного интеллекта
В 2020 году у Beeline появился чат-бот Дана. Ее задача — помогать абонентам с запросами, в которых можно обойтись без участия оператора контакт-центра. Если вопрос несложный, больше не нужно ждать, когда освободится оператор – Дана ответит быстрее. Например, подскажет, что у вас закончился трафик, перезагрузит роутер или подскажет, влияет ли инцидент на качество связи. Кроме того, вы можете написать ей на сайте, в приложении "Мой Beeline", WhatsApp или Telegram. И если в первый год чат-бот обработал 188 тысяч обращений, то сегодня это более 7 миллионов. В 97 процентах случаев Дана справляется без помощи оператора контакт-центра.
C ростом популярности чат-бота команда QazCode столкнулась с новым вызовом. Обращения поступают на двух языках: русском и казахском. А еще язык может поменяться в процессе диалога – обычная история в стране с несколькими языками общения. Здесь нужно было решение, которое отследит появление казахского языка и поймет контекст разговора. Так появилась Kaz-RoBERTA – большая языковая модель на казахском языке и первый опыт Beeline в LLM.
Языковая модель KazRoBERTA способна не только распознавать язык, но и переводить, упрощать, резюмировать, понимать тональность текста. Сегодня искусственный интеллект обрабатывает больше трети всех клиентских обращений на казахском языке, а это около 55 тысяч запросов в месяц. И порядка миллиона за полтора года работы.
KazRoBERTA можно найти в открытом доступе на Hugging Face. Пользователи ресурса скачали ее более 3 000 раз.
"Опыт с KazRoBERTA вдохновил нас на следующий шаг – полноценный KAZ-LLM. Большинство ИИ-систем разработаны для международных языков: английский, испанский, китайский. Это создает цифровой разрыв для языковых групп, которые не так сильно распространены. Мы хотим, чтобы у казахстанцев был свой GPT, который поймет культурные особенности. Для которого не будет языкового барьера", - делится Алексей Шаравар.
Однако проект подобного масштаба сложно реализовать в рамках одной компании, поэтому Beeline нашел единомышленников. Сейчас специалисты из QazCode вместе с рабочей группой из Института умных систем и искусственного интеллекта при Назарбаев Университете (ISSAI NU) работают над созданием KAZ-LLM.
Как тренируют казахский GPT
По словам Алексея, для успешного выполнения задачи команде предстоит справиться с несколькими вызовами. Первый – база данных для обучения модели. Она представляет собой тексты, разные по назначению, сложности и стилистике. Они переводятся в понятную для искусственного интеллекта систему токенов. 1 токен может содержать 2, 4 и более символов обычного текста. Чем больше токенов, тем больше у ИИ понимания контекста и владения языком. Это одна из причин цифрового разрыва – в мире гораздо больше текстов на английском языке, чем на казахском. Поэтому последние нужно тщательно собирать и отбирать. Для KAZ-LLM было собрано 20 миллиардов токенов, это сравнимо с содержанием примерно 200 000 средних книг.
Следующий вызов – это тренинг модели, во время которого искусственный интеллект анализирует все собранные данные, ищет закономерности и причинно-следственные связи. Именно этот этап дает понимание контекста: увидев слово Beeline, ИИ понимает, что это оператор связи. Этот процесс займет около 50 дней непрерывных вычислений и требует больших технических мощностей. Поэтому Beeline предоставил рабочей группе серверы, предназначенные для работы с большими объемами данных, в том числе для машинного обучения и искусственного интеллекта.
Для сравнения: обычному компьютеру потребуется несколько дней, чтобы проанализировать архив из 1 миллиона фотографий. А 8 DGX H100, на котором происходит тренинг KAZ-LLM, сделает это за несколько секунд.
После тренинга языковой модели нужно пройти evaluation-тест, который проверит правильность рассуждений и понимания контекста. И в нем заключается третий вызов: он должен быть на казахском и учитывать языковые и культурные особенности. А поскольку создатели казахского GPT – первопроходцы, им предстоит создать тест с нуля. После успешного теста ИИ готов к работе с пользователем.
QazCode презентует свои решения на крупнейшей выставке стартапов GITEX
Несмотря на вызовы, разработчики настроены оптимистично и планируют презентовать языковую модель до конца года.
"KAZ-LLM — не обычное следование тренду. Это шаг на пути к новым возможностям с помощью цифровых ассистентов. Когда появляется доступ к передовым практикам по всему миру на родном языке, когда искусственный интеллект забирает на себя рутинные процессы, у врачей или учителей из отдаленных аулов появляются все шансы достичь мирового уровня профессионализма", — резюмирует Алексей Шаравар.
Фото: Влад Семенов