С ростом внедрения генеративного искусственного интеллекта в различных отраслях, все более очевидной становится проблема отсутствия инклюзивности и глобального представительства. Особенно эта проблема касается крупных языковых моделей, которые часто ориентированы на западные рынки, оставляя без внимания огромные группы населения Юго-Восточной Азии...
Юго-Восточная Азия — регион с населением более 692 миллионов человек, говорящих на более чем дюжине языков, включая филиппинский, вьетнамский и лаосский. В одном только Сингапуре четыре официальных языка: китайский, английский, тамильский и малайский. Однако большинство существующих LLM не учитывают это разнообразие, что приводит к недостаточному представлению языков и культур региона.
Сингапур стремится восполнить этот пробел с помощью новой модели SEA-LION, разработанной AI Singapore (AISG).
SEA-LION — это LLM с открытым исходным кодом, созданная для более точного и эффективного отражения языков и культур Юго-Восточной Азии. Модель работает на базе двух версий: с тремя и семью миллиардами параметров.
LLM была обучена на 981 миллиарде языковых токенов, из которых 128 миллиардов относятся к языкам Юго-Восточной Азии. В то время как популярные модели, такие как Llama 2 от Meta, содержат всего 0,5% данных, ориентированных на этот регион, SEA-LION включает до 13% таких данных!
Новая версия SEA-LION планируется к выпуску в середине 2024 года. В планах также модели с 13 и 30 миллиардами параметров, которые помогут улучшить понимание региональных нюансов и контекста.
По мере развития технологии и появления новых тестов, SEA-LION станет более мощной моделью, предоставляя поддержку для многоязычных сред и специфических региональных потребностей. Важную роль в этом процессе играет сотрудничество с другими странами, исследовательскими институтами и отраслевыми партнерами.
Сингапур стремится создать более инклюзивную и культурно чувствительную экосистему ИИ, что отмечает Чарли Дай, вице-президент и главный аналитик Forrester. Решение, ориентированное на региональные особенности, поможет преодолеть существующие барьеры и предоставит более точные и релевантные данные для различных приложений, от социального обеспечения до медицинских услуг и государственного управления.