Добавить новость

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

AI chatbots struggle to function beyond English: ‘They know a lot … but they miss the culture’

The world’s leading AI chatbots can now generate everything from emails to research papers—in English. But shift to a different language, and AI’s performance begins to slip.

Most large language models are “a bit like a Fulbright scholar who is interested in Asia as their area of study,” said Kalika Bali, a senior principal researcher at Microsoft Research India at the Fortune Brainstorm AI Singapore conference on Wednesday. “They know a lot about the [subject], but they miss the culture. It’s an outsider’s gaze into the culture of a country.”  

Bali pointed to a classic math question—”John and Mary have a key lime pie which they need to divide into five parts”—to show the trouble of using a culturally clueless AI. 

Generic AI models will translate the prompt directly. But as Bali pointed out, “in a country like India, most people don’t know what a pie is, [let alone] a key lime pie.” 

To develop models that better understand local culture, more data is needed in local languages. But getting that data is not always simple. 

Roughly half of all web content is in English, meaning there’s no shortage of high-quality digital resources for LLMs to learn English from. For other languages that do not enjoy this same abundance, developers have to explore different methods of getting training data. 

Kasima Tharnpipitchai, head of AI strategy at SCB 10X, highlighted the foundational work by native speakers needed to build a training dataset. 

Tharnpipitchai led SCB 10X’s project to launch the Thai LLM Typhoon. To build a dataset in Thai, Tharnpipitchai said that native speakers had to sift through open large datasets by hand, determining which Thai data sources were high-quality and which were not. 

“There are no tricks here, you really have to do the work,” he said. “It really is just effort. It’s almost brute force.” 

SCB 10X launched Typhoon a year and a half ago. Tharnpipitchai said Typhoon was able to outperform GPT-3.5 in Thai, a fact which “says more about how poorly GPT-3.5 was performing in Thai” than their own work. 

Yet scraping non-English web data is beginning to raise legal concerns.  

Khalil Nooh, cofounder and CEO of Malaysian startup Mesolitica, which is developing a Malay LLM, said that the company has had data owners request their sources be removed from the training dataset, which is available online since they are an open-source model. 

This has further limited the already small pool of high-quality data they have in Malay. To solve this, “the challenge for us is to work with private dataset owners,” Nooh said. 

Both Nooh and Bali are exploring synthetic data generation to help create more high-quality data in their target languages. Machines can translate the abundant English content online into other languages to supplement their limited datasets. This is especially useful for LLMs trying to work in regional dialects that have almost no digital presence otherwise. 

“How we are able to capture all the 16 dialects in Malaysia is through synthetic [data],” said Nooh. 

But there are some obstacles to getting data that neither “brute force” nor machine generation can overcome. In many communities, researchers must balance getting a full picture with managing cultural sensitivities when collecting data in local languages. 

While “on the whole, India is very tech positive,” Bali noted, “there are things that you would not ask” when doing on-the-ground data collection. Local communities may not want to share information on certain topics, even if it is widely known among people in the region. 

Nooh added that in Malaysia, the three Rs—“race, religion, and royalty”—are all subjects of regional sensitivity. 

Although there are currently no regulations on what LLMs can “say” in Malaysia, Nooh said that Mesolitica has “gone ahead to prepare the components that are needed if ever that is required to be implemented.” 

To tackle cultural sensitivities in Thailand, Tharnpipitchai similarly explained that SCB 10X released a “safety model” for public sector use, in addition to their regular Typhoon model. 

This story was originally featured on Fortune.com

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media









103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России



Топ 10 новостей последнего часа



Rss.plus


Новости России







Rss.plus
Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России