Hvad kan store sprogmodeller

Basalt set kan store sprogmodeller gætte ord ud fra en sammenhæng som brugeren angiver.

Giver brugeren en stor sprogmodel følgende input:

Om sommeren når solen skinner, elsker jeg at drikke en kold

svarer sprogmodellen iced tea.

Sprogmodellen afsøger så at sige sit corpus, al den tekst som sprogmodellen er blevet fodret med under træningen, for at finde det ord som har den største kobling til det input som brugeren har angivet.

Fordi det mest naturlige svar nogle gange kommer i konflikt med nogle etiske retningslinjer, giver sprogmodellen dog reelt ofte et svar som kommer længere ned over listen - se for eksempel dette eksempel: ChatGPT har en beskidt tankegang - her er beviset.

Den metode hvor sprogmodellen færdiggør brugerens input, kaldes af OpenAI for “completions”.

Der findes også andre tilgange, men basalt set bygger de alle på de koblinger mellem ord og sammenhænge som sprogmodellen har “lært” da den blev trænet på enorme mængder af tekst. Magien ved store sprogmodeller er, at ved at blive trænet i at minimere denne forudsigelsesfejl over store mængder tekst, ender modellerne med at lære begreber, der er nyttige til disse forudsigelser. For eksempel lærer de:

hvordan staves hvordan grammatik fungerer hvordan man parafraserer hvordan man besvarer spørgsmål hvordan man fører en samtale hvordan man skriver på mange sprog hvordan man koder etc.

Ingen af disse egenskaber er eksplicit programmeret ind - de opstår alle som et resultat af træning. Emergent abilities On a number of natural language benchmarks involving tasks such as question answering, models perform no better than random chance until they reach a certain scale (in this case, measured by training computation), at which point their performance sharply increases. These are examples of emergent abilities.

While it is generally the case that performance of large models on various tasks can be extrapolated based on the performance of similar smaller models, sometimes large models undergo a “discontinuous phase shift” where the model suddenly acquires substantial abilities not seen in smaller models. These are known as “emergent abilities”, and have been the subject of substantial study. Researchers note that such abilities “cannot be predicted simply by extrapolating the performance of smaller models”.[4] These abilities are discovered rather than programmed-in or designed, in some cases only after the LLM has been publicly deployed.[5] Hundreds of emergent abilities have been described. Examples include multi-step arithmetic, taking college-level exams, identifying the intended meaning of a word,[4] chain-of-thought prompting,[4] decoding the International Phonetic Alphabet, unscrambling a word’s letters, identifying offensive content in paragraphs of Hinglish (a combination of Hindi and English), and generating a similar English equivalent of Kiswahili proverbs.[10] Hallucination

Generative LLMs have been observed to confidently assert claims of fact which do not seem to be justified by their training data, a phenomenon which has been termed “hallucination”.[11]