Hopp til innhold

N-gram

Fra Wikipedia, den frie encyklopedi

N-gram er en sekvens av ett eller flere elementer (vanligvis ord) i tekst og tale. Begrepet er mye brukt i datalingvistikk og sannsynlighetsteori. N-grammer genereres vanligvis ut fra et korpus (en avgrenset samling tekst som ofte er digitalt tilrettelagt).

Et n-gram bestående av ett ord betegnes som et "unigram", et "bigram" består av to ord og et "trigram" av tre osv.

En anvendelse av n-gram er Google Ngram Viewer der man kan søke etter ordfrekvenser og ordtrender i hele tekstkorpuset Google Books.

Eksempel på n-gram
Ordsekvens 1-gram-sekvens 2-gram-sekvens 3-gram-sekvens
unigram bigram trigram
… to be or not to be … …, to, be, or, not, to, be, … …, to be, be or, or not, not to, to be, … …, to be or, be or not, or not to, not to be, …
… dette er et eksempel … …, dette, er, et, eksempel, … …, dette er, er et, et eksempel, … …, dette er et, er et eksempel, …

Eksterne lenker

[rediger | rediger kilde]
Autoritetsdata
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy