Sørsamisk stavekontroll

Eit framhald av Divvun-prosjektet

Mål

Å laga eit sett med sørsamiske stavekontrollar, med same oppsett som for lulesamisk. Dette betyr:

  • stavekontroll for MS Office for Windows
  • stavekontroll for MS Office for Mac
  • stavekontroll for OpenOffice.org
  • minst ein stavekontroll basert på open kjeldekode
  • orddeling i MS Office, Win og Mac

Jf elles planane for det noverande Divvun-prosjektet, på divvun.no.

Status pr september 2005

Det er gjort ein del lingvistisk arbeid, fyrst og fremst med substantivbøying og omlydsreglar for substantiv. Alle usamansette substantiv er skrive inn. Ei relativt komplett liste over det eksisterande arbeidet er:

  • substantivleksikon med alle usamansette substantiv frå Sydsamisk-norsk ordbok (kring 4300 ord)
  • namn (kring 24 000)
  • bøyingsmorfologi for substantiv
  • morfologi for pronomen og andre lukka ordklasser
  • tonivåreglar for nominal bøying

Dette utgangspunktet er vesentleg dårlegare enn det tilsvarande var for lulesamisk då Divvun-prosjektet starta mot slutten av 2004. Der var den morfologiske modellen meir eller mindre komplett for alle opne ordklasser, og tonivåreglane ganske heildekkjande. Det som mangla for lulesamisk var ein skikkeleg gjennomgang av ein morsmålstalar for å komplettera og retta feil.

Planlagt arbeid

Lingvistisk arbeid:

  • Verbmorfologi (hovudmønsteret er klårt, og stammeklasse er merka av i ordboka, det kan hende det er variasjon frå verb til verb når det gjeld kor mykje omlyd verba har, dette må i tilfelle sjekkast manuelt)
  • Adjektivmorfologi (her trengst det grunnforsking)
  • Samansetjing (her treng vi undersøkingar av forma til forleddet)
  • Derivasjon (data frå referansegrammatikken må systematiserast og komplementerast)

Datalingvistisk arbeid:

  • morfofonologi for verb (arbeidet er starta, og vi har i prinsippet eit system for å kombinere verb- og omlydsklasse, men til no har det ikkje fungert.)
  • morfofonologi for adjektiv (her har vi ikkje gjort noko; dette er eit problematisk punkt, i og med at referansegrammatikken har så lite hjelp å gje.)
  • morfofonologi for avleiing/samansetjing (tonivåmorfologien for substantiva burde funka, men det er ikkje sjekka)

Sørsamisk ordbok

Det vil vera ei uvurderleg hjelp for eit slikt prosjekt å få tilgang til Sydsamisk-norsk ordbok (Bergsland & Mattsson Magga, 1993) i elektronisk form. — Det er no komne signal om at boka vil bli tilgjengeleg, ev. etter nokre rettingar. Budsjettet og planane byggjer på denne føresetnaden.

Korpusinnsamling

Det må setjast av ein del ressursar på å samla inn så mykje sørsamisk tekst som det berre er mogleg. Det vil vera rimeleg å bruka dei same kjeldene som ved det noverande Divvun-prosjektet bruker, dvs Sametings-administrasjonen, kommunane (Snåsa), departementa, Bibelforlaget/Kyrkja, forlag og forfattarar, og privatpersonar som sjølve vil gje tekstane sine til prosjektet.

Som prøve på faktisk språkbruk bør ein undersøkja om det er mogleg å bruka materiale frå dei nasjonale prøvene. Der finst det eit ganske stort materiale med sørsamiske elevtekstar.

Stavekontrollspesifikt arbeid

Sjølv om prosjektet byggjer på arbeid som alt er gjort i Divvun-prosjektet, vil det krevast tilpassingar til sørsamisk, og ein god del testing og språkspesifikt arbeid. Dette arbeidet vil m.a. omfatta:

  • sjekka forslagsmekanismen og dei forslaga som blir gjeve
  • testa dei ulike stavekontrollane

Rettskrivingsspørsmål for sørsamisk

Dette er eit ressurskrevjande punkt, i og med at sørsamisk til no i liten grad har vorte eksplisitt normert. Eit normerande verkty som ein stavekontroll krev at ein bestemmer seg for kva ein vil ha innanfor den offisielle norma, om det no er stor eller liten variasjon. Derfor er det viktig at dei normerande organa for sørsamisk både nasjonalt og nordisk er (inter)aktivt med i prosjektet.

  • Kva er rett, kva er gale?
  • korleis skal vi stave lånord frå norsk/svensk m.fl. i sørsamisk?
  • datoformat
  • forkortingar
  • bøying av framande namn

Ferdige modular frå Divvun-prosjektet

I og med at det sørsamiske prosjektet byggjer på det noverande prosjektet, er det sjølvsagt ein del arbeid som ikkje treng repeterast for sørsamisk. Spesifikt gjeld det følgjande punkt:

  • infrastruktur for
    • språkteknologiutvikling og testing
    • korpushandtering og -bruk
    • stavekontrollutvikling
  • tilpassing av stavekontrollmotor(ar)
  • vi har også eit ferdig team av programmerarar og datalingvistar som ikkje treng opplæring, og som vil vera ei stor hjelp for nye prosjektmedarbeidarar

Anna arbeid

Ein del teknisk og anna arbeid må gjerast for sørsamisk uavhengig av kva som har vorte gjort før:

  • brukardokumentasjon
  • nettsider (for brukarane)
  • installeringsprogram (lokalisering til sørsamisk)

Stillingar

  • sørsamisk lingvist — 100%
  • datalingvist - 100% fyrste året, 50% dei to andre
  • programmerar - 25%
  • prosjektleiar - 50%

Timeplan

Prosjektet bør gå over tre - 3 - år. Det har vist seg at det krevst mykje tid både til å samla inn korpus, og til det reint lingvistiske arbeidet. Og med tanke på at det trengst meir lingvistisk grunnarbeid enn for både nord- og lulesamisk, vil det derfor ikkje vera realistisk med eit prosjekt kortare enn tre år. Prosjektstart er rekna til januar 2008.

Tidsplanen vil vere avhengig av at vi får tak i ein kvalifisert sørsamisk lingvist. Sjølv med ein kvalifisert lingvist trengst det ein god del opplæring. Med ein prosjektperiode på tre år er det rom for slik opplæring.

Prosjektstart er tenkt rett etter at Divvun-prosjektet er avslutta, dvs 1. januar 2008, og varer til 31. desember 2010 med den føreslåtte timeplanen.

Prosjektet vil samarbeida med den permanente driftsorganisasjonen for dei samiske korrekturverktya.

Budsjett

Alle tal er i 1000 NOK

                         2008   2009   2010
Løn                                   
  Lingvist                600    600    600
  Datalingvist            600    300    300
  Programmerar            150    150    150
  Prosjektleiar           300    300    300
Eksterne tenester         100    100    100
Reiser, utstyr, m.m.      100    100    100
                                      
Totalt                   1850   1550   1550
Total prosjektsum                             4950

Dei eksterne tenestene er integrering mot MS Office for Windows og Mac, på same vis som i det noverande Divvun-prosjektet.

Oppdatert versjon, juni 2007