Die ontwikkeling van ’n koste-effektiewe en byderwetse multimedia digitale argief by EPOG in Orania

  • 2

Die ontwikkeling van ’n koste-effektiewe en byderwetse multimedia digitale argief by EPOG in Orania1

Burgert A. Senekal, Eenheid vir Taalfasilitering en Bemagtiging en Eduan Kotzé, Departement Rekenaarwetenskap en Informatika, Universiteit van die Vrystaat

LitNet Akademies Jaargang 15(3)
ISSN 1995-5928

 

Opsomming

Erfenisbewaring is sedert die begin van die mensdom iets waarmee hy hom besig hou. In die inligtingsera het nuwe uitdagings egter ontstaan: digitale media raak verouderd en ontoeganklik. Dit beteken dat inligting verlore gaan; argiewe moet tred hou met tegnologiese ontwikkeling; en sedert die 1990's was daar ’n inligtingsontploffing wat beduidende uitdagings aan diegene bied wat inligting wil bewaar. Hiermee saam het nuwe inligtingskanale soos sosiale media ontstaan wat ook ’n unieke uitdaging aan argiewe bied, asook die sogenaamde grootdata-omgewing waar groot hoeveelhede data in ’n verskeidenheid formate bestaan en ontleed moet word. Hierdie artikel bespreek die daarstelling van ’n digitale argief by EPOG (Ekonomie, Politiek, Omgewing en Geskiedenis) by Orania teen die agtergrond van grootdata, digitale argivering, nuwe media en die inligtingsontploffing. Probleme en oplossings word teen die agtergrond van buitelandse projekte bespreek, asook prosesse wat uitgewerk is binne die raamwerk van die internasionale OAIS- (Open Archival Information System-) model.

Trefwoorde: digitale argiewe; digitalisering; erfenisbewaring; grootdata; Orania; sosiale media

 

Abstract

The development of a cost-effective and contemporary multimedia digital archive at EPOG in Orania

Heritage preservation is something mankind has been involved in since the beginning. In the information era, however, new challenges arose. Digital media becomes obsolete and inaccessible, which means that information is lost, and we risk becoming the generation that will leave the smallest historical record behind. In addition, archives must keep pace with rapid technological development, in terms of both hardware and software, and since the 1990s there has been an information explosion that poses significant challenges to those who want to collect and preserve material. New information channels such as social media have also emerged over the past decade and a half that pose further unique challenges to archives. All of these issues occur against the backdrop of the so-called big data environment where large volumes of data are generated at a rapid rate in a variety of formats.

EPOG, from the Afrikaans “Ekonomie, Politiek, Omgewing en Geskiedenis” (Economy, Politics, Environment and History) is the follow-up organisation of SABRA (South African Bureau of Racial Affairs), established in 1948 as an independent organisation, although state funds were available to SABRA until the early 1980s. EPOG is a subsidiary of the Orania Movement, originally the Afrikaner Vryheidstigting or AVSTIG (Afrikaner Freedom Foundation), and is especially concerned with heritage conservation and publications. The archive was established in 2006 by Wilhelm Verwoerd, Manie Opperman and Adam Boshoff, and in 2017 the authors of the present paper became involved in the establishment of a digital archive as part of a heritage conservation and interdisciplinary research project.

The EPOG archive in Orania aims to preserve material relating to the history and development of Orania (founded in 1991), but since any information can be interpreted meaningfully only within a context, the archive has the further role of preserving material that relates to the context within which Orania was founded and currently exists, namely the Afrikaner’s identity, culture, heritage and position in South Africa. The core collection of the EPOG archive consists of publications, photographs, interviews, video material, reports, minutes of meetings, speeches and a variety of other documents related to Orania's creation and development. In other words, it is a multimedia collection that sets specific challenges for archiving, as discussed in the article. This is also the most important collection, as it is unique and not archived elsewhere. The collection that provides context to the core collection consists of material relating to the Afrikaner's history, cultural development, faith and customs, the rise of Afrikaans, the Afrikaner's pursuit of self-determination and the like.

The article discusses the creation of a digital archive under the auspices of EPOG at Orania against the background of big data, digital archiving, new media and the information explosion. Threats to digital archives, including a catastrophic loss of the storage medium, the slow physical decay of the storage medium over time, the natural decay of content over time, technological change that makes it impossible to read the storage media, technological change which makes it impossible to read the content, as well as human error, are discussed, together with solutions implemented at EPOG and at overseas digital archives.

The Open Archival Information System (OAIS) model describes six primary services of a digital archive: input, archival storage, data management, administration, conservation planning, and access. The article discusses processes that have been put in place at the EPOG archive within the framework of the OAIS model, with a particular emphasis on capturing data, in many cases automatically, from social media platforms such as Facebook, Instagram and Twitter, and the web. The article further discusses using technology to extract meaning from material that exists in a variety of formats and flows into the archive on a daily basis, as well as keeping records and using social media platforms such as Flickr and YouTube to make material available.

The article also serves as a reference point for other projects, as it shows how a digital archive can be established with a small amount of capital and limited manpower, and moreover, how collection methods should keep pace with today's information channels.

Keywords: big data; digital archives; digitization; heritage conservation; Orania; social media

 

1. Inleiding

De fundamentele shift in de manier waarop we kennis vergaren en verdelen, en het omgevende web van technische en sociale praktijken, heeft onmiskenbaar ook een invloed op onze relatie met het verleden. (Debuysere 2010:9–10)

Deur die mensdom se geskiedenis is daar deurgaans gepoog om ’n kulturele en intellektuele erfenis te bewaar. Die inligtingsera bring egter spesifieke uitdagings ten opsigte van erfenisbewaring wat nie voorheen teëgekom is nie.

Een van hierdie uitdagings is die mensdom se huidige vermoë om elektroniese data2 teen astronomiese spoed en volume te genereer. Ingersoll, Morton en Farris (2013:3) skryf byvoorbeeld dat die wêreld in 2011 reeds 1,8 zettagrepe (1021 grepe) se elektroniese data gegenereer het en dat daar verwag word dat daar teen 2020 vyftig keer soveel elektroniese data gegenereer sal gewees het. Soos tegnologie meer bekostigbaar word, gaan meer mense toegang tot mobiele rekenaars verkry, wat ’n digitale wêreld gaan skep waar data nie net in groot volumes gaan arriveer nie, maar ook in ongekende formate.

Ook is die digitale wêreld ’n vervlietende wêreld waar inligting maklik verlore kan gaan (Ingram 2000:16, CCSDS (Consultative Committee for Space Data Systems) (2012:13). Daly en Powell (2015:6) skryf dat ons die generasie is wat die minste vir ons nageslagte gaan agterlaat. In hierdie opsig word gereeld na die digitale donker eeue ("digital dark age") verwys, onder andere deur Knapton (2015), Underhill en Underhill (2016:17) en De Souza, Edmonds, McQuire, Evans en Chenhall (2016:27). Debuysere (2010:10) stel die probleem duidelik ten opsigte van oudiovisuele materiaal: "Het oprukkend technologisch drijfzand dreigt het audiovisuele geheugen onherroepelijk op te slokken."

Die argivering van digitale materiaal is anders as vir fisiese materiaal, soos Wright (2012:3) beklemtoon: "These patterns (for film) and signals (for video and audio) are more like data than like artefacts. The preservation requirement is not to keep the original recording media, but to keep the data, the information, recovered from that media."

Die EPOG- (Ekonomie, Politiek, Omgewing en Geskiedenis-) argief in Orania het ten doel om materiaal rakende Orania se geskiedenis en ontwikkeling te bewaar, maar aangesien enige inligting slegs binne ’n konteks sinvol geïnterpreteer kan word, het die argief die verdere rol om inligting te bewaar wat konteks aan die Orania-versameling gee. Die huidige artikel bespreek die daarstelling van ’n digitale argief onder die vaandel van EPOG by Orania. Oorwegings en metodes word teen die agtergrond van sogenaamde grootdata en digitale argivering bespreek.

Die artikel dien ook as verwysingspunt vir ander projekte, omdat aangetoon word hoe ’n digitale argief op die been gebring kan word met ’n klein kapitaalinset en beperkte mannekrag, en boonop hoe versamelingsmetodes tred moet hou met hedendaagse inligtingskanale.

Die artikel is soos volg gestruktureer: Na ’n agtergrond oor die EPOG-argief word ’n kort oorsig oor die grootdata-omgewing gegee. Hierna word bedreigings vir digitale argiewe bespreek, asook hoe dié bedreigings in die EPOG-argief aangespreek word. Hierna word ’n oorsig oor die prosesse teenwoordig by die funksionering van ’n digitale argief verskaf en aan die hand van die voorbeeld van die EPOG-argief bespreek, asook hoe tegniese uitdagings aangespreek is.

 

2. Die EPOG-argief

EPOG is die opvolgorganisasie van SABRA (Suid-Afrikaanse Buro vir Rasse-aangeleenthede), wat in 1948 as onafhanklike organisasie gestig is, alhoewel staatsfondse tot in die vroeë 1980’s aan SABRA beskikbaar was (Biehl 2018:12–6). EPOG is ’n filiaal van die Orania Beweging (oorspronklik die Afrikanervryheidstigting of AVSTIG) en is veral met erfenisbewaring en -publikasies gemoeid (Orania Beweging 2016:20). Die argief is in 2006 op die been gebring deur Wilhelm Verwoerd, Manie Opperman en Adam Boshoff, en in 2017 het ons, die skrywers van hierdie artikels, betrokke geraak by die oprigting van ’n digitale argief as deel van ’n erfenisbewarings- en interdissiplinêre navorsingsprojek.

’n Argief dra die spoor van die instansie waarin dit ingebed is en is tot ’n mate ’n weerspieëling van daardie instansie se karakter. In Orania se geval is daar veral twee kwessies wat in die argief neerslag vind.

Eerstens is daar Orania se klem op selfwerksaamheid en die oprigting van eie instansies (kyk byvoorbeeld Strydom 2007 en Biehl 2017). In die konteks van die Australiese Aborigines se eie argiewe herinner De Souza e.a. (2016:11) aan Derrida (1996:4) se stelling dat "there is no political power without control of the archive": die skep van ’n eie argief is ’n vorm van bemagtiging van minderheidsgroepe, ’n manier om ’n “eie stem” in die geskiedenis te verkry. Alhoewel Afrikaners in ’n ander posisie as Australiese Aborigenes is, omdat Afrikaners tot onlangs toe nog oor die politieke mag in Suid-Afrika beskik het, deel Afrikaners hul posisie as ’n klein minderheidsgroep wie se geskiedenis nie volkome binne staatstrukture geakkommodeer word nie. Boonop verteenwoordig Orania ’n klein segment van die totale Afrikanerbevolking wat gereeld as rassiste en ’n oorblyfsel van apartheid beskou word (kyk byvoorbeeld McNally 2010, Khan 2014 en Ngugi 2017). Heelwat van die inligting wat buite Orania gesirkuleer word, is foutief, byvoorbeeld Khan (2014:10) se bewering dat Orania se grondgebied deur die Vryheidsfront aangekoop is, of Gross (2011:21) se bewering dat Nelson Mandela Orania in 1990 besoek het, wat saam met die bewerings van rassisme daarop dui dat ’n behoefte bestaan dat Orania ’n eie stem in die geskiedenis verkry. De Souza e.a. (2016) beklemtoon juis dat minderheidsgroepe meer betrokke moet raak by die bewaring van hul eie erfenis, wat verder ooreenstem met Orania se strewe na eie instellings en selfwerksaamheid. Dié faset van die Orania-ingesteldheid vind onder andere neerslag in befondsingstrukture sodat nie op staatsinstellings gesteun word nie, wat ’n beduidende impak op die argief het (sien verder aan).

Tweedens is daar die Orania Beweging, wat die oorhoofse instansie is waarin die EPOG-argief ingebed is, se klem op vernuwing. Een van die duidelikste onlangse voorbeelde hiervan is die oprigting van die sogenaamde Oorlogskamer (geopen 16 Junie 2017), wat die sentrale kantoor van die Orania Beweging is van waar die instansie se bedrywighede uitgevoer word. Dié begrip is gebaseer op die voorbeeld van groot internasionale maatskappye se "War room" en fasiliteer beter samewerking tussen personeel; "om silo’s in organisasiestrukture af te breek en kreatiewe spanwerk aan te moedig" (Orania Beweging 2017:23). (Vir meer inligting oor die begrip, kyk byvoorbeeld Kijko 2017.) Ander voorbeelde is die Orania Beweging se gebruik van tegnologie "om slimmer te kan werk" (Orania Beweging 2017:24, kyk ook Strydom 2017). Dié klem op vernuwing en tegnologie vind neerslag in die argief deur alternatiewe bronne op vernuwende wyses te bewaar, beskikbaar te stel en te ontsluit, soos in hierdie artikel bespreek word.

Soos in die inleiding gestel, bestaan die EPOG-argief as ’t ware uit twee komponente: ’n kernversameling wat die geskiedenis en ontwikkeling van Orania dokumenteer, asook ’n breër versameling wat konteks aan die kernversameling gee, met ’n spesifieke klem op die Afrikaner se strewe na selfbeskikking, soos in die volgende twee paragrawe bespreek.

Eerstens met betrekking tot die kernversameling: Die behoud van institusionele materiaal is belangrik vir die dokumentering van die werkinge van ’n instelling en sy doelwitte, waardes en aktiwiteite, asook om begrip van sy geskiedenis en sy rol in die gemeenskap te help skep (Marshall 2017:155). Die kernversameling by die EPOG-argief vervul juis hierdie funksie en bestaan uit publikasies, foto’s, onderhoude, videomateriaal, verslae, notules, toesprake en ’n verskeidenheid ander dokumente wat verband hou met Orania se ontstaan en ontwikkeling. Dit is met ander woorde ’n multimediaversameling wat spesifieke uitdagings ten opsigte van argivering stel, soos hier onder in meer besonderhede bespreek word. Dit is ook die belangrikste versameling, aangesien dit uniek is en nie elders bewaar word nie.

Dit is egter nie genoeg vir ’n argief om objekte te bewaar nie; inligting rakende die konteks van inligting moet ook bewaar word om dit te kan verstaan. Dit is byvoorbeeld nie moontlik om Orania se geskiedenis te begryp sonder om die Afrikaner se geskiedenis te verstaan nie: Orania is binne ’n baie spesifieke konteks gestig. Die versameling wat konteks aan die kernversameling gee, bestaan uit materiaal wat handel oor die Afrikaner se geskiedenis, kulturele ontwikkeling, geloof, gebruike, die opkoms van Afrikaans, die Afrikaner se strewe na selfbeskikking, en dergelike. Hierdie versameling oorvleuel noodwendig met wat elders in die wêreld geargiveer word, maar kan nietemin nie weggelaat word nie.

Opsommenderwys kan die EPOG-argief soos in figuur 1 voorgestel word.

Figuur 1. Die EPOG-argief

Die daarstelling van ’n digitale argief by Orania word veral deur finansiële faktore beïnvloed. Anders as byvoorbeeld die Bewaring en Ontsluiting van Multimediale-data in die Vlaanderen-projek (BOM-v1), ’n inisiatief van die Vlaamse minister van ekonomie, onderneming, wetenskap, innovasie en buitelandse handel, met steun van die Vlaamse regering (Debuysere 2010:9), of die Beeld en Geluid-projek in Nederland (Wissink en Oomen 2010), ontvang Orania nie skenkings van die staat nie. Die Beeld en Geluid-projek in Nederland het byvoorbeeld tussen 2007 en 2014 ’n begroting van €173 miljoen gehad (Wissink en Oomen 2010:92), teenoor die EPOG-argief se begroting van R27 500 per jaar (Kleynhans 2017). Hiermee saam word Orania se eie fondse oorwegend aan ontwikkelingsinisiatiewe spandeer (kyk byvoorbeeld Orania Dorpsraad 2016) en is daar dus nie groot bedrae beskikbaar vir geboue, toerusting en mannekrag vir die argief nie. Dít het ’n beduidende impak op die digitale argief: apparatuur moet bekostigbaar wees, programmatuur gratis of ten minste ook bekostigbaar, en stelsels moes ontwikkel word sodat twee personeellede (wat beide boonop slegs deeltyds by die argief betrokke is) dit kan behartig. Benewens die bewaringsfunksie is die gebrek aan mannekrag en ruimte van die hoofredes waarom die digitale argief ontwikkel is: met behulp van ’n digitale argief kan meer koste-effektief met hulpbronne, byvoorbeeld mannekrag, befondsing en ruimte, omgegaan word. Waar moontlik word egter met ander Afrikanererfenisinstellings saamgewerk, byvoorbeeld die Erfenisstigting.

Daar is geen standaardmetode vir die oprigting van ’n digitale argief nie (Marshall 2017:158), iets wat duidelik geïllustreer word deur Underhill en Underhill (2016) se oorsig oor digitale argiewe in Swede en De Souza e.a. (2016) se bespreking van Aborigenes se argiewe in Australië. Die OAIS-model is ook nie voorskriftelik nie; die uiteensetting daarvan deur die CCSDS (2012:1–3)

does not assume or endorse any specific computing platform, system environment, system design paradigm, system development methodology, database management system, database design paradigm, data definition language, command language, system interface, user interface, technology, or media required for implementation.

Die prosesse wat hier onder uiteengesit word, is boonop geensins perfek of afgesluit nie en word deurgaans verder ontwikkel – deurlopende ontwikkeling en aanpasbaarheid is immers noodsaaklik vir argiewe in die inligtingsera. Daar word egter met Pearce-Moses (2006:s.bl.) se uitgangspunt saamgestem:

In many ways, my motto has become “Don’t let the perfect be the enemy of the possible.” Best practices are relative, not ideal. We can always do better. We can get things in cheap boxes today, providing significant protection in case of water leaks or fires. In time, we can get better boxes. And someday, we may get state-of-the-art fire suppression as well. But we’ll do the best we can now. I think the same adage applies in the realm of electronic records and digital information.

Alhoewel daar altyd beter maniere is om ’n digitale argief op te rig, is dit belangrik om so gou as moontlik een op die been te bring en dit so goed as moontlik met beskikbare hulpbronne te doen. As dit nie gedoen word nie, loop ’n mens die gevaar dat rekords verlore kan gaan: "'[B]orn digital' materials must be proactively collected ’now' so there won't be a 'black hole' in heritage collections in the future" (De Souza e.a. 2016:49).

Ten einde die digitale omgewing te verstaan waarbinne hierdie argief opgerig is, moet daar egter eers ’n kort oorsig oor grootdata gegee word.

 

3. ’n Omskrywing van grootdata met spesifieke verwysing na die samestelling van die huidige digitale argief

Grootdata is ’n begrip wat moeilik vasgepen word, en daarom omskryf Laney (2001) die begrip eerder teen die agtergrond van drie aspekte: volume, verskeidenheid en snelheid ("volume", "variety" en "velocity"). Hierby kan twee verdere aspekte gevoeg word: betroubaarheid ("veracity") en waarde ("value") (Hitzler en Janowicz 2013, Assunção, Calheiros, Bianchi, Netto en Buyyab 2015 en Jin, Wah, Cheng en Wang 2015). Alhoewel ’n mens huiwerig is om die huidige argief ’n grootdataprojek te noem omdat die argief nie petagrepe (1015 grepe) se geheue opneem nie, is baie van die uitdagings en kenmerke van grootdata ook in die huidige projek teenwoordig, en daarom bespreek hierdie afdeling die samestelling van die argief teen die agtergrond van grootdata.

Grootdata is wel nie definieerbaar nie, maar kan opgesom word soos in figuur 2.

Figuur 2. Die aspekte van grootdata

Figuur 2 verskaf die raamwerk vir die bespreking in die huidige afdeling.

3.1 Volume

Volume verwys natuurlik daarna dat groot datastelle ter sprake is, maar die vraag is wat presies as “groot” geag word; Assunção e.a. (2015:6) skryf dat “groot” ’n subjektiewe oordeel is. Grootdata bied onder andere uitdagings aan bestaande tegnologie, maar wat as “groot” gesien word, hang af van die huidige tegnologie, wat voortdurend verbeter word: die verwerkingskrag van ’n Apple iPhone 6 oortref byvoorbeeld die verwerkingskrag van Cray-1, die wêreld se eerste superrekenaar (Reed en Dongarra 2015:59). Reed en Dongarra (2015:59) skryf: "Given the rapid pace of technological change, leading-edge capability is a moving target." Verder is daar die kwessie van wie die data bestuur: Google het teen 2013 byvoorbeeld daagliks deur 20 petagrepe se data gesoek (Hendler 2013:18), terwyl Wal-Mart in 2014 2,5 petagrepe se data per uur genereer en verwerk het (Kitchin 2014:2). Sulke volumes is veel meer as waarmee die individuele navorser of ’n argief gewoonlik te doen sal kry. Ook is daar die kwessie van hoe data geberg word (Senekal en Brokensha 2014:17): twee petagrepe se data soos in teks (.txt) gestoor, is byvoorbeeld veel meer rekords as wanneer dit in Tagged Image File Format (TIFF) gestoor is. Russom (2011:6) stel voor dat dit nie bloot die aantal grepe is wat grootdata onderskei nie, maar ook die aantal rekords. Mayer-Schönberger en Cukier (2013:29) en Kitchin (2014:1) voer op hul beurt aan dat “groot” nie noodwendig in grepe gemeet moet word nie, maar dat ook die omvattendheid van die datastel in berekening gebring moet word.

Alhoewel die grootte van ’n datastel – hoe dit ook al gemeet word – ’n belangrike komponent van ’n grootdatastel is, moet daarop gelet word dat die meerderheid skrywers wat oor grootdata skryf, insluitend Davenport (2014:7), Jagadish (2015:49) en Jin, Wah, Cheng en Wang (2015:59), nie volume as die onderskeidende kenmerk van grootdata sien nie. Wat grootdatabronne anders maak as normale databronne, is dat grootdata aanhoudend gegenereer word en óf ongestruktureerd is óf so vinnig groei dat dit te groot is vir tradisionele dataverwerkingstelsels en dus nuwer tegnologie vereis (Vaisman en Zimanyi 2014, Provost en Fawcett 2013). Grootdatabronne bestaan hoofsaaklik uit databanke, webblaaie, sosiale media, sensors en mobiele data, en word deur sakeondernemings, rekenaarnetwerke wat die internet, mobiele netwerke en sogenaamde internet of things insluit, asook deur wetenskaplike toepassings, gegenereer (Hu, Wen, Chua en Li 2014).

Die digitale argief by EPOG is eerder groot in die sin van omvattend oor Orania se geskiedenis as wat dit groot ten opsigte van grepe is. Hierdie versameling is natuurlik aansienlik kleiner as die projekte wat vroeër genoem is, byvoorbeeld die Beeld en Geluid-projek, maar die waarde van dié argief lê daarin dat dit die mees omvattende versameling oor Orania se ontstaan en ontwikkeling is. ’n Katalogus van wat tans in die digitale argief is, is by die Orania Beweging beskikbaar.

3.2 Verskeidenheid

Verskeidenheid verwys na die verskeidenheid formate waarin data in die wêreld aangetref word (Sathi 2012:4, Schöch 2013:4 en Assunção e.a. 2015:5): gestruktureerde, semigestruktureerde en ongestruktureerde teks, video, klank, beelde ens. Grootdatabronne is verspreid, moeilik om te integreer en word meestal in nierelasionele databasisse geberg (Hu e.a. 2014) (’n nierelasionele databasis is ’n nie-SQL- (of NoSQL-) databasis en volg nie die verhoudingsmodel (tabelle en verhoudings) wat verband hou met tradisionele relasionele databasisse nie). Een van die grootste uitdagings in ’n grootdatawêreld is om bruikbare inligting uit sulke verskillende formate te onttrek en in ’n gestruktureerde formaat te omskep, aangesien die meerderheid programmatuur wat met grootdata kan omgaan – byvoorbeeld Tableau, Sisense, Cytoscape, of Gephi – dit slegs met gestruktureerde data kan doen. Die omskakeling van ’n ongestruktureerde na ’n gestruktureerde formaat verteenwoordig die grootste tydsinset vir die datawetenskaplike (Davenport 2014:19, 100), veral omdat ’n groot aantal rekords hierby betrokke is.

Al hierdie voorbeelde van gestruktureerde, semigestruktureerde en ongestruktureerde data kan nie staatmaak op konvensionele relasionele databasisbestuurstelsels (RDBS) nie, aangesien dít nie effektief is vir die verwerking en bestuur van grootdata nie (Kim e.a. 2014). Dit word algemeen erken dat relasionele databasisse nie die verskeidenheid en grootte van grootdatastelle kan hanteer ten opsigte van databestuur en databasistegnologie nie (Hu e.a.2014; Krishnan 2013: 86). Relasionele databasisse ondersteun net gestruktureerde data vanweë die relasionele argitektuur van ’n RDBS. Verder kan ’n RDBS alleenlik deur middel van peperduur apparatuur soos ’n rekenaartros opgeskaal word om grootdatastelle te hanteer (Hu e.a.2014). Beide hierdie faktore (struktuur en skaalbaarheid) maak ’n RDBS dus onvanpas om grootdatastelle te hanteer en daarom word NoSQL- (Not only SQL-) databasisstelsels voorgehou as die oplossing om groot multistrukturele datastelle te verwerk. Hierdie tipe databasisstelsels laat gebruikers toe om data nie net relasioneel te stoor nie, maar ook as kolomgeoriënteerd (Facebook se Cassandra), grafiekgeoriënteerd (Neo4J) en dokumentgeoriënteerd (MongoDB). Die rede vir die sukses van hierdie nuwe-generasie-databasisbestuurstelsels is dat dit nie die ACID-(Atomicity, Consistency, Isolation and Durability-) eienskappe van ’n RDBS hoef te onderskryf nie. Hierdie eienskappe moes toesien dat data-integriteit beskerm word en onreëlmatighede tot die minimum beperk word. NoSQL-databasisse, aan die ander kant, is juis geskep met die primêre doel om maksimum buigsaamheid en spoed te bemiddel (Celko 2014).

’n Verskeidenheid formate word ook in die EPOG-argief aangetref. Boonop word Facebook- en Twitter-data ook geberg, benewens video's, dokumente, foto’s en mediaberigte. Die gevolg van so ’n groot verskeidenheid formate is dat dit besondere tegniese uitdagings bied aan diegene wat inligting daaruit wil onttrek. In die geval van teks is dit nie ’n besonder tegniese uitdaging om ’n dokument soekbaar te maak nie, aangesien karakterherkenningstegnologie soos Adobe Acrobat of ABBYY Finereader vryelik beskikbaar en bekostigbaar is. Handgeskrewe en ouer dokumente bied wel beduidende uitdagings ten opsigte van karakterherkenning, maar Orania is jonk: die Orania Beweging vier vanjaar sy 30-jarige bestaan, wat beteken dat die oorgrote meerderheid dokumentasie oor Orania nuut en maklik ontsluitbaar is, aangesien dit op rekenaars geskep en met moderne drukkers uitgedruk is. Waar beeld, klank- en videomateriaal betrokke is, is daar egter ’n groot uitdaging om inligting te ontsluit. By die Beeld en Geluid-projek in Nederland is gebruik gemaak van geoutomatiseerde spraak- en beeldherkenning ten einde oudiovisuele materiaal te ontsluit (Wissink en Oomen 2010:97–8). By die EPOG-argief word klankmateriaal nog nie tans rekenaarmatig ontsluit nie, maar navorsing word onderneem om te bepaal of platforms soos Google Cloud Speech API (wat Afrikaans kan herken) in die toekoms gebruik sal kan word om byvoorbeeld onderhoude outomaties te transkribeer. Vir beeldmateriaal is die proses ietwat eenvoudiger: platforms soos Clarifai, Google Cloud Vision API en Amazon Rekognition kan gebruik word om foto’s outomaties volgens onderwerp te klassifiseer, en in sommige gevalle gesigte ook te herken. Flickr se ingeboude beeldherkenning kan ook gebruik word om foto’s wat op hierdie platform gelaai is, voorlopig volgens onderwerp te groepeer. Eksperimente het egter getoon dat Google Photos, wat inkoppel met Google Cloud Vision API, die eenvoudigste en akkuraatste manier bied om beeldherkenning toe te pas, insluitend om gesigte te herken, en dit is boonop gratis. Aangesien die proses geoutomatiseerd is, is alle foto’s reeds sodanig ontsluit.

Daar word egter deurgaans navorsing onderneem om beter met ongestruktureerde en semigestruktureerde data om te gaan, byvoorbeeld sentimentontleding, wat gereeld gebruik word om Twitter-boodskappe mee te ontleed (kyk byvoorbeeld Hendrikse, Habib en Van Keulen 2017). Hiervoor is ’n informele samewerkingsverhouding tussen die Orania Beweging en betrokkenes by Departement Rekenaarwetenskap en Informatika en die Eenheid vir Taalfasilitering en Bemagtiging aan die Universiteit van die Vrystaat (UV) op die been gebring: die EPOG-argief word as toetsgrond gebruik vir die ontwikkeling van tegnologie en toepassings wat deel uitmaak van interdissiplinêre navorsingsprojekte. Die opset is soortgelyk aan Dawie Roodt se navorsing oor die e-Ora (kyk Monks 2017, Roodt 2017 en Stadler 2017): navorsers verkry toegang tot hierdie unieke omgewing en verbeter terselfdertyd Orania se funksionering. Daar is reeds ’n studie onderneem wat sentimentontleding binne ’n Suid-Afrikaanse konteks ontwikkel en toepas op Twitter-boodskappe oor Orania, wat weer aan die Orania Beweging deurgegee word en hulle inlig oor hoe Orania op dié sosiale media platform gesien word (Kotzé en Senekal 2018).

3.3 Snelheid

Snelheid verwys daarna dat data deurlopend gegenereer, versamel en verwerk word. Gebruikers op Facebook het byvoorbeeld teen 2014 reeds daagliks 300 miljoen nuwe foto’s op dié sosialenetwerkwebwerf geplaas (Kitchin 2014:2), wat daartoe bydra dat Facebook teen 2013 reeds daagliks met 500 teragrepe (1012 grepe) gegroei het (Hendler 2013:18), terwyl Alibaba in 2014 ’n platform genaamd Galaxy ontwikkel het wat 5 miljoen transaksies per sekonde kan verwerk (Jin e.a. 2015:63). Die sleutelkwessie ten opsigte van hierdie faset is dat data dan ook intyds ("real-time") versamel, ontgin en ontleed word (Schöch 2013:5–6), alhoewel data ook in bondelverwerking ("batch processing"), of byna intyds ("near real-time") ontleed kan word (Assunção e.a. 2015:6, Minelli, Chambers en Dhiraj 2013). Die onderskeid tussen intydse en byna intydse verwerkings is soms moeilik om te bepaal. Byna intydse verwerkings word gedefinieer as die vertraging wat deur outomatiese dataverwerking ingestel word tussen die voorkoms van ’n gebeurtenis en die gebruik van die verwerkte data, byvoorbeeld vir vertoon- of terugvoer- en beheerdoeleindes. ’n Byna intydse verwerking vertoon byvoorbeeld ’n gebeurtenis of situasie soos dit bestaan het teen die huidige tyd minus die verwerkingstyd (Federal Standard 1037C 1996, kyk ook Ben-Ari 1990:164). Bondelprosesverwerking verwys op sy beurt daarna dat ’n bondel dokumente op ’n slag verwerk word, met ander woorde nie soos wat die data versamel word nie. Meer formeel word bondelverwerking deur Federal Standard 1037C (1996) gedefinieer as verwysend na:

  1. die verwerking van data of die verrigting van werk wat vooraf op so ’n wyse opgehoop is dat die gebruiker nie die verwerking kan beïnvloed terwyl dit aan die gang is nie
  2. die verwerking van data wat oor ’n tydperk versamel is
  3. die uitvoering van rekenaarprogramme in serie
  4. die tegniek om ’n stel rekenaarprogramme uit te voer, sodat elkeen voltooi word voordat die volgende program van die stel begin word
  5. die opeenvolgende insette van rekenaarprogramme of data.

Die belangrikheid van die aspek snelheid hang af van die veld waarbinne grootdata aangewend word: Davenport (2014), wat binne die besigheidswêreld skryf, noem snelheid byvoorbeeld die onderskeidende kenmerk van grootdata, maar Schöch (2013), wat binne die geesteswetenskappe skryf, ag dit as ’n minder belangrike aspek van grootdata. In ’n besigheidswêreld, waar byvoorbeeld bemarkingsbesluite onmiddellik geneem moet word, is snelheid van groot belang, maar in die geesteswetenskappe, waar ’n studie onderneem word, afgesluit word en die bevindinge soms dalk eers maande later gepubliseer word, is snelheid nie van soveel belang nie.

Die EPOG-argief word ook met hierdie faktor gekonfronteer, aangesien nuwe materiaal die argief deurlopend binnestroom. Teen einde 2017 was daar nagenoeg 2 000 foto’s in die digitale argief, terwyl daar ses maande later 71 000 was. Veral sosiale-media-platforms veroorsaak dat ’n deurlopende stroom materiaal daagliks by die versameling gevoeg word.

Snelheid word veral binne die konteks van sosiale media genoem, aangesien dit juis hierdie platforms is waar data vinnig en deurlopend gegenereer word. Alle boodskappe wat op Twitter geplaas word waarin die woord orania voorkom, word outomaties in die argief versamel met behulp van Twitter Archiver, ’n gratis Google Sheets-byvoeging. Die woord is bo die hutsmerker gekies omdat ’n soektog na die woord ook die hutsmerker optel, maar nie omgekeerd nie, wat beteken dat die woord die volledigste resultate oplewer. Instagram het ook ’n belangrike bron van inligting geword, veral vir video’s en foto’s. ’n Werkswyse is met behulp van 4kStogram opgestel om dié platform deurlopend te monitor vir plasings met die hutsmerker #orania asook plasings van foto’s en video’s wat in Orania geneem is, met ander woorde waar die ligging van die foto of video as Orania aangedui is. Sulke foto’s en video’s word intyds outomaties afgelaai en geberg. Meer word in afdeling 5.1 hieroor geskryf.

Onder die afdeling snelheid kan ook genoem word hoe vinnig die digitale omgewing verander. Facebook en Twitter, twee van verskeie sosiale media platforms wat die mens se omgang met sy omgewing ingrypend verander het, is onderskeidelik in 2004 en 2006 gestig, terwyl platforms soos Flickr (2004), YouTube (2005) en Instagram (2010) ook onlangse toevoegings tot sosiale media is. Dit is ’n sekerheid dat nuwe platforms ontwikkel sal word en oues (soos wat die geval was met byvoorbeeld Myspace) in onbruik sal verval. Terselfdertyd verander hierdie platforms se toegang voortdurend, en veral Facebook is bekend daarvoor dat ’n toepassing wat vandag gebruik kan word om byvoorbeeld foto’s af te laai, dalk more nie meer daartoe in staat sal wees nie. Deur die afgelope jaar is daar byvoorbeeld probleme met toegang tot Facebook, Instagram en Twitter ondervind soos wat hierdie platforms hul toepassingsprogrammering-koppelvlak (Application Programming Interface, of API) verander het, wat toepassings dan in onbruik laat verval. Om hierdie rede verg ’n digitale argief altyd ’n deurlopende monitering van die digitale wêreld, van toepassings, platforms, ontledingsmiddele en dergelike, en daarom is die digitale argief by EPOG geskakel met ander grootdataprojekte, veral deur vennote aan die Universiteit van die Vrystaat.

3.4 Betroubaarheid

Betroubaarheid verwys daarna of databronne betroubaar is (Sathi 2012:4 en Assunção e.a. 2015:5), maar het ook te doen met vrae na die voorkoms van inkonsekwenthede, leemtes, dubbelsinnighede en dergelike (Lukoianova en Rubin 2014:6) in die data. Die teenwoordigheid van onsuiwerhede en onakkuraatheid word meestal deur geruis en abnormaliteite in die data veroorsaak (Daniel en Butson 2014). Om dít te verhoed, word dataverifikasieprosesse gevolg om te verseker dat ’n grootdatastel betroubaar is voordat dit deur ontleders gebruik word (Berman 2013). Wanneer data boonop nie konsekwent ingevoer word nie, beïnvloed dit die ontleding: ’n rekenaar sal byvoorbeeld nie sonder gesofistikeerde natuurliketaalverwerkingsmeganismes kan herken dat C.W.H. Boshoff ook Carel Boshoff III is nie.

Wat dubbelsinnighede aanbetref: Orania is in ’n bevoorregte posisie omdat sy naam oorwegend na die dorp verwys: Orania deel sy naam onder andere met ’n hotel in Berlyn, ’n wurm, ’n plant, ’n musikant, ’n skip, "om te ploeg" in Pools, ’n gastehuis in Australië, ’n professor by Emory Universiteit en ’n dorpie in Oostenryk. Maar die oorgrote meerderheid verwysings na die item Orania op die web, Instagram en Twitter is na die dorpie in die Noord-Kaap. Wanneer byvoorbeeld Twitter-boodskappe versamel word, is daar min boodskappe wat na hierdie ander Oranias verwys. Vir ’n ontleding van dié data sou sulke ander verwysings egter verwyder moes word.

Een van die uitdagings in ’n digitale omgewing is dat dokumente verander kan word sonder dat dit lyk of die dokument verander is. ’n Mens kan byvoorbeeld die beeld van ’n persoon uitvee uit ’n foto of die foto op ’n ander manier aanpas. In die geval van dokumente kan die probleem aangespreek word deur van die PDF/A-formaat gebruik te maak (kyk verder aan), maar ook dui metadata outomaties aan wanneer ’n foto geskep is en of dit agterna verander is. Sulke metadata word ook in die huidige projek versamel ten einde te kan bepaal of ’n foto agterna aangepas is.

3.5 Waarde

Waarde verwys na die vermoë om insig uit grootdata te genereer tot voordeel van ’n organisasie (Daniel en Butson 2014).Hierdie aspek van grootdata verwys gewoonlik na die finansiële waarde wat met die gebruik van grootdata gepaard gaan (Assunção e.a. 2015:5 en Jin e.a. 2015:60), byvoorbeeld dat dit besighede se produktiwiteit verbeter en bemarkingsveldtogte meer koste-effektief kan help bestuur (kyk byvoorbeeld Davenport 2014). Grootdata het egter nie alleen ekonomiese waarde nie, soos die vele regeringsinisiatiewe wat aan sekuriteit en intelligensie gekoppel is, getuig (Senekal en Brokensha 2014:9 en Jin e.a. 2015:62). In hierdie sin het grootdata dus ’n strategiese waarde in die sekuriteitsdomein, maar grootdata se waarde is ook nie beperk tot sekuriteit nie: grootdata het byvoorbeeld ook ’n deurslaggewende rol in Barack Obama se herverkiesing in 2012 gespeel (Jin e.a. 2015:61). Jin e.a. (2015:60) skryf:

It is anticipated that future economic and political competitions among countries will be based on exploiting the potential of big data, among other traditional aspects. In short, the research and applications of big data are of strategic importance and significance for improving the competitiveness of any country.

Met die voorheen genoemde klem op die gebruik van tegnologie, verwerk die Orania Beweging reeds sosiale media data (veral Facebook), aangesien die waarde van datagebaseerde ontledings reeds aan dié organisasie bekend is en vir bewusmakingsveldtogte aangewend word (Kleynhans 2017). Voor die daarstelling van ’n digitale argief is dié data egter op ’n ad hoc-grondslag geberg en het dit nie deel uitgemaak van die argief nie. Sulke data kan in die toekoms vir navorsers van waarde wees: daar kan byvoorbeeld ondersoek ingestel word na hoe persepsies van Orania oor tyd verander het deur gebruik te maak van sentimentontleding of ’n inhoudsontleding van mikroblogging-data (byvoorbeeld Twitter-boodskappe). Ander moontlikhede sluit in sosialenetwerkverwerking waar ’n navorser gebruikers se interaksies met die Orania Beweging se Facebookblad sou kon ondersoek, soos Van Staden (2017) onderneem wanneer sy ’n onderwysblad op Facebook ondersoek.

 

4. ’n Oorsig oor digitale argiveringspraktyke

Een van die hoofredes waarom argiewe gestig word, is natuurlik om inligting vir die toekoms te bewaar en by implikasie ook vir toekomstige navorsers beskikbaar te kan stel. Daly en Powell (2015:20–2) noem ’n aantal algemene bedreigings vir digitale argiewe:

  1. katastrofiese verlies van die bergingsmedium
  2. stadige fisiese verval van die bergingsmedium oor tyd
  3. natuurlike verval van die inhoud oor tyd
  4. tegnologiese verandering wat dit nie meer moontlik maak om die bergingsmedium te lees nie
  5. tegnologiese verandering wat dit nie meer moontlik maak om die inhoud te lees nie
  6. menslike foutering.

Die volgende onderafdelings bespreek probleme en oplossings teen die agtergrond van Daly en Powell se kategorieë.

4.1 Katastrofiese verlies van die bergingsmedium

’n Katastrofiese verlies van die bergingsmedium kan bedreigings soos brand of vloede insluit (Daly en Powell 2015:20). Sommige brande ontstaan as gevolg van niekwaadwillige optrede, maar die teikening van biblioteke deur kwaadwilliges het ’n sterk historiese presedent. Die biblioteek van Alexandria is sekerlik die bekendste voorbeeld van ’n biblioteek wat tydens konflik afgebrand is, maar daar is talle voorbeelde van soortgelyke aksies in die onlangse verlede. In 2013 is die historiese Ahmed Babu-instituut in Timboektoe byvoorbeeld deur rebelle afgebrand; dit het ongeveer 20 000 manuskripte gehuisves wat so ver terug dateer as die 13de eeu (Wyngaard 2016). Suid-Afrika se onlangse massa-aksies het dieselfde tendens vertoon: in 2015 is skilderye op die kampus van die Universiteit van Kaapstad verbrand; in September 2016 is die regsbiblioteek van die Universiteit van KwaZulu-Natal deur betogende studente in ’n brand beskadig; en daar is in 2016 ook gedreig om die Sasol-biblioteek by die Universiteit van die Vrystaat af te brand. Beskerming teen sulke faktore is standaardpraktyk vir argiewe en museums, en argiewe (ook EPOG se argief) word byvoorbeeld met brandbestrydingstelsels toegerus.

Wanneer digitale argiewe ter sprake is, kan die medium, soos die rekenaar, bediener of eksterne hardeskyf, onklaar raak. Veral ’n hardeskyf is nie ’n betroubare bergingsapparaat vir langtermynberging nie, aangesien foute kan insluip wat die data korrupteer (Daly en Powell 2015:17). Boonop kan hardeskywe gesteel word of wegraak, of selfs beskadig word in brande en vloede, net soos tradisionele argiewe.

Porges (2012, s.bl.) skryf:

All electronic and mechanical devices eventually fail, and computer hard drives (even solid-state drives) are no exception. If you knew exactly when or how this was going to happen, you could plan a precise solution. But because you don't, redundancy is key. So if the one hard drive in your computer is prone to mechanical failure, it makes sense to have another drive on your desktop with duplicate data. That drive is just as likely to fail, though. What if you lost your family photos, tax records, documents, home videos, music, and saved games not because of a misaligned read/write head but because of a flood or a robbery or a house fire that wiped out both drives at the same time? Preparing for such a disaster calls for a different level of redundancy and a solution that includes backup in the cloud.

Die maak van rugsteunkopieë is ’n kardinale beginsel vir enige IT-verwante projek, soos Rönsdorf e.a. (2016:163) beklemtoon: "A backup is mitigation against catastrophic failure to enable disaster recovery and is considered to be a standard IT task in any operational system that holds business critical data." In die digitale era kan versamelings beskerm word deur kopieë op verskillende plekke te berg omdat die kopiëring van digitale materiaal juis koste-effektief is en nie ’n vergelykbare verswakking in kwaliteit meebring as wat die geval is met analoogkopiëring nie. Wanneer analoogmateriaal (byvoorbeeld dokumente, foto’s of videomateriaal op kassette) gekopieer word, ontstaan ruis, wat beteken dat die kwaliteit van die kopie altyd swakker is as die oorspronklike. Dit plaas ’n beperking op hoeveel keer ’n dokument gekopieer kan word, wat nie die geval is met digitale dokumente nie (Senekal 2011:50). Digitalisering bied met ander woorde die geleentheid om ’n paar digitale argiewe te skep wat, anders as tradisionele argiewe, nie dieselfde ruimte hoef te beslaan en aan dieselfde risiko's blootgestel hoef te wees nie.

Ten einde die bedreiging van die katastrofiese verlies van die bergingsmedium die hoof te bied, word die digitale argief van EPOG in die wolk gestoor, wat ook sinchroniseer met ’n rekenaar wat elders gehuisves word. Toevoegings en veranderings word outomaties met ’n wolkbergingstelsel (Google Drive) en die bergingsrekenaar gesinchroniseer, wat beteken dat geen tyd daaraan spandeer hoef te word om rugsteunkopieë te maak nie. Indien een rekenaar of die wolkbergingstelsel onklaar raak, is daar met ander woorde twee rugsteunkopieë beskikbaar, maar op hul eie maak die wolkbergingstelsel ook rugsteunkopieë ten einde dataverlies te voorkom.

Benewens die wolkberging word gebruik gemaak van Apple se Time Machine om ook rugsteunkopieë na ’n eksterne hardeskyf te maak. Redwine (2015:11) en Rönsdorf e.a. (2016:163) beveel juis aan dat rugsteunmaking gediversifiseer moet word, want elke medium bring sy eie risiko's mee en elke verdere kopie beskerm die data verder teen verlies.

’n Bykomende manier waarop data by die digitale argief teen katastrofiese verlies beskerm word, is deur gebruik te maak van ’n Apple-infrastruktuur. Apple geniet in wese veel meer beskerming teen virusse, terwyl virusse juis ’n groot bedreiging vir digitale argiewe verteenwoordig (Redwine 2015:12 en Steyn 2015:107), as Microsoft gegewe die BSD (Berkeley Software Distribution) onderbou van die OSX-bedryfstelsel (Apple 2017:64). Ook is die Apple-stelsel geïntegreer om apparatuur en programmatuur optimaal te benut sodat dataverlies minder as gevolg van foutiewe onderdele voorkom.

The tight integration of hardware and software on iOS devices ensures that each component of the system is trusted, and validates the system as a whole. From initial boot-up to iOS software updates to third-party apps, each step is analyzed and vetted to help ensure that the hardware and software are performing optimally together and using resources properly. (Apple 2017:5)

4.2 Stadige fisiese verval van die bergingsmedium oor tyd

In ’n analoogwêreld is die stadige fisiese verval van die bergingsmedium alombekend: papier en perkament verkrummel, bandopnames word onleesbaar, ens. Om hierdie rede word klimaatbeheerstelsels gewoonlik in argiewe geïnstalleer om die temperatuur en humiditeit te beheer.

Ook in die digitale wêreld bestaan hierdie bedreiging: skryfbare ("writable") CD's en DVD's vergaan oor tyd as gevolg van chemiese en fisiese prosesse en kan daarom nie as ’n geskikte of veilige bergingsmedium geag word nie (Daly en Powell 2015:20).

Daly en Powell (2015:20) verduidelik:

Commercially mass-produced music CDs and video DVDs are created by a pressing process similar to how vinyl discs are made, and the resulting data is effectively held within a robust metallic layer. Barring rare manufacturing defects, and potential degradation from very excessive temperatures, these are a stable long-term medium. Recordable disc (CD-R, DVD+/-R, CD-RW, DVD-RW) can be filled with data using two different physical processes. In both cases, a laser is used to write the data by either burning it into a dye-layer for permanent (-R) formats, or causing a physical “phase change” in a crystal structure for re-writeable (-RW) formats. Although there are inherent differences in the resulting longevity of the formats, experience shows that neither technology provides a good long-term archiving format.

Wanneer die digitale materiaal egter losgemaak word van die bergingsmedium, byvoorbeeld deur ’n CD in ’n digitale formaat om te skakel, word die bergingsmedium nie meer ’n probleem nie. Tydens die digitisering van die EPOG-argief word analoogdokumente (byvoorbeeld papier) gedigitiseer, maar ook word CD- en DVD-opnames en video- en klankkassette in ’n digitale formaat omgeskakel sodat dit nie op ’n enkele bergingsmedium gestoor hoef te word nie, maar eerder in die wolk, soos in die vorige onderafdeling bespreek. Tydens hierdie proses is juis verskeie geskryfde CD's en DVD's gevind wat reeds onleesbaar geraak het.

4.3 Natuurlike verval van die inhoud oor tyd

Hierdie soort verval is die gevolg van natuurlike omgewingsfaktore soos kosmiese bestraling en temperatuurskommelinge wat die korruptering van data op ’n lukrake wyse veroorsaak. Daar word algemeen hierna verwys as greepverrotting ("bit rot") (Daly en Powell 2015:20). Die gevaar van greepverrotting is een van die redes waarom digitale dokumente so min as moontlik saamgepers moet word (of verkieslik glad nie), soos Wright (2012:16) verduidelik:

Uncompressed audio and video is highly redundant, and loss of one bit in a file (providing it is in the audio or image area of the file, not in the metadata and control area) is insignificant. With compression, an altered bit changes a number that is a parameter in a calculation, not just one pixel or one sound sample. The calculation could apply to a whole image, and so the effect of the loss is magnified.

Om hierdie rede word digitale materiaal in die hoogste resolusie moontlik geberg; Groenewald en Klapwijk (2010:23) beveel aan dat van verlieslose formate gebruik gemaak word. Die volgende resolusies en formate word in die huidige projek gebruik:

• Vir klankopnames stel Wright (2012:17) die formaat WAV voor, maar sy publikasie is verouderd en WAV kan byvoorbeeld nie deur alle programmatuur gelees word nie. Ter wille daarvan om die hoogste resolusie moontlik te behou, word Apple Lossless Encoder (.m4a) vir klankopnames gebruik, van waar werkskopieë in MP3-formaat beskikbaar gestel kan word (MP3 behels noodwendig dat data saamgepers word; kyk Groenewald en Klapwijk 2010:25).

• Vir foto’s is een van die internasionale standaarde Tagged Image File Format (TIFF), wat ook ’n verlieslose beeldformaat is (Groenewald en Klapwijk 2010:23). Foto’s wat in TIFF geënkodeer is, neem egter baie geheuespasie in beslag (Senekal 2011:56). Marshall (2017:157) skryf dat daar in hulle digitale argiveringsprojek besluit is om ’n balans tussen kwaliteit en bruikbaarheid na te streef, en daarom verkies hulle die Joint Photographic Experts Group- (JPEG-) formaat. ’n Mens sou kon byvoeg dat digitale foto’s gewoonlik in JPEG geneem word, wat beteken dat digitale foto’s se gehalte nie verbeter sal word deur hulle as TIFF te stoor nie, omdat ’n omskakeling nie ’n verbetering van gehalte meebring nie. TIFF neem aansienlik meer geheuespasie in beslag: eksperimente tydens die huidige projek het getoon dat wanneer dieselfde resolusie gebruik word, TIFF-weergawes van foto’s om en by tien keer meer geheuespasie opneem as hul JPEG-eweknieë. Omdat die oorgrote meerderheid foto’s in die digitale argief van meet af aan digitaal in ’n JPEG-formaat bestaan, en omdat JPEG meer hanteerbaar is as gevolg van sy kleiner grootte, volg ons Marshall (2017) deur hierdie formaat te gebruik.

• Dokumente word met ’n resolusie van 300 spd (stippels per duim; "dpi" of "dots per inch") geskandeer, soos aanbeveel deur Groenewald en Klapwijk (2010:25) en uiteengesit in Senekal (2011:54). Die oogmerk is om relatief hoëkwaliteitskanderings op te lewer, maar sonder om die berging en hantering van dokumente te bemoeilik deur groter dokumente te skep én om ’n goeie resolusie vir karakterherkenning te gebruik.

• Vir video stel Wissink en Oomen (2010:95) en Wright (2012:17) Material eXchange Format (MXF voor), maar Apple se QuickTime-formaat (MOV) kan ook gebruik word (Audio Video Interleaved of AVI is volgens laasgenoemde nie ’n geskikte formaat vir argivering nie). Wright (2012:23) erken egter: "There is no single agreed wrapper, metadata standard or even encoding standard, and the change from standard definition to high definition brings a new set of applications, wrappers and encodings" (kyk ook Debuysere 2010:10). Dit is profetiese woorde, aangesien Wright self nuwer formate soos MP4 en Matroska Multimedia Container (MKV) weglaat. Dit is ook betekenisvol dat Groenewald en Klapwijk (2010:26) nie aanbevelings maak oor watter videoformaat die geskikste is vir digitaliseringsdoeleindes nie, terwyl hulle wel voorstelle vir klank- en beeldmateriaal maak. Daar is deur ons op MP4 besluit, omdat die formaat wyd gebruik word, wat beteken dat daar maklik na ’n ander formaat gemigreer sal kan word indien hierdie formaat in onbruik sou verval (kyk verder aan).

4.4 Tegnologiese verandering wat dit nie meer moontlik maak om die bergingsmedium te lees nie

In 1086 het Willem van Normandië ’n samestelling van uitbeeldings van die lewe in Engeland gemaak, en die BBC se weergawe, 900 jaar later, het dieselfde met ’n digitale medium gedoen. Maar alhoewel die oorspronklike Domesday (tot op hede) vir 930 jaar bestaan het, is die BBC se weergawe reeds onleesbaar omdat die apparatuur en programmatuur waarmee dit geskep is, nie meer leesbaar is nie (Daly en Powell 2015:22, Underhill en Underhill 2016:5). Soos CCSDS (2012:13) die probleem stel: "The rapid obsolescence of digital technologies creates considerable technical dangers, particularly a much greater risk than in the past of losing the possibility of restoring, rendering or interpreting the information."

Ingram (2000:67) beskryf die probleem in meer besonderhede:

Deur die eeue het argivarisse hulle tegnieke aangepas soos die inligtingdraende media verander het. Al hierdie media, hetsy kleitablette, papirus, perkamentrolle of papier, het een kenmerk in [sic] gemeen gehad en dit was dat hulle deur die mens gelees kon word. Die inligting wat in hierdie media vervat is, was nie van enige apparatuur afhanklik nie. Indien ’n goed-gestruktureerde klassifikasiestelsel geïmplementeer en die rekords fisies teen verwering en vernietiging beskerm word, kan die getuienis in papiergebaseerde rekords eeue lank toeganklik en leesbaar bly. Dieselfde kan nie van elektroniese rekords gesê word nie. Mikrografie en die rekenaar het ’n era ingelui waar die mens van apparatuur afhanklik is om toegang tot inligting te verkry. In die geval van die rekenaar is dit nie slegs die apparatuur (hardeware) wat noodsaaklik is nie, maar ook die toepaslike programmatuur (sagteware).

Eerstens bestaan die probleem met die bergingsmedium: selfs die toerusting om Video Home System- (VHS-) videokasette mee te lees is deesdae skaars. CD's bestaan reeds sedert die 1980’s en is steeds leesbaar, maar dít is geen waarborg dat materiaal wat op CD's geberg is, oor 50 jaar nog steeds leesbaar sal wees nie (as die medium self nie vergaan nie). Dít is nog ’n voordeel daarvan om die inhoud van die medium te bevry deur middel van digitalisering:3 wanneer dokumente in die wolk, op eksterne hardeskywe, op bedieners of op rekenaars gestoor kan word en vryelik tussen mediums oorgedra kan word, word hierdie probleem uitgeskakel.

Ingram se stelling oor programmatuur word onder die volgende onderafdeling behandel.

4.5 Tegnologiese verandering wat dit nie meer moontlik maak om die inhoud te lees nie

Inligting bestaan altyd uit data en ’n kode waarmee dit gelees word, soos onder andere deur Shannon (1948:380) uiteengesit. In CCSDS (2012:29) word die verskynsel eenvoudig gestel:

Information is defined as any type of knowledge that can be exchanged, and this information is always expressed (i.e., represented) by some type of data in an exchange. For example, the information in a hardcopy book is typically expressed by the observable characters (the data) which, when they are combined with a knowledge of the language used (the Knowledge Base), are converted to more meaningful information. If the recipient does not already include English in its Knowledge Base, then the English text (the data) needs to be accompanied by English dictionary and grammar information (i.e., Representation Information) in a form that is understandable using the recipient’s Knowledge Base. (Kyk ook Sierman 2012:7.)

Die probleem met digitale dokumente is dat digitale inligting in ’n binêre kode vasgevang is wat deur die toepaslike programmatuur ontsluit moet word. Wanneer die toepaslike programmatuur nie meer bestaan nie, is die inligting wat in die dokument voorkom, verlore as daar nie ’n ander program is wat dit kan lees nie. Underhill en Underhill (2016:81) skryf dat tegnologiese veranderings nimmereindigend is en dat die personeel by ’n argief daarom konstant ’n oog op tegnologiese ontwikkeling moet hou. Om hierdie rede gebruik Project Gutenberg gewone teks (.txt) om inligting te enkodeer, aangesien dit die eenvoudigste formaat is wat deur die meeste programmatuur in die voorsienbare toekoms gelees sal kan word (Senekal 2011:54). Ander argiewe maak eerder gebruik van migrasie, waar na nuwer formate gemigreer word wanneer ’n ouer formaat in onbruik verval.

In die neem van ’n besluit om formate, standaarde en tegnologie is ’n belangrike faktor om te oorweeg hoe algemeen die programmatuur wêreldwyd gebruik word. Hoe meer organisasies en instellings ’n mens se spesifieke bewarings- en migrasiebehoeftes deel, hoe meer waarskynlik is dit dat gesamentlike toegang tot oplossings verseker word (Daly en Powell 2015:14). Indien ’n formaat in onbruik verval, maar daar baie ander instansies is wat ook daardie formaat gebruik, is die kanse met ander woorde goed dat ’n oplossing gevind sal word wat ook vir die huidige projek van nut is.

Die probleem met formate wat in onbruik verval, is egter nie tans van toepassing op alle formate nie. In die laat 1990’s was daar baie kommer oor die snelle ontwikkeling van tegnologie wat ouer programmatuur (soos MS Dos) in onbruik laat verval het. Die wêreld het egter verander: formate soos Comma Separated Values (CSV), Tagged Image File Format (.tiff) en Portable Document Format (PDF), bly leesbaar. Portable Document Format (PDF), wat sedert 2005 ook ’n doelgerigte argiveringsformaat, PDF/A, het, is by uitstek ’n goeie voorbeeld: dit is in 1993 ontwikkel, maar bly steeds leesbaar. PDF is ook een van die standaardformate wat vir digitalisering en digitisering gebruik word (Senekal 2011:56–7).

Boonop is die omskakeling tussen formate soos .xlsx, .csv, .txt, .tab, .pdf ens. só eenvoudig dat dit beteken dat data wat in ’n enkele formaat gestoor is, prakties in ’n verskeidenheid formate bestaan omdat dit maklik deur geoutomatiseerde prosesse tussen formate gemigreer kan word.

Omdat algemene formate ’n groter kans het om in die afsienbare toekoms leesbaar te bly, is daar op die volgende formate vir materiaal in die EPOG-argief besluit:

  • Dokumente: Portable Document Format (PDF/A).4
  • Klankopnames: Apple Lossless Encoder (.m4a)
  • Video-opnames: MP4
  • Beelde: Joint Photographic Experts Group (JPEG)
  • Rou data: Microsoft Excel (XLSX) / Comma Separated Values (CSV)

4.6 Menslike foutering

Menslike foutering sluit in die verkeerde klassifikasie van materiaal, tik- en spelfoute op databasisse, asook foute wat kan veroorsaak dat materiaal wegraak. Om die gevare van menslike foutering te beperk moet die oorspronklike databasis deur slegs ’n beperkte aantal persone gewysig kan word. In die geval van die digitale argief by EPOG het slegs die argiefbestuurder op so ’n wyse toegang tot die argief dat veranderings aangebring kan word. Ander persone se toegang is beperk tot ’n "slegs lees"-rol: hulle kan die materiaal raadpleeg, maar nie veranderinge aanbring nie.

Redwine (2015:15-6) herinner ons daaraan dat daar ook beplan moet word vir dood: indien die argiefbestuurder sou sterf, sou daar geen toegang tot die digitale argief wees nie. Om hierdie rede is intekenbesonderhede met die uitvoerende hoof van die Orania Beweging gedeel sodat volle toegang ook in hierdie opsig behoue bly.

 

5. Prosesse

Een van die riglyne vir die samestelling van ’n digitale databasis wat die meeste gebruik word, is die reeds genoemde Open Archival Information System (OAIS) (CCSDS 2012). Dit word deur verskeie organisasies in Europa as ’n verwysingsmodel aangewend, insluitend die BBC en ITV (Daly en Powell 2015:8), en word ook in Suid-Afrika gebruik (Liebetrau 2010). Sierman (2012:1) gaan so ver as om OAIS ’n "standaardbegrip" te noem vir enigeen wat homself besig hou met digitale materiaal.

Die model beskryf ses primêre dienste van ’n digitale argief (oorspronklike Engelse terme word tussen hakies verskaf):

  1. invoer (“ingest”)
  2. berging ("archival storage")
  3. databestuur ("data management")
  4. administrasie ("administration")
  5. beskermingsbeplanning ("preservation planning")
  6. toegang ("access").

Alhoewel die OAIS-model nie in besonderhede bespreek word nie, word prosesse by die digitale argief by EPOG in die komende onderafdelings teen die agtergrond van OAIS bespreek.

5.1 Invoer

Invoer behels die ontvangs van materiaal, waarna OAIS verwys as ’n voorleggingsinligtingspakket (Submission Information Package, of SIP), kwaliteitskontrole, en die voorbereiding van ’n argiveringsinligtingspakket (Archival Information Package, of AIP) wat ooreenstem met die argief se dataformateringstandaarde en beskrywende inligting (metadata) vir insluiting in die databasis (CCSDS 2012:(4–5)–(4–7)).

Waar argiefmateriaal in die verlede bekom en dan geliasseer is, is die klem vir die digitale argief daarop om die proses meer vaartbelyn te maak sodat dit minder mannekrag-intensief is. Boonop skryf Borgman (2009:s.bl.): "The key to ‘better’ data – that is, data suitable for curation, reuse, and sharing – is capturing data as cleanly as possible and as early as possible in its life cycle." Ter wille van gehalte en tydsbesparing word materiaal wat reeds in ’n digitale formaat bestaan ("born digital") eenvoudig binne die stelsel gestoor sodra dit opgespoor is. Daar is byvoorbeeld reëlings getref met die publikasiekomitee van die Orania Beweging dat uitgawes van Rede en Voorgrond elektronies aangestuur word sodra die finale weergawe beskikbaar is; nuusbriewe en kennisgewings word per e-pos ontvang en onmiddellik in PDF gestoor; mediaberigte wat aanlyn verskyn, word ook as PDF gestoor; ens. Alle instansies waarby die Orania Beweging betrokke is, byvoorbeeld Gousblom, EPOG, OKeR, Helpsaamfonds, Groeifonds en ander5 se notules, finansiële state en ander dokumentasie word deur ’n administratiewe beampte gekoördineer, en daar is ’n eenvoudige stelsel met behulp van Google Drive opgestel om ook hierdie dokumentasie in die digitale argief in te trek. Die beampte stoor dokumente in ’n lêer op ’n rekenaar, wat deur middel van Google Drive met die argiefbestuurder gedeel word. Van hier word dokumente met behulp van ’n bondelproses ("batch process") in Adobe Acrobat in soekbare PDF's omgeskakel en in die argief gestoor.

foto’s word deur personeel van die Orania Beweging in gedeelde lêers in die wolk gestoor. Sodoende brei personeellede self die versameling uit deur foto’s wat self geneem is, tot die versameling toe te voeg. Op hierdie manier word die versameling van foto’s oor Orania ’n spanpoging. Hierdie foto’s word deur middel van ’n geoutomatiseerde proses in Hazel na die argief gekopieer en metadata (inligting oor wanneer die foto geneem is en watter gebeurtenis afgeneem is) word outomaties toegevoeg.

Die web word ook gereeld deursoek vir publikasies oor Orania, byvoorbeeld studies en mediaberigte. Aansluitend hierby is al ’n groot aantal boeke, verhandelings en proefskrifte asook vakkundige artikels versamel wat saamhang met die Afrikaner se geskiedenis, die taalstryd, die huidige politieke opset, die Afrikaner se kultuur en verwante sake. Sulke digitale dokumente word direk in die digitale argief geberg, in PDF, en karakterherkenning word toegepas indien nodig. Dokumente word ook omgeskakel na PDF indien dit nie reeds in hierdie formaat is nie. Daar is ook ’n kennisgewing met behulp van Google Alerts en in Talkwalker opgestel wat die argiefbestuurder in kennis stel indien nuwe materiaal oor Orania op die web geplaas word.

Figuur 3 verskaf ’n oorsig oor die mediaberigte wat tans reeds in die digitale argief opgeneem is.

Figuur 3. Mediaberigte en studies oor Orania wat tans in die digitale argief opgeneem is

Die oorspronklike analoogargief het nie sosiale media ingesluit nie, maar sosiale media het al hoe belangriker in die menslike leefruimte geword. Soos Stockinger (2016:5) tereg opmerk, is sosiale media "the necessary technological platforms for millions of people aiming at the building of and/or participating in social and cultural ecosystems which reflect their personality, their experiences and their life-styles". De Souza e.a. (2016:49) verwys na die vinnige opkoms van sosiale media in die afgelope vyf jaar en die manier waarop dit die wyse waarop kultuurerfenismateriale geskep, gebruik en aanlyn versprei word, omvorm. Die Orania Beweging gebruik Facebook, Instagram, YouTube en Twitter vir bewusmakingsveldtogte en mediaskakeling, en het daarom ’n belangrike bron van inligting geword oor hoe hierdie organisasie binne die internasionale gemeenskap funksioneer. Mense gebruik ook hierdie sosiale media platforms om hul sienings oor Orania te lug.

Die argivering van sosiale media skep egter beduidende uitdagings:

Facebook verteenwoordig ’n groot uitdaging omdat dié sosiale-media-platform se toegang gereeld verander en die inligting daarom moeilik bekombaar word. ’n Toepassing wat op ’n gegewe tydstip in staat is daartoe om inligting af te laai, is binnekort nie meer bruikbaar nie omdat Facebook sy toegang gewysig het. Een van die meer bekende maniere om toegang tot Facebook-data te verkry, is deur gebruik te maak van die Facebook Graph API. Die koppelvlak bestaan uit objekte en nodes (mense, bladsye, foto’s) en verbindings tussen hulle (vriende, “photo tags”). Omdat die Orania Beweging hul eie webblad monitor, kan data ook afgelaai word vanaf die Facebook Insights-koppelvlak.

Twitter is meer toeganklik as Facebook wanneer dit by die versameling van data kom. Twitter is ’n sosiale netwerk wat fokus op mikroblogging en gebruikers toelaat om kort boodskappe (maksimum 140 karakters), ook genoem tweets, of dan twiets, te plaas. Hierdie boodskappe is onmiddellik sigbaar en beskikbaar in die openbare domein. Twitter verskaf twee toepassingsprogrammeringskoppelvlakke (Application Programming Interfaces, of API) om toegang tot hierdie boodskappe te verkry en die data te versamel, naamlik die REST API en die Streaming API. Die Twitter Search API is deel van Twitter se REST API en laat ontwikkelaars toe om soektogte teen onlangs-geplaaste Twitter-boodskappe (minder as 7 dae tevore geplaas) te soek. Hierdie soektogte is van korte duur, aangesien die skakeling met die API baie beperk is en daar net ’n sekere aantal boodskappe afgelaai mag word. Twitter se Streaming API, daarenteen, verleen toegang tot wêreldwye Twitter-boodskappe en kan oor ’n baie lang tydperk gebruik word. Die Twitter-boodskappe kan gefiltreer word volgens spesifieke sleutelwoorde of hutsmerkers. Die meerderheid navorsers verkies die Twitter Streaming API omdat dit oneindige en intydse toegang tot Twitter-boodskappe verleen. Ons toetse het egter getoon dat die Streaming API beter geskik is vir groot gesprekke en dat die Search API beter geskik is om alle boodskappe oor ’n kleiner onderwerp te versamel, soos gebruik deur die Google Sheets-byvoeging Twitter Archiver.

In Figuur 4 hier onder kan die getal twiets per dag, asook die getal unieke gebruikers, gesien word.

Figuur 4. Plasings op Twitter met die woord orania, 9 September 2017 tot 31 Oktober 2018

Instagram is ook ’n maklik toeganklike platform. Alle foto’s en video’s wat met die hutsmerker #orania geplaas word, asook alle foto’s en video’s wat in Orania geneem word en op Instagram geplaas word, word outomaties afgelaai met die program, 4kStogram.

Kanale wat video’s op YouTube plaas wat van waarde kan wees vir die argief, word met behulp van 4kVideoDownloader vir nuwe plasings gemonitor. Ander platforms wat ook spesialiseer in video’s, byvoorbeeld DailyMotion, Tumblr en Vimeo, word ook gereeld deursoek vir video’s oor Orania, waarna die video’s afgelaai en in die argief gestoor word.

Figuur 5 dui juis op hoe belangrik Instagram geword het: hier kan gesien word wanneer foto’s in Orania geneem en op Instagram geplaas is, sowel as wanneer foto’s met die hutsmerker #orania geplaas is.

Figuur 5. Die toename in fotoplasings van Orania op Instagram tot Oktober 2018

Invoer sluit ook in dat materiaal gedigitaliseer word. Waar dokumente ter sprake is, word dit direk na PDF geskandeer. Prosesse is ook opgestel om karakterherkenning outomaties toe te pas, sodat daar gesoek kan word vir inligting binne dokumente. Aangesien digitalisering nie die fokus van die huidige artikel is nie, word die leser verwys na Senekal (2011), waar verskillende programmatuur en apparatuur, asook karaktererkenning, prosesse, terminologie en PDF-soorte, behandel word. In navolging van daardie projek word Adobe Acrobat tans by EPOG gebruik, met ’n HP ScanJet Pro 2500. Alhoewel karaktererkenning nie 100% akkuraat is wanneer dit ten volle geoutomatiseer is nie, noop die beperking in mannekrag die EPOG-projek om nie karaktererkenningsfoute te korrigeer soos byvoorbeeld met ABBYY Finereader of Nuance Omnipage gedoen kan word nie, soos ook gedoen is met die Forced Migration Online-projek (Deegan en Tanner 2004) en die digitaliseringsprojek by NALN (Senekal 2011). Die akkuraatheid van karaktererkenning word egter verbeter deur skanderings in 300 spd te doen, en Acrobat is in ’n verskeidenheid projekte, byvoorbeeld in die digitalisering van die IIUM-biblioteek (Abdullah en Marsidi 2008) en by NALN (Senekal 2011), uitgewys as een van die akkuraatste maniere om karaktererkenning toe te pas. Die opsie bestaan egter om later, wanneer die mannekrag beskikbaar is, karaktererkenningsfoute te korrigeer.

Klank- en video-opnames word onderskei van ander mediums deur die feit dat hulle deur middel van CD’s en DVD’s uit digitale media bestaan, maar op ’n medium gestoor is waarvan af dit eers onttrek moet word (Wright 2012:9). Klankopnames word in die huidige projek met behulp van iTunes van CD's onttrek, wat ná verskeie eksperimente en soektogte op die web as een van die beste toepassings van sy soort geïdentifiseer is. Videomateriaal word van DVD's onttrek met behulp van Handbrake, wat, soos iTunes, algemeen gesien word as een van die beste toepassings van sy soort (kyk byvoorbeeld Wycislik-Wilson 2017).

In die OAIS-model word die toevoeging van metadata ook by die invoerfase ingesluit (CCSDS 2012:(4–7)). Groenewald (2010:18) skryf dat daar twee benaderings tot die optekening van metadata is (in die sin van ontdekkingsmetadata; sien Senekal 2011:59): metadata wat intern saam met die objek gestoor word, en metadata wat ekstern gestoor word en na die objek verwys. Tydens die eerste6 digitaliseringsproses by NALN was metadata, byvoorbeeld die skrywer, titel, datum van publikasie, publikasieplatform en kernwoorde, reeds op ’n DBText-databasis aangedui en die digitale dokumente moes net met die bestaande databasis skakel (Senekal 2011:59). By EPOG moes die metadata in elk geval ingevul word omdat die bestaande katalogus slegs die datum, titel, versameling en ligging aangedui het én omdat die digitale argief groot volumes nuwe materiaal versamel. In so ’n geval is dit beter om die metadata aan die digitale item self te koppel deur die eienskappe van die dokument in te vul sodat die item steeds vindbaar is, ongeag watter manier gebruik word om te soek. Dit sluit die titel van die dokument, datum van publikasie en skrywer in, benewens metadata wat outomaties bygevoeg word, soos wanneer die dokument geskep is, wanneer (indien wel) dit gewysig is, sy formaat, lengte, ligging, tot watter versameling dit behoort, afmetings en waarmee die dokument geskep is. Hierdie werkswyse het ook die voordeel dat dit gehoor gee aan Rönsdorf e.a. (2016:164) se voorstel: "The more self-describing an information object is, the easier it will be to interpret it after a long period of time."

5.2 Berging

Die bergingsfunksie behels die ontvangs van die argiveringsinligtingspakket wat tydens die invoerfase geskep is, in die permanente argief, asook die berging daarvan, die migrasie van dokumente na ’n geskikte bergingsmedium, en die implementering van ’n gebeurlikheidsplan deur rugsteunkopieë te maak (CCSDS 2012:(4–8)–(4–9)).

Die ontvangs, berging en migrasie van materiaal is reeds in die vorige onderafdeling behandel omdat dit in die EPOG-argief een proses is. Soos voorheen bespreek, word digitale dokumente op ’n rekenaar geberg wat outomaties met Google Drive en nog ’n rekenaar sinchroniseer. Ook word gebruik gemaak van Apple se Time Machine om gereelde rugsteunkopieë op ’n eksterne hardeskyf te maak. Let ook daarop dat bergingstelsels nie op dieselfde perseel gehuisves word nie.

Sekuriteit is ook ’n faset wat in hierdie fase ter sprake kom (CCSDS 2012:(4–8)). Digitale argiewe is gewoonlik huiwerig om van wolkbergingstelsels gebruik te maak, byvoorbeeld die Sweedse argiewe wat in Underhill en Underhill (2016) bestudeer word. In 2014 was daar ’n mediastorm toe kuberkrakers naakfoto’s van glanspersone uit hulle iCloud-rekeninge geneem en op die web geplaas het, insluitend van die Suid-Afrikaanse model Candice Swanepoel (Strange 2014). By nadere ondersoek het dit egter geblyk dat onvoldoende wagwoorde eerder as ’n gebrek aan sekuriteit vir die insident verantwoordelik was. Die probleem word uitgeskakel met tweefaktor-verifikasie en wagwoorde op rekenaars en fone (Warren 2014), wat ook in die huidige digitale argief geïmplementeer is. In Apple (2017) word ’n gedetailleerde uiteensetting van die sekuriteit wat hul stelsel bied, verskaf.

Dit is ook moontlik om ’n hele hardeskyf te enkodeer sodat data nie deur ongemagtigde persone onttrek kan word nie, maar dít verhoog die risiko dat dataverlies as gevolg van greepverrotting kan voorkom (Daly en Powell 2015:31). As gevolg van die verhoogde risiko word hierdie opsie nie gebruik nie.

5.3 Databestuur

Databestuur sluit in administratiewe funksies soos die verskaffing van ’n opsomming van rekords, asook ’n bywerking van die databasis en die verskaffing van resultate vir spesifieke soektogte (CCSDS 2012:(4–10)). Hiervoor word gewoonlik gebruik gemaak van ’n databasisprogram.

Verskeie databasisprogramme word vir die bestuur van argiewe aangewend. NALN, die Argief vir Eietydse Aangeleenthede by die Universiteit van die Vrystaat, en die Digitale Bibliografie van die Afrikaanse Taalkunde (DBAT) gebruik byvoorbeeld Inmagic DBText, terwyl die Suid-Afrikaanse Taalregtemonitor (South African Language Rights Monitor, of SALRM) Microsoft Access gebruik. By EPOG is tot in 2017 gebruik gemaak van ’n eenvoudige Microsoft Excel-sigblad, wat bloot aandui wat die titel van die item is, wie die skrywer is, en waar die item gevind kan word. Vir die digitale argief is ’n meer byderwetse werkswyse geïmplementeer, soos hier onder bespreek.

Die keuse van databasisprogrammatuur moet tred hou met tegnologiese ontwikkelings en veral die kompleksiteit van verhoudings binne die data, maar ook ’n oog hou op volhoubaarheid en verdere tegnologiese ontwikkelings wat in die toekoms mag plaasvind. Dit is veral ’n probleem as van nie-algemene formate gebruik gemaak word en wanneer ’n spesifieke maatskappy se stelsel geïmplementeer word. Wat sou gebeur indien die maatskappy ontbind? Daly en Powell (2015:35) stel voor dat ’n onttrekkingsplan van meet af aan ingesluit word: "Your exit plan must be agnostic of destination and provide generic capability to access all media and metadata in a defined way such that it can be migrated into a replacement system even if this system is not conceived or defined at the time of entry into the initial system."

By die EPOG-argief is juis besluit om die metadata van dokumente op die dokumente self in te vul omdat dit groter aanpasbaarheid meebring. Nadat die metadata ingevul is, is ’n proses opgestel om metadata na ’n gestruktureerde formaat te onttrek vir invoer in enige databasisprogrammatuur indien dit later verlang sou word, en vir rekorddoeleindes. Vir laasgenoemde doelwit word Tableau gebruik. Metadata wat onttrek word, sluit in wanneer die rekord geskep is, wanneer dit tot die argief toegevoeg is, die dokument se naam, soort, grootte (in grepe), ligging in die argief, ’n skakel na die dokument, kommentare en beskrywings wat met die dokument geassosieer word, skrywer, getal bladsye indien dit ’n PDF is, lengte indien dit klank of videomateriaal is, en dimensies indien dit ’n foto is. Die katalogus van wat tans in die digitale argief is, is op aanvraag by die Orania Beweging beskikbaar.

Soos reeds in afdeling 3.2 genoem, is die gebruik van tradisionele relasionele databasisstelsels nie voldoende vir die berging en bestuur van semi- en ongestruktureerde data nie. Wolkrekenaars en berging word al hoe meer gesien as ’n oplossing om toepassings, data (alle tipes) en hulpbronne aan gebruikers te lewer (Rob, Coronel, Crockett en Morris 2013:723). Dit sluit in verskaffers soos Amazon (met hulle Amazon Web Services), Google (met hulle Google Apps), en Microsoft (met Microsoft Azure). Bestaande wolkgebaseerde NoSQL-databasssie sluit in kolomstore asook dokumentstore (Coronel, Crockett en Morris 2013:724). In navolging van hedendaagse tendense, is dokumente op ’n rekenaar gestoor en ook outomaties met Google Drive gesinkroniseer.

5.4 Administrasie

Die administrasieproses sluit in die sluiting van ooreenkomste met skenkers, die monitering van die databasisstelsel se funksionering en gebruik, die regulering van toegang, die formulering en uitvoer van beleid en die opstelling en deurgee van verslae aan die bestuur (CCSDS 2012:(4–11)–(4–12)). EPOG se dagbestuur hou maandelikse vergaderings, waartydens probleme en vordering bespreek word, asook skenkers, tegniese uitdagings, nuwe aanwinste, beleid en navorsingstoepassings, ook deur middel van die verslag soos in figuur 3 aangedui. CCSDS (2012:(4–11)) skryf dat nie al die fasette van administrasie op elke argief van toepassing sal wees nie, en in hierdie opsig is Orania se informele klimaat uniek: eerder as wat formele kontrakte oor aanwinste gesluit word, word eenvoudig mondelings onderhandel om materiaal te bekom. Roodt (2017) let juis op hoe toeganklik die betrokke rolspelers in Orania is, waarsonder sy projek nie sou kon realiseer nie, wat ook die geval is met die digitale argief by EPOG. So is daar byvoorbeeld met die Orania Dorpsraad gereël om alle kennisgewings en nuusbriewe te ontvang; daar word geskakel met personeel van die Orania Beweging om foto’s, videomateriaal en klankopnames te bekom, ens. Sulke mondelinge ooreenkomste is natuurlik nie uitvoerbaar in groter organisasies nie.

5.5 Beskermingsbeplanning

Beskermingsbeplanning sluit in die skakeling met die gemeenskap in wie se diens die argief staan om behoeftes en veranderende tegnologie te monitor, die monitering van tegnologie met die oog daarop om belangrike veranderings te identifiseer wat die digitale argief in gedrang kan bring, en die ontwikkeling van beskermings- en migrasieplanne (CCSDS 2012:(4–14)–(4–16)). In hierdie opsig hou die argief by EPOG ’n voortdurende oog op tegnologiese veranderings (byvoorbeeld ten opsigte van verouderende formate, nuwe ontsluitingsmiddele, nuwe inligtingskanale ens.), onderneem navorsing oor inligtingstegnologie vir digitaliserings- en argiveringsdoeleindes, en skakel met vennote by die UV se Departement Rekenaarwetenskap en Informatika en die Eenheid vir Taalfasilitering en Bemagtiging.

5.6 Toegang

Toegang is ’n onlosmaaklike deel van ’n digitale argief:

Beide aspecten, zowel de opslag als de toegang, zijn onlosmakelijk met elkaar verbonden. Alleen duurzaam opslaan heeft weinig zin, als je de toegang niet kunt garanderen. De toezegging iets blijvend toegankelijk te houden, lukt niet als je de opslag niet duurzaam regelt. (Sierman 2012:4)

Toegang sluit in die beplanning van hoe toegang tot die argief verleen sal word, die skep van ’n verspreidingsinligtingspakket (Dissemination Information Package, of DIP), en die beantwoording van navrae deur verbruikers (CCSDS 2012:(4–17)). Toegang kan deur middel van ’n aanlyn gebuikerskoppelvlak geskied, maar ook kan ’n katalogus verskaf word met ’n instap-opsie sodat verbruikers inligting binne die argief kan raadpleeg (CSDS 2012:(4–16)).

Toegang tot ’n argief se versamelings is ’n moeilike kwessie wat deur kopiereg en privaatheid beïnvloed word. Heelwat van die materiaal in die EPOG-argief kan nie vryelik beskikbaar gestel word nie, byvoorbeeld finansiële state, persoonlike besonderhede en die notules van vergaderings, maar moet nietemin vir interne gebruik bewaar word. Boonop is die grootdata-omgewing bekend daarvoor dat dit etiese kwessies meebring wanneer groot hoeveelhede data versamel word (Senekal en Brokensha 2014:10–1). Indien data oor byvoorbeeld sosiale-media-platforms vryelik beskikbaar gestel word – selfs al word gepoog om anonimiteit te verseker – is daar opgetekende gevalle soos dié waaroor Zimmer (2010:313) skryf waar gebruikers se identiteite wel teruggespoor kon word.

Boonop is daar kopieregkwessies ter sprake. Suid-Afrikaanse kopiereg, soos vervat in die Suid-Afrikaanse Kopieregwet 98 van 1978, dek die volgende kategorieë (Republiek van Suid-Afrika 2002, hoofstuk 1(1)):

  • Literêre werke
  • Musikale werke
  • Artistieke werke
  • Kinematografiese films
  • Klankopnames
  • Uitsendings
  • Programdraende seine
  • Gepubliseerde uitgawes
  • Rekenaarprogramme.

Omdat klankopnames, kinematografiese films, gepubliseerde uitgawes en uitsendings onder die Suid-Afrikaanse kopiereg ingesluit word, kan onderhoude met leiersfigure van Orania en films en mediaberigte oor Orania nie vryelik beskikbaar gestel word nie. Nicholson (2010:10–1) skryf dat die Suid-Afrikaanse kopieregwet nie voorsiening maak vir die digitalisering van materiaal nie en dat enige digitale kopiëring derhalwe kopieregskending meebring. Besek (2003) skryf egter dat argiewe digitale kopieë mag maak vir navorsings- of bewaringsdoeleindes, mits sulke kopieë nie buite die perseel van die argief beskikbaar gestel word nie. Ook is daar die kwessie van billike gebruik ("fair use"), wat deur die betrokke gebruik bepaal word en deur vier faktore beïnvloed word (Gasaway 1997:17 en Besek 2003):

  1. Word die digitale kopie vir kommersiële gebruik of vir navorsingsdoeleindes gemaak? Indien die kopie vir kommersiële gebruik gemaak word, is die kans goed dat dit nie as billike gebruik gesien kan word nie.
  2. Die aard van die oorspronklike werk, waar die kopiëring van feitelike werke eerder as billike gebruik gesien word as wanneer kreatiewe werke ter sprake is.
  3. Die persentasie van die oorspronklike werk wat gekopieer word: hoe kleiner die persentasie, hoe meer verteenwoordig die kopie billike gebruik.
  4. Die effek van die kopiëring van die werk op die markwaarde van die oorspronklike: hoe groter die effek, hoe minder strook die kopiëring met billike gebruik.

Besek (2003) skryf ook dat sekere gebruike in die statuut bevoordeel word. Sulke gebruike sluit in kritiek, kommentaar, nuusverslaggewing, onderrig (insluitend veelvuldige kopieë vir klaskamergebruik), vakkundigheid en navorsing. ’n Niewinsgewende digitale argief vir wetenskaplike of navorsinggebruik sou byvoorbeeld deur die wet bevoordeel word.

As gevolg van kopieregkwessies is besluit om nie oorspronklike materiaal vryelik beskikbaar te stel nie, behalwe uitgawes van Voorgrond en nuusbriewe wat deur die Orania Beweging self uitgegee word, maar om eerder plaaslike toegang vanuit die argief se perseel te verleen, soos een van die argiewe in Underhill en Underhill (2016:51) ook doen. Sodoende word binne die raamwerk van billike gebruik gebly: materiaal word slegs vir navorsingsdoeleindes beskikbaar gestel, beheer word steeds uitgeoefen oor duplisering sodat die beskikbaarstelling nie ’n produk se markwaarde kan beïnvloed nie, en die doel van die beskikbaarstelling is duidelik navorsing sonder enige winsbejag.

Die vraag was dan hoe om die argiefmateriaal te maak sodat inligting maklik gevind kan word. Daar is vir die huidige projek besluit om eenvoud voorop te stel, omdat dit bywerking vergemaklik en ook toekomstige veranderings in gedagte hou. Die invul van metadata op dokumente self beteken dat inligting met eenvoudige soektogte opgespoor kan word, byvoorbeeld deur Adobe Acrobat of deur Apple se Spotlight Search. Sulke soekfunksies soek deur dokumente se metadata, maar ook binne dokumente self, wat beteken dat dit ’n meer volledige stel resultate lewer as wat die geval sou wees indien ’n databasisprogram soos DBText gebruik word wat van die metadata afhanklik is. Programmatuur wat ondersoek is, sluit in Copernic, SphinxSearch en Windows Search, asook meer gevorderde opsies soos Apache Solr, OpenSemanticSearch en Elasticsearch. Tydens hierdie verkennende fase van die projek is ook belowende platforms soos Project Blacklight, Omeka en Collective Access teëgekom wat in die toekoms gebruik kan word om ’n aanlyn museum en argief te skep. OpenSemanticSearch is in besonderhede ondersoek, maar daar is gevind dat sy karaktererkenning nie akkuraat genoeg was nie, en die gebruikerskoppelvlak kon ook nie aangepas word vir ons spesifieke behoeftes nie. Uiteindelik is daar besluit om voorlopig van Apple se Spotlight gebruik te maak: dit is ’n eenvoudige soekfunksie wat ’n mens toelaat om volteks-soektogte te doen, te filtreer volgens die soort dokument, en soekresultate te beperk tot vouers waartoe ’n gebruiker toegang mag hê.

Sommige video's kan wel vryelik beskikbaar gestel word, byvoorbeeld video’s wat deur die Orania Beweging self vervaardig is. Hiervoor kan YouTube gebruik word, omdat dié platform so ’n wye reikwydte het: "In het publieke oog is YouTube het media-archief bij uitstek geworden en, goedschiks of kwaadschiks, een belangrijke maatstaf voor alle bestaande en komende initiatieven gericht op de archivering en ontsluiting van audiovisuele content" (Debuysere 2010:11). De Nil (2010:41–2) en Nulens, Van Passel en Beyl (2010:82) stel juis voor dat argiewe gebruik kan maak van YouTube en Flickr om toegang tot versamelings te vergroot. Vir foto’s is ’n toegewyde ruimte op Flickr geskep waar ’n verskeidenheid foto’s vanuit die argief beskikbaar gestel word, onder die naam EPOG-argief. Daar word ook gebruik gemaak van Instagram, terwyl ’n toegewyde fotobiblioteek op Google Photos vir interne gebruik geskep is.

Die moontlikheid bestaan om gebruikers toe te laat om die metadata van foto’s in te vul. Dié werkswyse is reeds met vrug in ’n verskeidenheid digitale argiewe aangewend, maar Nulens e.a. (2010:81) skryf dat ten einde foute te vermy, dit belangrik is dat genoeg gebruikers aktief by die skep van metadata betrokke is:

Denk bijvoorbeeld aan de online encyclopedie Wikipedia. Wanneer een gebruiker daar foute informatie ingeeft, zullen andere gebruikers dat bijna onmiddellijk corrigeren. Dit principe werkt enkel wanneer er voldoende gebruikers aanwezig zijn op het systeem. Er moet met andere woorden een kritische massa zijn om een online zelfregulering in gang te zetten.

Aangesien die gemeenskap wat betrokke sal wees by die skep van metadata so klein is, is daar besluit om nie die risiko te loop om die gemeenskap toegang te gee om metadata in te vul nie. Metadata word deur ’n tydelike personeellid en die argiefbestuurder ingevul wanneer dit nie outomaties ingevul kan word nie, maar navorsing word ook onderneem om materiaal in die toekoms beter rekenaarmatig te kan ontsluit, byvoorbeeld deur gebruik te maak van outomatiese beeldherkenning.

Nog ’n sosiale media platform, Sutori, is aangewend om Orania se geskiedenis weer te gee. Hierdie platform maak dit moontlik om inligting aan multimedia te koppel, en is reeds sedert Junie 2017 in gebruik. Dit is ook deur die Orania Beweging se webwerf beskikbaar.

Opsommenderwys word toegang op die volgende wyses verleen (klik op die platforms om na die versameling te gaan):

Medium

Platform

Soort toegang

Foto’s

Flickr

Vrye toegang

Foto’s

Instagram

Vrye toegang

Video’s

YouTube

Vrye toegang

Chronologiese geskiedenis

Sutori

Vrye toegang

Voorgrond

Webwerf

Vrye toegang

Rede

Webwerf

Vrye toegang

Alle materiaal

werkstasie

Begelei deur personeel

 

6. Ten slotte

Een van die belangrikste kwessies wat uit die literatuur oor digitalisering en digitale argiewe na vore kom, is dat aanpasbaarheid van die persone wat daarby betrokke is, ’n nie-onderhandelbare eienskap is: nuwe tegnologie ontwikkel wat nuwe geleenthede en uitdagings bied. As argivarisse in ’n gemaksone verval, bring dit die bewaring van ons erfenis in gedrang. Underhill en Underhill (2016:81) skryf dat "there is not one solution for digital information loss but many, and [...] these solutions will require constant readaptation", wat ’n kwessie is wat ook in Senekal (2011:62) met betrekking tot digitalisering beklemtoon word: "Dit veronderstel ook dat digitalisering ’n skerp, nimmereindigende leerkurwe het: kuberinfrastruktuur is nie perfek omdat dit tans voldoende is nie, maar moet bygewerk bly en in pas met internasionale ontwikkelinge." Sierman (2012:15) skryf ook: "Het OAIS-archief opereert immers in een wereld in beweging en moet dus voortdurend monitoren of er veranderingen in de omgeving zijn, die consequenties of risico’s voor het archief en de opgeslagen informatie opleveren."

Hierdie artikel het ’n oorsig gebied oor bedreigings vir ’n digitale argief en hoe dit in die geval van die EPOG-argief by Orania aangespreek is, sowel as watter prosesse daarby betrokke is. Omdat aanpasbaarheid ’n sleutelkonsep in hierdie veld is, kan daar verwag word dat daar aan hierdie oplossings en prosesse geskaaf sal word soos wat nuwe geleenthede ontdek en nuwe tegnologie ontwikkel word. Die OAIS-model is juis ’n model wat vir aanpasbaarheid voorsiening maak omdat die veld van digitale argiewe nie staties is nie en ook omdat elke projek sy unieke uitdagings bied.

Die artikel het ook aangedui hoe daar met ’n klein begroting, van onder R30 000 per jaar, gewerk kan word binne ’n grootdataraamwerk: die prosesse wat bespreek is, benodig nie ’n begroting van miljoene rande nie, omdat programmatuur en apparatuur, asook personeelkostes, beperk kan word deur te outomatiseer en nuwe tegnologie in te span.

 

Bibliografie

Abdullah, S. en S. Marsidi. 2008. Digitisation of Arabic materials in IIUM Library: Challenges and problems. World Congress of Muslim Librarian and Information Scientists, Putra.

Apple. 2017. iOS Security. iOS 10. https://www.apple.com/business/docs/iOS_Security_Guide.pdf (22 Augustus 2017 geraadpleeg).

Assunção, M.D., R.N. Calheiros, S. Bianchi, M.A.S. Netto, R. Buyyab. 2015. Big Data computing and clouds: Trends and future directions. Journal of Parallel Distributed Computing, 79–80:3–15.

Ben-Ari, M. 1990. Principles of concurrent and distributed programming. Londen: Prentice Hall.

Berman, J. 2013. Principles of big data: preparing, sharing, and analyzing complex information. Amsterdam: Elsevier.

Besek, J.M. 2003. Copyright issues relevant to the creation of a digital archive: A preliminary assessment body. Washington, D.C.: Council on Library and Information Resources.

Biehl, S. 2017. Eie arbeid is ononderhandelbaar. Voorgrond, Desember, ble. 18–9.

—. 2018. Die geskiedenis van ons organisasie. Voorgrond, Junie, ble. 12–6.

Borgman, C. 2009. The digital future is now: A call to action for the humanities. Digital Humanities Quarterly, 3(4). http://www.digitalhumanities.org/dhq/vol/3/4/000077/000077.html
(11 Oktober 2018 geraadpleeg).

Bunke, H. en A.L. Spitz (reds.). 2006. DAS06. Berlyn: Springer Verlag.

Celko, J. 2014. Complete guide to NoSQL. Waltham, MA: Morgan Kaufmann.

CCSDS (Consultative Committee for Space Data Systems). 2012. Reference model for an Open Archival Information System (OAIS). Washington: Space Operations Mission Directorate.

Daly, S. en H. Powell. 2015. DPP guide to digital archiving. Londen: Digital Production Partnership Ltd.

Daniel, B. en R. Butson. 2014. Foundations of big data and analytics in higher education. International conference on analytics driven solutions, ICAS2014: 39–47.

Davenport, T.H. 2014. Big Data @ work. Dispelling the myths, uncovering the opportunities. Boston: Harvard Business Review Press.

Debuysere, S. 2010. Inleiding. In Debuysere e.a. (reds.) 2010.

Debuysere, S., D. Moreels, R. van de Walle, I. van Nieuwerburgh en J. Walterus (reds.). 2010. Bewaring en ontsluiting van multimediale data in Vlaanderen. Perspectieven op audiovisueel erfgoed in het digitale tijdperk. Tielt: Uitgeverij Lannoo.

De Nil, B. 2010. Eigentijds beschrijven. Het contextualiseren van digitaal audiovisueel erfgoed in archieven. In Debuysere e.a. (reds.) 2010.

Deegan, M. en S. Tanner. 2004. Conversion of primary sources. In Schreibman e.a. (reds.) 2004.

Derrida, J. 1996. Archive fever: A Freudian impression. Chicago: University of Chicago Press.

De Souza, P., F. Edmonds, S. McQuire, M. Evans en R. Chenhall. 2016. Aboriginal knowledge, digital technologies and cultural collections. Policy, protocols, practice. Melbourne Networked Society Institute Research Paper 4. Melbourne: Melbourne Networked Society Institute.

Federal Standard 1037C, Glossary of telecommunication terms. https://www.its.bldrdoc.gov/fs-1037/fs-1037c.htm (28 Junie 2018 geraadpleeg).

Gasaway, L.N. 1997. Copyright issues in creating digital archives. Education Libraries, 21(3):16–8.

Groenewald, R. 2010. Collection development. In Liebetrau (red.) 2010.

Groenewald, R. en W. Klapwijk. 2010. Objects. In Liebetrau (red.) 2010.

Gross, J. 2011. Orania founder dies. Sunday Argus, 20 Maart, bl. 21.

Hendler, J. 2013. Broad data: Exploring the emerging web of data. Big Data, 1(1):18–20.

Hendrikse, B., M.B. Habib en M. van Keulen. 2017. ISIS in the eyes of the Dutch. Proceedings of the workshop on social media for personalization and search, SoMePeAs 2017, ble. 28–33.

Hitzler, P. en K. Janowicz. 2013. Linked data, big data, and the 4th paradigm. Semantic Web, 4:233–5.

Hu, H., Y. Wen, T. Chua en X. Li. 2014. Toward scalable systems for big data analytics: A technology tutorial. IEEE Access, 2:652–87.

Ingersoll, G.S., T.S. Morton en A.L. Farris. 2013. Taming text. How to find, organize and manipulate it. Shelter Island: Manning.

Ingram, A. 2000. Argivale inligtingsherwinning en -ontsluiting vir die historiese navorser. PhD-proefskrif, Universiteit van Suid-Afrika.

Jagadish, H. 2015. Big data and science: Myths and reality. Big Data Research, 2:49–52.

Jin, X., B.W. Wah, X. Cheng en Y. Wang. 2015. Significance and challenges of big data research. Big Data Research, 2:59–64.

Khan, J. 2014. The tribe living in isolation in Orania. The New Age, 9 Januarie, bl. 10.

Kijko, P. 2017. The war room concept in project management. https://www.timecamp.com/blog/index.php/2017/01/the-war-room-concept-in-project-management (12 Junie 2018 geraadpleeg).

Kim, B.G., S. Trimi en J. Chung. 2014. Big-data applications in the government sector. Communications of the ACM, 57(3):78–85.

Kitchin, R. 2014. Big data, new epistemologies and paradigm shifts. Big Data & Society,
ble. 1–12.

Kleynhans, J. 2017. Persoonlike mededeling. Orania.

Knapton, S. 2015. Print out digital photos or risk losing them, Google boss warns. http://www.telegraph.co.uk/news/science/science-news/11410506/Print-out-digital-photos-or-risk-losing-them-Google-boss-warns.html (22 Augustus 2017 geraadpleeg).

Kotzé, E. en B. Senekal. 2018. Employing sentiment analysis for gauging perceptions of minorities in multicultural societies: An analysis of Twitter feeds on the Afrikaans community of Orania in South Africa. Ter perse.

Laney, D. 2001. 3D-data management: Controlling Data: Volume, velocity and variety. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf (8 Augustus 2014 geraadpleeg).

Liebetrau, P. (red.). 2010. Managing digital collections: A collaborative initiative on the South African Framework. Pretoria: National Research Foundation.

Lukoianova, T. en V.L. Rubin. 2014. Veracity roadmap: Is big data objective, truthful and credible?. Advances in Classification Research Online, 24(1):4–15.

Marshall, C. 2017. Creating a web-based digital photographic archive: One hospital library’s experience. Journal of the Medical Library Association, 105(2):155–9.

Mayer-Schönberger, V. en K. Cukier. 2013. Big data: A revolution that will transform how we live, work and think. Londen: John Murray.

McNally, P. 2010. Orania tourism: Come gawk at the racists. http://thoughtleader.co.za/paulmcnally/2010/02/01/orania-tourism-come-gawk-at-the-racists (20 September 2017 geraadpleeg).

Minelli, M., M. Chambers en A. Dhiraj. 2013. Big data, big analytics: Emerging business intelligence and analytic trends for today’s businesses. Hoboken: John Wiley & Sons.

Monks, K. 2017. South Africa's “Whites-only” town to launch digital currency. http://edition.cnn.com/2017/07/25/africa/whites-only-currency/index.html (26 Augustus 2017 geraadpleeg).

Ngugi, F. 2017. Whites-only town in SA is a sign of continued white supremacy. https://face2faceafrica.com/article/whites-town-sa-sign-continued-white-supremacy
(20 September 2017 geraadpleeg).

Nicholson, D. 2010. Copyright and related matters. In Liebetrau (red.) 2010.

Nulens, G., E. van Passel en J. Beyl. 2010. Mag het wat actiever? De gebruiker als prosumer van een multimedia-archief. In Debuysere e.a. (reds.) 2010.

Orania Beweging. 2016. Jaarverslag van die Orania Beweging. Orania: Orania Beweging.

—. 2017. 29ste Burgervergadering van die Orania Beweging. Jaarverslag van die Orania Beweging 2016. Orania: Orania Beweging.

Orania Dorpsraad. 2016. Orania Ekonomiese Ontwikkelingsplan. http://www.orania.co.za/wp-content/uploads//2016/05/Orania-Dorpsraad-EOP-CD.pdf (21 Augustus 2017 geraadpleeg).

Pearce-Moses, R. 2006. The perfect and the possible: Becoming a digital archivist. Ongepubliseerde referaat gelewer by die Conference of Inter-Mountain Archivists, Ogden, Utah.

Porges, S. 2012. Back up to the cloud and prevent a data loss disaster. http://www.popularmechanics.com/technology/how-to/a8015/how-to-prevent-a-data-loss-disaster-11992705 (22 Augustus 2017 geraadpleeg).

Pramod, S.K., V. Ambati, L. Pratha en C. Jawahar. 2006. Digitizing a million books: Challenges for document analysis. In Bunke en Spitz (reds.) 2006.

Provost, F. en T. Fawcett. 2013. Data science and its relationship to big data and data-driven decision making. Big Data, 1(1):51–9.

Redwine, G. 2015. Personal digital archiving. DPC Technology Watch Report 15. Glasgow: Digital Preservation Coalition.

Reed, D.A. en J. Dongarra. 2015. Exascale computing and big data. Communications of the ACM, 58(7):56–68.

Republiek van Suid-Afrika. 2002. Kopieregwet No. 98 van 1978 (Bygewerk). Kaapstad: Republiek van Suid-Afrika.

Rob, P., C. Coronel, K. Crockett en S. Morris. 2013. Database principles: Fundamentals of design, implementations and management. Hampshire: Cengage Learning EMEA.

Rönsdorf, C., P. Mason, J. Holmes, U. Gerber, A. Streilein, M. Bos, A. Shaon, K. Naumann, M. Kirstein, G. Samuelsson, M. Rantala, S. Kvarteig, L. Adams, J. Svennewall en W. Stößel. 2016. GI+100: Long Term Preservation of Digital Geographic Information — 16 Fundamental Principles Agreed by National Mapping Agencies and State Archives. International Journal of Digital Curation, 11(2):156–68.

Roodt, D., 2017. My Orania involvement. http://www.efgroup.co.za/upload/WEBSITE/Economic%20Updates/2017/20170731My%20Orania%20involvement_Dawie%20Roodt.pdf (20 September 2017 geraadpleeg).

Russom, P. 2011. Big data analytics. Renton, WA: TDWI Research.

Sathi, A. 2012. Big data analytics: Disruptive technologies for changing the game. Boise: MC Press.

Schöch, C. 2013. Big? Smart? Clean? Messy? Data in the humanities. Journal of Digital Humanities, 2(3):2–13.

Schreibman, S., R. Siemens en J. Unsworth (reds.). 2004. A companion to digital humanities. Oxford: Blackwell.

Senekal, B.A. 2011. Die digitalisering van NALN se knipselversameling: Die bemiddeling van 21ste-eeuse navorsing in die Afrikaanse letterkunde. LitNet Akademies (Geesteswetenskappe), 8(2):46–65. http://www.oulitnet.co.za/akademies_geestes/pdf/LA_8_2c_senekal.pdf.

Senekal, B.A. en S. Brokensha. 2014. Surfers van die tsunami. Navorsing en inligtingstegnologie binne die Geesteswetenskappe. Bloemfontein: SunPress.

Shannon, C. 1948. A mathematical theory of communication. The Bell System Technical Journal, 27:379–423.

Sierman, B. 2012. Het OAIS-model, een leidraad voor duurzame toegankelijkheid. Informatiewetenschap, 62:1–27.

Singh, S. 2003. Digital library: Definition to implementation, New Delhi: Ranganathan Research Circle, 1–18.

Stadler, H. 2017. Dawie Roodt se Orania-app lei dalk tot nuwe geld. http://www.netwerk24.com/Sake/Ekonomie/dawie-roodt-se-orania-app-lei-dalk-tot-nuwe-geld-20170703 (20 September 2017 geraadpleeg).

Steyn, C. 2015. Die argivering van die Afrikaanse film (1916–2014). MA-verhandeling, Universiteit van die Vrystaat.

Stockinger, P. 2016. Digital archives, cultural identity and diversity, meaning economy. Council of Europe Conference « Culture 4D: Digitization; Data; Disruptions; Diversty. Hosted by Tallinn University and Estonian Ministry of Culture within the framework of the Estonian Presidency of the Council of Europe’s Committee of Ministers. Tallinn University.

Strange, A. 2014. Jennifer Lawrence and other celebs hacked as nude photos circulate on the Web. http://mashable.com/2014/08/31/celebrity-nude-photo-hack/#Q1Kf98TSrZqf (20 September 2017 geraadpleeg).

Strydom, J. 2017. Orania Beweging spog nou met supermoderne kantore. Voorgrond, Desember, ble. 16–7.

Strydom, L. 2007. Die Klein Reus. Toespraak by die onthulling van die Klein Reus op Monumentkoppie, Orania. Orania: EPOG-argief.

Underhill, A.-M. en A. Underhill. 2016. A digital dark now? Digital information loss at three archives in Sweden. MA-verhandeling, Lund-universiteit.

Vaisman, A. en E. Zimanyi. 2014. Data warehouse systems design and implementation. Heidelberg: Springer-Verlag.

Van Staden, C. 2017. Aanlynleeromgewings: ’n Sleutel tot die deurlopende professionele ontwikkeling van onderwysers. LitNet Akademies, 14(3):770–821. https://www.litnet.co.za/wp-content/uploads/2017/12/LitNet_Akademies_14-3_vanStaden_770-821.pdf.

Warren, C. 2014. After celebrity photo hack, how safe is the cloud?. http://mashable.com/2014/08/31/how-safe-is-icloud/#EW5I2LxBruqk (20 September 2017 geraadpleeg).

Wissink, G. en J. Oomen. 2010. Het audiovisueel archief als open platform voor mediadiensten. In Debuysere e.a. (reds.) 2010.

Wright, R. 2012. Preserving moving pictures and sound. DPC Technology Watch Report 12-01 March 2012. Glasgow: Digital Preservation Coalition.

Wycislik-Wilson, M. 2017. The best free DVD ripper 2017. http://www.techradar.com/news/the-best-free-dvd-ripper (6 Oktober 2017 geraadpleeg).

Wyngaard, B. 2016. Biblioteke en skole afbrand: Dom verset, of slim manipulasie?. https://www.litnet.co.za/biblioteke-en-skole-afbrand-dom-verset-slim-manipulasie (4 Julie 2017 geraadpleeg).

Zimmer, M. 2010. But the data is already public: On the ethics of research in Facebook. Ethics and Information Technology, 12(4):313–25.

 

Eindnotas

1 Hierdie ondersoek is moontlik gemaak deur finansiële bystand van die Erfenisstigting en die Orania Beweging.

2 Elektroniese data is data wat in digitale formaat is en deur elektroniese kommunikasiekanale versprei word. Die data word voorgestel deur ’n kombinasie van nulle (0) en ene (1).

3 In Senekal (2011:53) word digitalisering soos volg gedefinieer: “Digitalisering verwys na al die stappe betrokke in die omskakeling van ’n hardekopie of papierkopie (analoogkopie) na ’n elektroniese (digitale) kopie, insluitend die toevoeging van metadata.” Sien ook Singh (2003:12) en Pramod, Ambati, Pratha en Jawahar (2006:428–30).

4 In Senekal (2011:57) word drie tipes PDF bespreek: PDF wat nie soekbaar is nie, PDF waar die teks onttrek is en PDF wat verskuilde teks agter die beeld enkodeer. Die huidige projek verkies, soos die aanvanklike projek waarvan in Senekal (2011) geskryf word, tipe 3, omdat dit die teks soekbaar maak, maar die formaat dieselfde bly.

5 Vir meer inligting oor die Orania Beweging se filiale, sien www.orania.co.za.

6 Hier word na die "eerste" digitaliseringsprojek (2010–2014) verwys omdat daar tans pogings aangewend word om digitalisering by NALN te hervat.

 


LitNet Akademies (ISSN 1995-5928) is geakkrediteer by die SA Departement Onderwys en vorm deel van die Suid-Afrikaanse lys goedgekeurde vaktydskrifte (South African list of Approved Journals). Hierdie artikel is portuurbeoordeel vir LitNet Akademies en kwalifiseer vir subsidie deur die SA Departement Onderwys.


  • 2

Kommentaar

  • Reageer

    Jou e-posadres sal nie gepubliseer word nie. Kommentaar is onderhewig aan moderering.


     

    Top