|
Opsomming
Die inligtingsera het bykans elke aspek van die menslike leefwêreld ingrypend verander, insluitend konflik en die intelligensiebedryf. Oopbronintelligensie (Open Source Intelligence of Osint) het belangriker geword en in 2012 argumenteer Omand, Bartlett en Miller dat die opkoms van sosiale media die skep van ’n nuwe intelligensiedissipline, Sosiale-media-intelligensie (Social Media Intelligence of Socmint), noodsaak. Regerings en substaatrolspelers maak toenemend gebruik van sosiale media om hul boodskap uit te dra en hul bewegings te koördineer, soos byvoorbeeld gesien tydens die Arabiese Lente- en die Occupy Wall Street-bewegings. Intelligensiedienste het wêreldwyd projekte van stapel gestuur om Socmint te gebruik om meer oor sulke bewegings te wete te kom, en dit teen die agtergrond van sogenaamde grootdata.
Die onderhawige ondersoek bespreek die gebruik van Socmint vir gemeenskapsveiligheidsdoeleindes by Orania, veral teen die agtergrond van die huidige Suid-Afrikaanse politieke opset, waar die Afrikaner toenemend geteiken word en die bedreiging van massaprotesaksies ’n werklikheid geword het.
Trefwoorde: Afrikaans; Afrikaner; grootdata; intelligensie; Orania; Osint; politieke optrede; protes; Socmint; sosiale media; sosiale-netwerk-ontleding; Twitter
Abstract
Socmint: The monitoring of social media for community safety purposes within a big data framework in South Africa with specific reference to Orania
The information explosion that has taken place since the 1990s has changed almost every aspect of society, including conflict and the intelligence environment. Social media platforms, websites and blogs are increasingly used to convey movements' messages and for communication purposes, which means that information about these movements’ nature and activities has become more accessible to those who have the ability to gather the information and to analyse it. Twitter, for example, is used by the Islamic State of Iraq and Syria (also known as the Islamic State of Iraq and Al-Sham, currently known as Daesh) (ISIS) and by Al-Qaeda's affiliate, Al-Shabaab. By 1999, almost every known terrorist group had a presence on the internet and during the 2011 Egyptian Revolution 32 000 new groups and 14 000 new pages were created on Facebook from within Egypt. Significant mass demonstrations where Twitter played an important role include the civil unrest in Moldova in 2009, the Iranian election protests of 2009–2010, the Tunisian Revolution of 2010–2011, the Egyptian Revolution in 2011 and the Occupy Wall Street (OWS) protest, which took place in the autumn of 2011 in cities around the world. Locally, a lot of conversations around recent movements such as #RhodesMustFall and #FeesMustFall also took place on social media and especially on Twitter.
Because information became more accessible, Open Source Intelligence (Osint) has become increasingly important. For example, the CIA Bin Laden unit claimed that 90% of what they needed was open source intelligence, while W.M. Nolte, former deputy assistant director of the CIA, argued in 2005 that 95–98% of all information provided by US intelligence services is open source intelligence.
The discipline of Osint has also recently been extended to include Social Media Intelligence (Socmint). Socmint is used by overseas intelligence services, for example by the United Kingdom's Ministry of Defence (UK MOD) and the US Federal Bureau of Investigation (FBI). Since Socmint involves the collection and analysis of information that exists in the public domain, it is usually seen as an extension of Osint, although it can be argued that Socmint requires additional skills and can be seen as a separate but closely related discipline. Osint usually involves the targeting of a particular entity – either a person or organisation – after which information about that entity is obtained from open sources. In contrast, the large data sets and statistical analyses, machine learning, artificial intelligence and the like that involve Socmint investigations require more specialised skills and equipment.
Socmint is located not only within the field of Osint and the information explosion, but also within the big data paradigm. Big data has impacted businesses, governments and security globally, with applications as diverse as election campaigns, marketing campaigns and anti-terrorism operations. Big data is usually defined in terms of v's: volume, variety, velocity, value and veracity, where volume refers to the large size of datasets, variety refers to the diverse nature of datasets (structured, semi-structured and unstructured), velocity to the speed at which data is generated and analysed, value to its use and veracity to the trustworthiness of the data.
The current article discusses Socmint against the background of big data with specific reference to how it can be applied to enhance community safety in Orania. It discusses how large amounts of unstructured data are collected from Twitter and analysed in a real-time manner, inter alia regarding the number of tweets per day and per person, the extraction of themes and organisations mentioned, the identification of language for filtering out irrelevant tweets, the identification of sentiment and magnitude, and the extracting of hashtags as well as user names. In the analysis, use is made of Natural Language Processing (NLP), regular expressions, cloud computing and data visualisation, including geolocated data. The identification of important users and hashtags is also discussed using network theory, with specific reference to using centrality measures such as PageRank, Eigenvector centrality, in- and out-degree centrality, betweenness centrality and the like, and using network theory to extract the relevant component of Twitter conversations.
In addition, important tweets and days are highlighted and it is indicated that Orania is mentioned more often when discussing matters that affect the Afrikaner: farm attacks (e.g. Black Monday), Afrikaans as a language of instruction (e.g. the court ruling on the University of the Free State’s language policy and Overvaal High School), the election of a new president and the talks around the banning of the old national flag, against the background of land expropriation without compensation. It is also discussed how methods are combined to determine, for example, which hashtags contain the most negative sentiment, which themes are the most negative, whether there is a rise in negative sentiment or in tweets around specific themes, etc. For example, tweets on language are predominantly expressed in the strongest terms, followed by the combination of racism and language and racism and land. When tweets deal only with education, the message is not phrased in strong emotional terms, but when education and racism are referred to in the same tweet (for example, the discourse around Overvaal High School), more emotionally charged messages are posted. Tweets on language and education are phrased in positive terms (when both themes occur in the same tweet), while the most negative tweets refer to racism and land and the second most negative tweets to racism and education. In this, one recognises the discourse surrounding Overvaal High School and the discourse surrounding land reform that has been widely discussed since the ANC's 54th National Congress in December 2017.
In general, it is found that the sentiment towards the Afrikaner has become increasingly negative and that Orania has become a symbol of the Afrikaner, which necessitates the monitoring of social media for safety purposes.
The key issue of the current study is that Socmint can be used to identify misconceptions by gaining a general idea about a subject and by identifying key role players. When misconceptions and relevant role players have been identified, constructive conversations with role players can be embarked on and misconceptions can be corrected, which can prevent conflict. This strategy has already been fruitfully employed by Orania in the past.
Keywords: Afrikaans; Afrikaner; Big Data; intelligence; Orania; Open Source Intelligence; Osint; political action; protest; Social Media; Social Media Intelligence; social network analysis; Socmint; Twitter
1. Inleiding
“Helicopter hovering over Abbottabad at 1am (is a rare event),” tweeted Sohaib Athar on 2 May 2011. Other tweets quickly followed: the helicopters (he quickly realised there were more than one) were non-Pakistani, there was a window-shaking explosion, a “gun fight”, a crash and an army cordon. Athar was live tweeting an operation that had been planned and executed in the darkest depths of secrecy: the US SEAL raid on the home of Osama bin Laden. It was Twitter’s CNN moment – the emergence of a new and significant channel for people to report on, and learn about, important events. (Wibberley en Miller 2014:147)
Die inligtingsontploffing wat sedert die 1990’s plaasgevind het, het bykans elke aspek van die samelewing verander. In 2000 was slegs ’n kwart van die wêreld se inligting digitaal gestoor, maar teen 2013 het hierdie syfer gestyg tot meer as 98% van die ongeveer 1 200 eksagrepe (1 eksagreep is gelykstaande aan 1 miljard gigagrepe) van inligting wat wêreldwyd in alle vorme gestoor is (Lim 2016:622). Die mensdom genereer deesdae meer data in ’n paar jaar as wat oor die afgelope 5 000 jaar gegenereer is (Harris 2016). Eerder as wat die uitdaging is om genoeg data te versamel, het die uitdaging dan eerder geword om sin te maak uit sulke groot hoeveelhede data. Die uitdaging word, soos die Amerikaanse National Visualization and Analytics Centre (NVAC) dit stel: “to detect the expected and discover the unexpected from massive and dynamic information streams and databases consisting of data of multiple types and from multiple sources, even though the data are often conflicting and incomplete” (Thomas en Cook 2006:10).
Konflik en die intelligensiebedryf is ook deur die inligtingsontploffing geraak. In ’n brief van 2002 aan die destydse Taliban-leier, Mullah Muhammad Omar, skryf Osama bin Laden: “It is obvious that the media war in this century is one of the strongest methods; in fact, its ratio may reach 90 percent of the total preparation for the battles” (Klausen 2015:3). Sosiale-media-platforms, webwerwe en blogs word toenemend gebruik om bewegings se boodskappe uit te dra, en vir kommunikasiedoeleindes, wat beteken dat inligting oor hierdie bewegings se aard en aktiwiteite makliker toeganklik geword het vir dié wat oor die vermoë beskik om die inligting te versamel en te ontleed. Twitter is byvoorbeeld deur die Islamic State of Iraq and Syria (ook genoem die Islamic State of Iraq and al-Sham, tans bekend as Daesh) (ISIS) gebruik (Helmus en Bodine-Baron 2017; Klausen 2015), terwyl Al-Qaeda se affiliasie, Al-Shabaab, ook hierdie platform gebruik het (Omand, Bartlett en Miller 2012:803). Reeds teen 1999 het bykans elke bekende terreurgroep ’n teenwoordigheid op die internet gehad, en gedurende die 2011 Egiptiese revolusie is 32 000 nuwe groepe en 14 000 nuwe bladsye op Facebook vanuit Egipte geskep (Omand, Miller en Bartlett 2014:29). In 2013 het die Vrye Siriese Weermag ook Twitter gebruik om artillerie-aanvalle op Bashar Hafez al-Assad se weermag te koördineer (Gibson 2014:19). Noemenswaardige massademonstrasies waar Twitter ’n belangrike rol gespeel het, sluit in die siviele onrus in Moldawië in 2009, die Irannese verkiesingsprotesaksies van 2009–2010, die Tunisiese revolusie van 2010–2011, die Egiptiese revolusie van 2011 en die Occupy Wall Street- (OWS-) protes wat in die herfs van 2011 in stede regoor die wêreld plaasgevind het (Tremayne 2014:110). Plaaslik het ’n groot deel van die gesprekke rondom onlangse bewegings soos #RhodesMustFall en #FeesMustFall ook op sosiale media, en veral op Twitter plaasgevind (Findlay 2015).
Omdat inligting meer vryelik beskikbaar geword het, het oopbronintelligensie (Open Source Intelligence of Osint) al hoe belangriker geword, en Arslan en Yanık (2015:81) skryf dat meer as 80% van die inligting wat die Central Intelligence Agency (CIA) inwin, oopbronintelligensie is. Die CIA se Bin Laden-eenheid het beweer dat 90% van wat hulle benodig het, oopbronintelligensie was, terwyl W.M. Nolte, die voormalige adjunkassistentdirekteur van die CIA, in 2005 aangevoer het dat 95–98% van alle inligting wat deur die VSA se intelligensiedienste hanteer word, oopbronintelligensie is (Gibson 2014:10). Hobbs, Moran en Salisbury (2014:1) voer aan dat alhoewel oopbronintelligensie lank in die werk van intelligensie-ontleders gebruik is, dit in die afgelope paar jaar met ’n nuwe status en legitimiteit toegeken is en van die periferie van intelligensie-pogings na ’n kernkomponent van ontledingsprodukte beweeg het (kyk ook Gibson 2016:70).
Die dissipline van Osint is ook onlangs uitgebrei om sosiale-media-intelligensie (Socmint) in te sluit (dié term is deur Omand e.a. 2012 geskep). Sedert 2012 het die Britse National Domestic Extremism and Disorder Intelligence Unit (NDEDIU) byvoorbeeld ’n span van 17 mense wat spesifiek op Socmint fokus (Dencik, Hintz en Carey 2017:6 en Wright 2013), terwyl die Open Source Enterprise onder die Direkteur van Nasionale Intelligensie in 2005 in die VSA gestig is (Hobbs e.a. 2014:2). Die Verenigde Koninkryk (VK) se Ministry of Defence (UK MOD) en die VSA se Federal Bureau of Investigation (FBI) gebruik ook Socmint (Antonius en Rich 2013:42). Omand e.a. (2012:804) argumenteer:
When society develops and adopts new methods of communication and organization – such as social media – public institutions, including the police and intelligence services, have a responsibility to react and adapt. The explosion of social media is the latest in a long line of disruptive technological innovations, and now requires a response from the authorities in turn.
Socmint is nie alleen binne die veld van Osint en die inligtingsontploffing gesitueer nie, maar ook binne die grootdataparadigma (Dencik e.a. 2017:2 en Omand e.a. 2012:804). Grootdata het wêreldwyd ’n impak gehad op besighede, regerings en sekuriteit (Mayer-Schönberger en Cukier 2013, Davenport 2014 en Senekal en Brokensha 2014), met toepassings so uiteenlopend soos verkiesingsveldtogte, bemarkingsveldtogte en antiterreuroperasies. Die huidige artikel bespreek Socmint teen die agtergrond van grootdata met spesifieke verwysing na hoe dit vir gemeenskapsveiligheid in Orania aangewend kan word.
2. Orania se veiligheidsituasie
Orania staan bekend as ’n veilige omgewing waar aansienlik minder misdaad voorkom as wat die norm in die grootste deel van Suid-Afrika is. Veiligheidshulpbronne word eerder aangewend om die omliggende omgewing by te staan – ook as deel van AfriForum se inisiatief: Projek Nehemia, om gemeenskapsveiligheidstrukture in die Bo-Karoo te vestig (Orania Beweging 2018).
’n Bedreiging wat Orania egter in die gesig staar, is protesoptrede van buite. Omdat Orania as ’n rassistiese gemeenskap gesien word, is dit gereeld die teiken van vyandige retoriek wat sou kon oorspoel in protesoptrede van buite. Orania is gestig as ’n groeipunt vir Afrikaners (Pienaar 2007:60), maar aangesien etniese herkoms vir meer as ’n eeu deel uitgemaak het van die Afrikaner se identiteit (Pienaar 2007:11–4), het slegs wit mense hul hier gevestig. Boonop is daar ’n toenemende vyandigheid teenoor Afrikaans en Afrikaners in Suid-Afrika, soos byvoorbeeld gesien tydens die betogings by Hoërskool Overvaal in Vereeniging in Januarie 2018, die #AfrikaansMustFall-beweging van 2015/2016 en die hersiening van taalbeleide aan voormalige Afrikaanse universiteite soos die Universiteit van die Vrystaat (UV). Joernaliste, byvoorbeeld McNally (2010), Maclean en Miller (2010), Fihlani (2014), Khan (2014) en Ngugi (2017), beskryf Orania ook gereeld as ’n plek waar apartheid voortleef, wat tot ’n negatiewe beeld van buite bydra.
Op 4 Junie 2016 het lede van die Economic Freedom Fighters (EFF) Orania onverwags besoek (Cloete 2016:1, Krige 2017 en De Klerk 2017). Dié besoek was nie, soos Nelson Mandela se besoek in 1995, Julius Malema se besoek in 2009, of Jacob Zuma se besoek in 2010, ’n voorafbeplande besoek wat geordend plaasgevind het nie. Die situasie is deur middel van gespreksvoering ontlont, maar veiligheidsprosedures is hierna opgeskerp. Na hierdie voorval het dit duidelik geword dat die klimaat binne Suid-Afrika verander het en dat daar voortaan proaktief opgetree sal moet word indien Orania toekomstige probleme wil vermy.
In Julie 2017 het Cosatu uitgevaar teen Orania se gebruik van wat gesien word as hul eie geldeenheid, die ora, en dan spesifiek die beoogde digitale weergawe daarvan, die e-ora (Wildenboer 2017). Dié uitlatings is van binne die Orania Beweging op sosiale media en in die hoofstroommedia gesien en gehoor, waarna afgevaardigdes van Cosatu vir ’n gesprek genooi is. Tydens die gesprek is misverstande reggestel: die ora is nie ’n aparte geldeenheid nie, maar eerder vergelykbaar met ’n koeponstelsel, wat in 2004 in gebruik geneem is om die plaaslike ekonomie te stimuleer. Deur hierdie gesprek is ’n potensiële konflik ontlont deur misverstande reg te stel, wat daarop dui dat daar ’n bewese voordeel daarin is om sowel die hoofstroom- as sosiale media te monitor ten einde proaktief te kan optree en konflikte dan deur onderhandelinge te ontlont.
3. ’n Kort oorsig oor sosiale-media-platforms
Alhoewel sosiale media ’n onlangse verskynsel is (Facebook is byvoorbeeld in 2004 gestig, Twitter in 2006), het dit vinnig opgang gemaak. Volgens We Are Social (Kemp 2017), was daar teen 2017:
- 3,77 miljard wêreldwye internetgebruikers, gelykstaande aan 50%-penetrasie
- 2,80 miljard wêreldwye sosiale-media-gebruikers, gelykstaande aan 37%-penetrasie
- 4,92 miljard wêreldwye gebruikers van mobiele tegnologie (selfone en tablette), gelykstaande aan 66%-penetrasie
- 2,56 miljard wêreldwye gebruikers van sosiale media deur mobiele tegnologie, gelykstaande aan 34%-penetrasie
- 1,61 miljard wêreldwye e-handel-gebruikers, gelykstaande aan 22%-penetrasie.
In Suid-Afrika het sosiale media ’n penetrasie van 27% van die totale bevolking, met 15 miljoen gebruikers (QWERTY 2017:5). Facebook is die gewildste platform, gevolg deur YouTube, WhatsApp, Facebook Messenger, LinkedIn en Twitter (QWERTY 2017:12). Ongeveer 8 miljoen Suid-Afrikaners is op Twitter geregistreer, terwyl daar wêreldwyd 330 miljoen mense op hierdie platform geregistreer is (Statista 2018).
Alhoewel Twitter nie die gewildste sosiale-media-platform is nie, word dit algemeen as die politieke platform gesien: “[T]he microblogging platform Twitter has been singled out for its capacity to help activists to manage the complexities of mass protest organization and coordination more effectively” (Theocharis, Lowe, Van Deth en García-Albacete 2015:203). Facebook, Instagram, YouTube en ander kanale word ook vir politieke doeleindes aangewend, maar dit is Twitter wat in hierdie gebruik uitstaan:
Twitter’s quick flow of very short and direct messages calling for action can be very important for political activities because tweets can be easily and massively diffused across diverse social networks (and countries), and can attract the attention of previously uninterested and organizationally unaffiliated publics. As previous studies have suggested, these passing short messages may be catalytic in someone’s spontaneous decision to become involved in specific political acts online or offline, lending support to a certain movement. (Theocharis e.a. 2015:203)
Aangesien dit so ’n belangrike platform is, word dit wyd vanuit die intelligensiegemeenskap bestudeer. Barge en Endsor (2014:6) skryf: “Twitter is probably the most useful Socmint tool at the analyst’s disposal,” terwyl Tumasjan, Sprenger, Sandner en Welpe (2010:184) aanvoer: “[O]ur results demonstrate that Twitter can be seen as a valid real-time indicator of political sentiment.” Omand e.a. (2014:29) stel die waarde van Twitter onomwonde: “The platform of most significant interest for event detection to date is Twitter.” Die intelligensiegemeenskap se verhouding met Twitter is egter nie sonder uitdagings nie, en in 2016 het Twitter byvoorbeeld toegang deur die VSA se intelligensiegemeenskap geblokkeer (Barrett 2016).
Twitter beskik oor die potensiaal om inligting te demokratiseer: mense kan vanuit ’n verskeidenheid invalshoeke aan ’n verskeidenheid boodskappe bekendgestel word, eerder as wat hulle aangewese is op sentrale nuusagentskappe. Dít beteken dat die potensiaal bestaan dat radikale en uiteenlopende perspektiewe uitgekanselleer kan word en dat gebruikers ’n gebalanseerde middeweg kan vind. In die praktyk gebeur die teenoorgestelde egter: ten spyte van die potensiaal, dui ’n groeiende hoeveelheid navorsing daarop dat sosiale media dikwels funksioneer as ’n “eggokamer” wat individue se bestaande houdings versterk (Shin, Jian, Driscoll en Bar 2016:1215). Himelboim, McCreery en Smith (2013) het ook bevind dat politieke gesprekke op Twitter hoogs partydig is, waar gebruikers se groepe gekenmerk word deur homogene sienings en aan dieselfde inligtingsbronne gekoppel is. Grant, Moon en Grant (2010:581) verwys ook na “enhanced groupthink and possible ‘cyberpolarisation’ in online social networks”. Om hierdie rede is Twitter juis vir sosiale bewegings wat hul boodskap wil konsolideer bruikbaar.
Ten spyte daarvan dat Twitter as ’n belangrike platform geag word, is Gibson (2014:20) huiwerig om te veel waarde aan Twitter te heg:
New forms of communication – new social media – are not of themselves politically threatening. Much of Twitter’s 140-character content, for example, offers little existential challenge to a well-established and confident political structure and system. It may be the playground for the vain, the stupid, the bored or the simply indifferent, but it reflects no political “revolution”. On the contrary, its remoteness, superficiality and “virtuality” – absent of real human interaction – present a stupefying anaesthetic to genuine political activity that the inhabitants of real political power, rather than fret over, should welcome unless, of course, they are absorbed by it themselves.
Alhoewel ’n mens Gibson tot ’n mate gelyk kan gee, is daar skrywers soos Omand e.a. (2012) wat aandui dat gesprekke op sosiale media gereeld met die realiteit skakel. Alhoewel ’n mens met ander woorde nie aanlyn gemeenskappe gelyk kan stel met bewegings in die werklikheid nie, kan sosiale media nie geïgnoreer word nie.
4. Socmint binne die tradisionele intelligensiedissiplines
Aangesien Socmint die opsporing van inligting wat in die publieke domein is, behels, word dit gewoonlik as ’n verlenging van Osint gesien (Arslan en Yanık 2015:85; Antonius en Rich 2013:45). Osint is reeds sedert die Tweede Wêreldoorlog ’n belangrike dissipline binne die intelligensiebedryf en word formeel in die VSA se ADRP 2–0 (Department of the US Army 2012:4–6) gedefinieer:
Osint is the discipline that pertains to intelligence produced from publicly available information that is collected, exploited, and disseminated in a timely manner to an appropriate audience for the purpose of addressing a specific intelligence requirement.
Inligting wat op sosiale-media-platforms geplaas word, is oorwegend in die openbare domein. Wibberley en Miller (2014:163) let byvoorbeeld daarop dat spesifiek Twitter-data algemeen gesien word as in die openbare domein en haal Twitter se privaatheidsbeleid aan: “What you say on Twitter may be viewed all around the world instantly [...] We encourage and permit broad re-use of Content. The Twitter API exists to enable this.”
Bruls en Dorn (2014:134) verskaf ’n oorsig oor die tradisionele intelligensiedissiplines (aangesien hierdie Engelse afkortings is, word die Engelse terme tussen hakies verskaf) (kyk ook Department of the US Army 2012):
- ACINT (acoustic intelligence): die opsporing en monitering van klank
- HUMINT (human intelligence): inligting uit menslike bronne, byvoorbeeld gesels met of boodskappe van mense
- IMINT (imagery intelligence): beelde (foto’s of video’s), soos fotografiese, infrarooi-, multispektrale materiaal, geneem van platforms op die grond, in die lug of in die ruimte
- MASINT (measurement and signature intelligence): wetenskaplike en tegniese inligting om toerusting (byvoorbeeld wapens) wat in die operasionele gebied gebruik word, te identifiseer
- RADINT (radar intelligence): inligting wat deur radarstelsels versamel word, byvoorbeeld om beweging op te spoor
- SIGINT (signals intelligence), wat verdeel kan word in COMINT (communications intelligence) vir die opsporing en volging van die kommunikasie van ’n individu of groepe en ELINT (electronic intelligence) om elektroniese seine anders as kommunikasieseine in die operasionele gebied op te spoor en te ontleed;
- Osint (open source intelligence): inligting beskikbaar in die openbare domein, soos op die internet, in boeke en in koerante.
Arslan en Yanık (2015:86) stel voor dat Socmint nie onder Osint geplaas moet word nie, maar eerder onafhanklik. Hulle argumenteer dat Socmint onder andere spesiale vaardighede en ontledingsinstrumente verg wat dit van Osint onderskei. Osint behels meestal die teikening van ’n spesifieke entiteit, hetsy ’n persoon of organisasie, waarna inligting oor daardie entiteit vanuit oop bronne ingewin word. Soekvaardighede word wel vereis, maar die volgende stelling uit die VSA se ADRP 2–0 (Department of the US Army 2012:4–6) dui daarop dat dieselfde mate van spesialisasie nie vir Osint vereis word nie:
The Army does not have a specific MOS [military occupational specialty], additional skill identifier, or special qualification identifier for Osint. With the exception of the Asian Studies Detachment, the Army does not have base tables of organization and equipment for Osint units or staff elements.
Hierteenoor verg die groot datastelle en statistiese ontledings, masjienleer, kunsmatige intelligensie en dergelike wat met Socmint gepaard gaan, meer gespesialiseerde vaardighede en toerusting. Myns insiens moet Socmint, soos Arslan en Yanık (2015) voorstel, apart van Osint gesien word, hoofsaaklik omdat dit binne ’n grootdataparadigma gesetel is.
5. Socmint binne die grootdataparadigma
Grootdata is moeilik om te definieer, maar word met verwysing na hoofsaaklik drie parameters omskryf of gekenmerk waarvan die terme in Engels met v begin: volume (volume), variety (verskeidenheid) en velocity (snelheid) (Laney 2001). Lim (2016:621) skryf: “The term Big Data refers to massively voluminous, highly varied (i.e. structured and especially unstructured) and dynamic real-time datasets that do not lend themselves to traditional relational data analysis processes,” wat ook bostaande stelling van die Amerikaanse National Visualization and Analytics Centre (NVAC) (Thomas en Cook 2006:10) eggo. Hierdie drie v’s kan ook gesien word in Antonius en Rich (2013:46) se stelling rakende die uitdagings van Socmint: “[Th]e flood of information available through social media, its unstructured nature, and real-time speeds present a unique challenge to existing technologies.” By hierdie drie v’s kan nog twee gevoeg word: value (waarde) en veracity (betroubaarheid) (Hitzler en Janowicz 2013, Assunção, Calheiros, Bianchi, Netto en Buyyab 2015 en Jin, Wah, Cheng en Wang 2015).
In die huidige onderafdeling bespreek ek die potensiaal en uitdagings vir die gebruik van Socmint rondom al hierdie parameters of maatstawwe. Omand e.a. (2012:805–6) noem ook ’n aantal gebruike van Socmint, insluitend om bygewerkte inligting oor ’n gebeurtenis te versamel, om inligting oor groepe te bekom, en om kriminele se gedrag en verwantskappe deur sosiale media te bestudeer. Aangesien hierdie gebruike – en die beperkinge wat hulle noem – saamhang met die grootdataraamwerk, word hul insigte by die huidige onderafdeling geïntegreer.
5.1 Volume
Volume verwys daarna dat groot hoeveelhede data versamel en ontleed word. Daar word gemiddeld 6 000 twiets elke sekonde op Twitter geplaas, en ander statistieke is net so verbysterend. Meer as 4 miljard gigagrepe se data beweeg per sekonde oor die internet, en op ’n gegewe dag (in hierdie geval 1 Februarie 2018), gebeur die volgende volgens Internet Live Stats (2018):
- Byna 4 miljard soektogte word op Google uitgevoer.
- Byna 500 miljoen twiets word geplaas.
- Meer as 4 miljard video’s word op YouTube gekyk.
- Meer as 50 miljoen foto’s word op Instagram geplaas.
Dit is nie moontlik om kwalitatief met sulke volumes om te gaan en sinvolle insigte daaruit te onttrek nie; ’n mens kan maklik in ’n “datatsunami” verswelg word:
[T]he availability of more information in the public sphere may confer a quantitative rise but it does not infer any similar qualitative improvement. One of the “complaints” of contemporary information-working – characterised by metaphors such as information society, digital age, big data and new social media – is the cliché of “drinking at a fire-hydrant”. (Gibson 2014:17)
As gevolg van hierdie volumes word eerder van kwantitatiewe metodes, masjienleer, kunsmatige intelligensie en datavisualisering gebruik gemaak. Omand e.a. (2012:810) skryf dat die vermoë om betekenis outomaties uit ongestruktureerde data soos twiets te onttrek (byvoorbeeld deur sentimentontleding – kyk verder aan), baie navorsingsgeleenthede skep, en sosiale navorsers kan nou datastelle op ’n ongekende skaal hanteer. Die netwerkbenadering kan by hierdie metodes gevoeg word, omdat dit juis die ontleder daartoe in staat stel om insigte uit groot datastelle te onttrek (kyk byvoorbeeld Ressler 2006, Everton 2009 en Senekal 2012). Sulke ontledings kan lei tot ’n beter begrip van ’n groep en hul ondersteuners, wat een van die belangrikste aanwendings van Socmint is wat Omand e.a. (2012) uitlig. Hulle skryf:
[T]he police could use Socmint to spot new, rapidly emerging “hot topics” that spring up within group-specific conversations and how the group reacts to a specific, perhaps volatile, event. Through these and other techniques, Socmint might indicate the overall levels of anger within a group, and their key concerns and themes that animate intra-group discussions. (Omand e.a. 2012:806)
Uiteraard verg bogenoemde metodes gespesialiseerde vaardighede en programmatuur, anders as wat die geval is met Osint. Voorbeelde van sulke metodes word later in die huidige artikel bespreek.
5.2 Verskeidenheid
Data bestaan in ’n verskeidenheid formate: gestruktureerd (byvoorbeeld adreslyste), semigestruktureerd (byvoorbeeld webwerwe) en ongestruktureerd (byvoorbeeld teks, beeld- en videomateriaal). Die verskeidenheid formate waarin data in ’n grootdatawêreld aangetref word, is een van die grootste uitdagings vir ontledingsdoeleindes: dit is moeilik om sinvolle insigte uit ongestruktureerde teks en video- of beeldmateriaal te onttrek, veral wanneer groot volumes ter sprake is. Een van die voordele van Osint is dat dit ’n holistiese beeld bied, maar dan bestaan die data wat deur Osint versamel word, juis in ’n verskeidenheid formate:
They provide an holistic all-source capability: satellite imagery is available commercially off the shelf; “news” can be aggregated, searched and sorted on the internet; “citizen journalists” or “bloggers” help to unravel the mysteries of “uncertainty”; while the sharing of intelligence via an “Intellipedia” moves analysis towards a real-time product. (Gibson 2014:16)
Daar bestaan reeds ’n groot aantal maniere om sinvolle inligting uit hierdie wye verskeidenheid formate te onttrek. Beeldherkenningstegnologie (“image recognition technology”) kan byvoorbeeld gebruik word om voertuie te identifiseer (Hiippala 2017). Sentimentontleding klassifiseer ’n teks (gewoonlik kort, byvoorbeeld Twitter-boodskappe) as positief, negatief of neutraal, wat die geleentheid bied om ’n “gevoel” oor ’n onderwerp te bekom (kyk byvoorbeeld Hendrikse, Habib en Van Keulen 2017 en Gibson 2016:98). Beeldherkenningstegnologie kan ook gebruik word om die sentiment van ’n foto te bepaal. Benoemde-entiteit-onttrekking (“Named Entity Extraction”) bied die geleentheid om eiename uit ’n boodskap te onttrek ten einde te kan sien oor watter persone, plekke en instansies daar gepraat word (Gibson 2016:86). Boonop kan gereelde uitdrukkings (“regular expressions”) gebruik word om kernwoorde en temas in tekste te identifiseer.
Ten spyte van die groot vordering wat oor die afgelope aantal jare ten opsigte van die onttrekking van data uit ’n verskeidenheid dataformate gemaak is, bly dit een van die grootste uitdagings binne ’n grootdata-omgewing.
5.3 Snelheid
Snelheid is een van die belangrikste fasette van grootdata. Gupta en Kumaraguru (2012) het byvoorbeeld bevind dat daar 5 500 twiets per sekonde geplaas is oor ’n aardbewing in Virginia, VSA en bogenoemde statistieke van Internet Live Stats (2018) dui ook op die snelheid waarteen data wêreldwyd gegenereer word. Die uitdaging is dan ook juis om data wat deurlopend gegenereer word, ook deurlopend, in reële tyd, te ontleed.
Snelheid is een van die voordele van Socmint. Twitter versprei byvoorbeeld inligting vinniger as die konvensionele media (Omand e.a. 2012:806), onder andere deur van ooggetuieverslaggewers te maak wat plasings maak en video’s en klankgrepe deel. Die bekendste voorbeeld van hierdie verskynsel is Sohaib Athar se twiets oor die aanval op Osama bin Laden se tuiste in Abottabad, Pakistan, maar ’n mens sou vele ander voorbeelde kon noem. Kyk byvoorbeeld na die boodskap in figuur 1, wat op 14 Februarie 2018 op Twitter gedeel is na die skietvoorval by Marjory Stoneman Douglas High School in Florida, VSA.
Figuur 1. ’n Plasing op Twitter
Sulke plasings word vinniger gemaak as wat die tradisionele hoofstroommedia dit kan doen en verskaf ’n gedetailleerde ooggetuieweergawe van gebeurtenisse. Let ook daarop dat foto’s hier ingesluit word wat belangrike inligting aan wetstoepassers en noodreddingswerkers kan kommunikeer.
Dit is veral wanneer massa-optredes soos onluste en betogings voorkom dat Twitter nuttig gebruik kan word (Day, Gibson en Ramwell 2016:149). Hierdie vermoë om inligting oor protesoptrede deur sosiale media in te win, is veral in Suid-Afrika bruikbaar, waar ’n groot aantal (gewelddadige) betogings bykans daagliks plaasvind. Met data beskikbaar gestel deur die Institute for Security Studies (ISS) vir die tydperk 1 Januarie 2013 tot 3 Maart 2014 (beskikbaar by https://data.code4sa.org/dataset/Protest-Data/7y3u-atvk/data), kan daar bereken word dat daar ’n gemiddeld van 1,5 protesaksies per dag in hierdie tydperk plaasgevind het. ’n Groot aantal protesaksies (45%) was gewelddadig en betogings het veral in groot stede plaasgevind. Die oorsake is juis van belang vir Socmint: 88,89% van protesaksies rondom xenofobie lei in hierdie tydperk volgens hierdie datastel tot geweld. Stuart Jones, die direkteur van die Citizen Research Centre, se navorsing het bevind dat veral sosiale media, onder andere Twitter, xenofobiese uitlatings bevat wanneer werklike xenofobiese geweld voorkom (Khoza 2017b). Antiwit uitlatings het ook sedert 2016 eksponensieel op sosiale media gegroei en Jones merk op:
[I]n January and February this year [2017], one in four posts referring to xenophobia from any angle, positive or negative, on social media in SA fell into the anti-white or anti-colonial category. This points to a dramatic shift in South Africa's political landscape, especially among young black South Africans. (Khoza 2017b)
Aangesien protesaksies gereeld gewelddadig is en minderheidsgroepe teiken, en aangesien vyandige sentimente op sosiale-media-platforms weerspieël word, is die monitering van sosiale media juis van belang om geweld binne Suid-Afrika te bestudeer en te monitor. Ten einde bruikbaar te kan wees vir Socmint, moet sosiale-media-platforms soos Twitter egter intyds of byna intyds gemonitor en ontleed kan word.
5.4 Betroubaarheid
Betroubaarheid verwys daarna dat grootdatastelle gereeld onvolledig is, inkonsekwent is, vals positiewe bevat of andersins nie ’n akkurate beeld op die werklikheid bied nie. In die geval van Twitter is daar byvoorbeeld die probleem dat gebruikers self hul profielfoto’s, name en liggings kan aandui, wat beteken dat gebruikers ontleders doelbewus om die bos kan lei. Boonop word liggings byvoorbeeld nie op ’n konsekwente wyse aangedui nie: een gebruiker sal byvoorbeeld sy ligging aandui as “Johannesburg”, ’n ander “Johannesburg, Suid-Afrika” en ’n ander “Johannesburg, Gauteng”. Daar is ook gevalle waar gebruikers nie hul liggings korrek spel nie, of denkbeeldige plekke aandui, afkortings gebruik (byvoorbeeld “JHB”), of omgangstaal gebruik (byvoorbeeld “Jozi”). Sulke inkonsekwenthede skep uitdagings vir ’n rekenaarmatige ontleding, omdat programmatuur gewoonlik konsekwentheid vereis.
Dit is belangrik om van beperkinge bewus te wees, aangesien dit die veralgemeenbaarheid van bevindinge beïnvloed. ’n Mens sou byvoorbeeld nie kon sê dat indien, sê maar, 80% van boodskappe op Twitter oor ’n gegewe onderwerp negatief is, die publiek oor die algemeen negatief is oor daardie onderwerp nie. Slegs 8 miljoen Suid-Afrikaners gebruik Twitter en boonop is Twitter-gebruikers geneig om jonger, finansieel meer welgesteld, beter opgevoed en meer verstedelik as die algemene bevolking te wees (Omand e.a. 2012:810). Twitter is dus nie ’n verteenwoordigende monster van die algemene publiek nie, slegs ’n segment. Boonop skryf Omand e.a. (2012:810) dat Pareto se beginsel (Pareto 1897) ook vir Twitter geld: slegs ’n klein aantal gebruikers is uiters aktief en verantwoordelik vir 80% van twiets. Daar is met ander woorde statistiese aanduidings van ’n “stil meerderheid” wie se stemme nie op Twitter figureer nie. Verdere beperkinge om in gedagte te hou sluit in waarnemingseffekte en gebruikers wat skryf vir ’n gehoor juis om ’n reaksie uit te lok (Omand e.a. 2012:814).
5.5 Waarde
Die waarde van grootdata word algemeen binne politieke en besigheidskontekste erken en Omand e.a. (2012) betoog juis dat die dissipline Socmint geskep moes word om die waarde van hierdie (sub)dissipline te beklemtoon. Vir Arslan en Yanık (2015:87) is dit onder andere die waarde van Socmint wat ’n aparte intelligensiedissipline regverdig:
In today’s literature, social media intelligence is only a practice in open source intelligence. But when the opportunities are considered, it deserves more. To be categorized as a different discipline out of Osint, as Socmint, in producing intelligence, will make it more productive while pushing the initiative of innovation, amendments and investments forward on this area.
Ten einde van waarde te wees, moet ontleders egter met die regte kennis, vaardighede en toerusting toegerus wees sodat hulle groot volumes data, wat in ’n verskeidenheid formate bestaan en deurlopend teen ’n hoë snelheid gegenereer word, kan ontleed.
6. Vermeldings van Orania op Twitter teen die agtergrond van die intelligensiesiklus
Intelligensie word gewoonlik as ’n siklus gekonseptualiseer. Biermann, Korsnes, Rohmer en Ündeger (2004:3) gee ’n opsomming van die intelligensiesiklus vanuit die Noord-Atlantiese Verdragsorganisasie (NAVO) se glossarium van terme en definisies, soos aangehaal in Senekal (2012:474):
- Beplanning – Die bepaling van watter inligting benodig word, beplanning van navorsing en delegering aan tersaaklike persone.
- Versameling – Die gebruik van alle bronne tot die navorser se beskikking om die nodige data te versamel.
- Verwerking – Die evaluering, ontleding, integrasie en interpretasie van data, met ander woorde die omskakeling van data na intelligensie.
- Verspreiding – Die doelgerigte verspreiding van bevindinge in die gepaste formaat.
Die volgende onderafdelings fokus op die versameling en verwerking van data vir gemeenskapsveiligheidsdoeleindes. Die eerste fase van die intelligensiesiklus is reeds in die voorgaande afdelings behandel, aangesien die beplanningsfase gegrond is op ’n risiko-ontleding en assessering van beskikbare en benodigde vaardighede.
6.1 Versameling
Vermeldings van Orania op Twitter word deur ’n Google Sheets-byvoeging, Twitter Archiver, versamel. Dié byvoeging se resultate is met die Twitter Streaming API (Application Programming Interface) vergelyk en het in een maand (9 September 2017 – 9 Oktober 2017) 895 twiets teenoor die Twitter Streaming API se 272 versamel. Aangesien Twitter Archiver se resultate meer volledig is, is hiermee voortgegaan. Daar is ook verskeie soektogte per hand gedoen om te kyk of twiets gevind kon word wat nie in Google Sheets ingetrek is nie, en nie een so ’n twiet is gevind nie. Twitter word elke 15 minute hiermee gemonitor vir nuwe twiets wat die kernwoord orania bevat, wat dan die resultate na ’n sigblad in Google Sheets skryf. Die stelsel loop 24 uur per dag, sewe dae ’n week, sonder toesig. Die kernwoord is bo die hutsmerker (“hashtag”) verkies omdat nie almal wat na Orania verwys, die hutsmerker gebruik nie en die sleutelwoordsoektog die hutsmerker optel, maar nie andersom nie. Uit 10 093 twiets het die hutsmerker net 264 keer voorgekom.
Vir ontledingsdoeleindes is ’n interaktiewe gebruikerskoppelvlak in Tableau geskep wat direk met die Google Sheets-blad skakel. Tableau is vir besigheidsintelligensiedoeleindes ontwikkel en bied die geleentheid om ’n lewende koppeling met ’n groot verskeidenheid gestruktureerde dataformate, insluitend Google Sheets, te skep. Data hoef met ander woorde nie telkens op ’n ad hoc-basis in die program ingevoer te word nie, wat juis die snelheidsaspek van grootdata aanspreek. Boonop hoef die Google Sheets-sigblad nie uitgevoer te word na ’n ander formaat wat die data-ontledingstroom sou breek en intydse monitering verhoed nie. Die interaktiwiteit van die gebruikerskoppelvlak skep ook die geleentheid om af te boor (“to drill down”) na individuele datapunte wanneer nodig: daar kan byvoorbeeld gesien word watter twiets op ’n spesifieke dag geplaas is, watter temas in ’n maand ter sprake gekom het, hoe die ruimtelike verspreiding lyk van gebruikers wat op ’n gegewe dag of maand in Engels oor Orania getwiet het, of volgens boodskap, ens. Vir die huidige ontleding word egter eenvoudigheidshalwe gebruik gemaak van ’n stabiele, afgeslote datastel wat strek vanaf 2018/09/09 tot 2018/03/09, met ander woorde ses maande. Dit bestaan altesaam uit 10 093 twiets wat deur 6 764 gebruikers geplaas is. Figuur 2 toon die gemiddelde getal gebruikers en twiets volgens maand vir hierdie tydperk.
Figuur 2. Gemiddelde getal twiets en gebruikers per maand
Twitter Archiver verskaf ’n groot hoeveelheid inligting oor elke twiet: die datum waarop die twiet geplaas is, die gebruiker se skermnaam, sy volle naam, ’n ID vir die twiet, die toepassing wat gebruik is, hoeveel volgelinge die gebruiker het en hoeveel gebruikers hy volg, hoeveel hertwiets en gunstelinge daar vir die twiet was, wanneer die gebruiker se profiel geskep is, watter ligging hy aangedui het, en die biografie wat hy aangedui het. Hierby is verdere metadata gevoeg om verdere ontledingsgeleenthede te skep, soos in die volgende onderafdelings verduidelik word.
Die kernwoord/term orania is egter nie uniek nie: dit verwys onder andere na ’n hotel in Berlyn, beteken “om te ploeg” in Pools en is ook dié van ’n gebruiker in die Filippyne. Die twiets wat versamel word, bevat met ander woorde ruis wat nie ter sake vir Orania is nie, maar nietemin versamel word. Daar kan later gefiltreer word om sulke nietersaaklike twiets uit te skakel, soos hier onder verduidelik word.
6.2 Verwerking
6.2.1 Die ligging van gebruikers
Gebruikers se liggings is natuurlik van belang, maar die ligging wat gebruikers self aandui, kan nie altyd vertrou word nie omdat hulle dit self invul, soos reeds gemeld is. Sommige gebruikers dui byvoorbeeld “Azania” aan of selfs denkbeeldige plekke, wat ook beteken dat niks ’n gebruiker wat in Johannesburg woon, verhoed om sy ligging as “Kaapstad” aan te dui nie. Daar is egter verskeie steekproewe gedoen, en in die oorgrote meerderheid van gevalle blyk die gebruikers se genoemde liggings ’n akkurate aanduiding van hul werklike liggings te wees.
’n Verdere probleem is dat die ligging nie altyd op dieselfde skaal aangedui word nie: een gebruiker sal sy ligging byvoorbeeld as “Afrika” aandui, ’n ander “Suid-Afrika”, ’n ander die stad self, en daar is gebruikers wat boonop ’n voorstad aandui. Hierdie inkonsekwentheid skep probleme wanneer die ligging op ’n kaart aangedui word: Word die kolom “Ligging” as ’n land, stad of kontinent gespesifiseer as alle kategorieë teenwoordig is? Om die uitdaging van die inkonsekwente optekening van skaal aan te spreek, is Google Sheets se IMPORTXML-funksie ingespan om die ligging se koördinate te bekom, met die funksie:
=IMPORTXML("http://maps.googleapis.com/maps/api/geocode/xml?address="enA1, "/GeocodeResponse//location")
Dié funksie stuur ’n versoek aan die Google Maps API en vra dat die ligging wat die gebruiker aangedui het, in koördinate omgeskakel word. Hierdie metode is meer vergewensgesind teenoor spellingvariasies, inkonsekwente spasie- en hooflettergebruik, inkonsekwenthede ten opsigte van skaal, ens. Nie alle liggings is egter beskikbaar nie, aangesien sommige gebruikers dit nie aangedui het nie en sommige liggings foutief sal wees omdat die gebruiker dit so aangedui het, maar ’n geografiese voorstelling van gebruikers is steeds nuttig. Hul liggings kan dan op ’n kaart aangedui word wat in die interaktiewe gebruikerskoppelvlak ingeskakel is, sodat daar byvoorbeeld gesien kan word waar gebruikers geleë is wat op ’n spesifieke dag getwiet het oor ’n spesifieke onderwerp of wat ’n spesifieke boodskap getwiet het. Die liggings wat vir alle gebruikers bekom kon word, is op die kaart in figuur 3 aangedui.
Figuur 3. Die liggings van gebruikers wat die kernwoord orania gebruik
6.2.2 Die identifisering van taal
Die identifisering van taal is belangrik omdat die term orania nie uniek is nie, soos hier bo genoem. As Duitse, Filippynse en Poolse twiets egter byvoorbeeld weggelaat word, word die aantal irrelevante twiets in die datastel verminder (daar word egter steeds in Engels oor die hotel getwiet). ’n Mens sou ook op Engelse twiets kon konsentreer, maar tabel 1 hier onder dui daarop dat ’n groot aantal Afrikaanse, Zoeloe-, Xhosa-, Sotho- en ander twiets dan ook verwyder sal word.
Die taal van twiets word outomaties herken met Google Sheets se taalsoekfunksie:
=DETECTLANGUAGE(A1)
Dié funksie doen navraag by die Google Translation API om die taal te bepaal. Hierdie funksie het ná eksperimente geblyk meer akkuraat as Twitter se soortgelyke funksie te wees, aangesien laasgenoemde gereeld Afrikaans as Nederlands identifiseer. Dit kan egter nie as volledig betroubaar beskou word nie, aangesien die taalsoekfunksie soms moeilike besluite moet neem wanneer taalvermenging voorkom. Die volgende boodskap is byvoorbeeld as Zoeloe geïdentifiseer: “OUR government wena.unless yours is in Orania....nxa!!!” Ten spyte daarvan dat die taalsoekfunksie nie onfeilbaar is nie, kan dit gebruik word as ’n riglyn vir in watter tale die meeste twiets oor Orania verskyn. Tabel 1 verskaf ’n opsomming van die taal van twiets in die hele datastel, insluitend die persentasie gebruikers wat ’n gegewe taal gebruik.
Tabel 1. Die taal van twiets (tien en meer twiets)
Taal | % van totale getal twiets | % van totale getal gebruikers | getal twiets | getal gebruikers |
Engels | 72,47% | 78,92% | 7 314 | 5 338 |
Afrikaans | 10,22% | 6,45% | 1 031 | 436 |
Duits | 5,07% | 5,68% | 512 | 384 |
Pools | 4,84% | 6,11% | 488 | 413 |
Zoeloe | 1,27% | 1,79% | 128 | 121 |
Filippyns | 1,04% | 0,24% | 105 | 16 |
Frans | 1,01% | 1,01% | 102 | 68 |
Nederlands | 0,75% | 0,89% | 76 | 60 |
Spaans | 0,54% | 0,47% | 55 | 32 |
Ongedefinieerd | 0,28% | 0,21% | 28 | 14 |
Sotho | 0,27% | 0,37% | 27 | 25 |
Grieks | 0,22% | 0,30% | 22 | 20 |
Hongaars | 0,19% | 0,28% | 19 | 19 |
Italiaans | 0,18% | 0,25% | 18 | 17 |
Sjona | 0,18% | 0,24% | 18 | 16 |
Portugees | 0,16% | 0,21% | 16 | 14 |
Indonesies | 0,15% | 0,19% | 15 | 13 |
Japannees | 0,12% | 0,18% | 12 | 12 |
Swahili | 0,12% | 0,16% | 12 | 11 |
Xhosa | 0,12% | 0,18% | 12 | 12 |
Latyn | 0,10% | 0,15% | 10 | 10 |
6.2.3 Die taal van die gebruiker se naam
As ’n verlenging van die vorige funksie is die taal van gebruikers se volle name ook outomaties herken met behulp van [=DETECTLANGUAGE(A1)]. Die denkwyse was dat linguistiese herkoms gebruik kan word as ’n manier om etnisiteit op ’n indirekte wyse te bepaal, aangesien mense met byvoorbeeld Europese name en vanne oorwegend Europeërs is en mense met Afrika-name en vanne oorwegend Afrikane is. Dié werkswyse is ongetwyfeld nie onfeilbaar nie, aangesien gebruikers hul eie volle name kan aandui, ’n Europese naam en van nie noodwendig dui op ’n persoon van Europese herkoms nie, en die Google Translation API nie onfeilbaar is nie. Nietemin verskaf dit ’n riglyn: Dan Roodt, Ernst Roets, Kallie Kriel, Maroela Media, Orania Beweging, Pieter Groenewald en Steve Hofmeyr is byvoorbeeld sodanig as Afrikaans geïdentifiseer, terwyl Andile Mngxitama as Zoeloe geklassifiseer is. Die Google Translation API ondervind probleme om tussen Zoeloe en Xhosa (wat nouverwante tale is) te onderskei, maar ’n mens kan agterna ’n groepering vir Afrikatale maak. Die feit dat Lindsay Maasdorp van Black1stLand1st as Afrikaans geklassifiseer is, dui juis op die feit dat nie almal met Europese name en vanne noodwendig as Europeërs geklassifiseer sal word nie. Hierdie funksie word met ander woorde as ’n riglyn gebruik, maar met inagneming van foute en beperkinge. Soos met ander grootdataprojekte moet ’n balans tussen haalbaarheid en akkuraatheid nagestreef word: die grootte van grootdatastelle veroorsaak dat daar vergoed word vir foute (Mayer-Schönberger en Cukier 2013:32–49 en Senekal en Brokensha 2014:33–4).
Om die akkuraatheid van die identifisering van die taal van gebruikersname en die gebruikers se geografiese liggings te toets, is gebruikersname se linguistiese herkoms en hul geografiese liggings op die wêreldkaart in figuur 4 aangedui.
Figuur 4. Die verspreiding van tale
In figuur 4 kan gesien word dat hierdie metode met ’n redelike mate van akkuraatheid gebruik kan word: gebruikers met Duitse name kom oorwegend in Duitsland voor, met Poolse name in Pole en Engeland; Portugese name word veral in Suid-Amerika aangetref, Spaanse name in Suid-Amerika en Spanje, Franse name in Frankryk en Afrikaanse name in Suid-Afrika, maar ook in lande waarheen groot getalle Afrikaners geëmigreer het. ’n Toekomstige studie kan kwantitatief bepaal tot watter mate hierdie metode akkuraat is; tans word volstaan met die gebruik van hierdie metode as ’n riglyn met inagneming daarvan dat dit nie geheel en al betroubaar is nie.
6.2.4 Die identifisering van temas
Deur die lees van twiets is ’n paar belangrike temas geïdentifiseer, by name rassisme, opvoeding, taal en grondkwessies. Ter wille van verdere ontleding word temas in die huidige projek outomaties onttrek met behulp van gereelde uitdrukkings (“regular expressions”) wat vir spesifieke sleutelwoorde soek. In die geval van grond word daar byvoorbeeld na land en expropriation verwys, byvoorbeeld “Can we please go and do a land takeover in Orania please!” of “We must first expropriate orania land without compensation and fill it with rdp houses.” Waar onderrig by betrokke is, is dit veral skole en universiteite wat genoem word, en waar ras by betrokke is, is dit veral die terme racist en whites only wat voorkom. Variasies hierop, asook ander sleutelwoorde en temas, word deurlopend aangepas soos die datastel groei. Tans lyk die gereelde uitdrukking soos volg:
=trim(join("",IF(REGEXMATCH(D2,"whites|blacks|racis.|Racis|whites only|white-only|Whites only|Whites Only|whites-only|Whites-only|Whites-Only|white people"),"rassisme"," "),IF(REGEXMATCH(D2,"Afrikaans|afrikaans"),"taal"," "),IF(REGEXMATCH(D2,"school|School|University|university"),"onderrig"," "),IF(REGEXMATCH(D2,"land| Land|LAND|expropriation|Expropriation|expropriate|Expropriate"),"grond"," ")))
Wanneer twiets volgens tema ingedeel word, kan gesien word dat hierdie temas soos in tabel 2 aangedui in die datastel voorkom. Temas is saamgegroepeer wanneer meer as een tema in dieselfde twiet voorkom.
Tabel 2. Temas van twiets
Tema | % van totale getal twiets | % van totale getal gebruikers | getal gebruikers | getal twiets |
geen tema | 67,08% | 64,71% | 4 377 | 6 770 |
rassisme | 21,15% | 29,72% | 2 010 | 2 135 |
grond | 6,56% | 8,15% | 551 | 662 |
onderrig | 3,58% | 5,04% | 341 | 361 |
taal | 0,77% | 1,11% | 75 | 78 |
rassisme grond | 0,29% | 0,43% | 29 | 29 |
rassisme onderrig | 0,19% | 0,28% | 19 | 19 |
taal grond | 0,14% | 0,16% | 11 | 14 |
taal onderrig | 0,13% | 0,18% | 12 | 13 |
onderrig grond | 0,05% | 0,07% | 5 | 5 |
rassisme taal | 0,04% | 0,06% | 4 | 4 |
taal onderrig grond | 0,02% | 0,03% | 2 | 2 |
rassisme onderrig grond | 0,01% | 0,01% | 1 | 1 |
Die grootste aantal twiets waarvoor ’n tema geïdentifiseer is, verwys met ander woorde daarna dat Orania as ’n rassistiese gemeenskap gesien word, gevolg deur grondkwessies en dan onderrig. Tabel 3 dui ’n paar voorbeelde aan van twiets wat volgens hierdie temas geïdentifiseer is (twiets word hier verbatim weergegee).
Tabel 3. Voorbeelde van twiets volgens tema
Tema | Twiet |
rassisme | “#Kalushi we have another country inside south Africa "Orania" and there flamingos treat blacks like animals” |
rassisme | “Blacks in South Africa rise! Lets mobilse and go from racism monument to racism monument, from farm to farm , from factory to factory. The capital city of racism is ORANIA and we need to liberate that piece of land!!” |
onderrig | “Why do we still have afrikans only schools in this country? This is not Orania” |
onderrig | “Can't they just move the school to Orania and set their rules there? #HoërskoolOvervaal” |
onderrig | “#HoerskoolOvervaal Pathetic that a government school is allowed to practise Apartheid. Shut it down. This is what happens when Mandela visits Orania en makes #racist feel that it is fine. The fight against #racism must escalate.” |
grond | “I think we must send #Ramaphosa to Orania and announce he'll expropriate the land without compensation.” |
grond | “Take Dat no senses back to orania, its our land I cant wait for land expropriation” |
grond | “That #Orania must also vacate our Mzansi. This is the land for Africans which accommodates all but anyone coming here and feel like we, the natives, are subhumans must fuck the hell off.” |
Omdat die gebruikerskoppelvlak op ’n interaktiewe wyse geskakel is, kan daar ook volgens temas deur twiets gesoek word. Daar kan byvoorbeeld gekyk word na watter gebruikers oor watter temas twiet, wanneer watter temas die prominentste is, ens. Onderrig was byvoorbeeld ’n belangrike tema in Desember 2017 en Januarie 2018, teen die agtergrond van die hofuitspraak oor die taalbeleid aan die UV en die gebeure rondom Hoërskool Overvaal, soos hier onder bespreek word.
6.2.5 Die identifisering van hutsmerkers en gebruikersname
Twiets bevat soms hutsmerkers wat boodskappe eksplisiet binne ’n bepaalde diskoers situeer, byvoorbeeld #FeesMustFall of #LandExpropriation. Aangesien hutsmerkers ook ’n waardevolle bron van inligting is, word die hutsmerkers wat ’n twiet merk, ook in die huidige projek onttrek. Die volgende gereelde uitdrukking is saamgestel om hutsmerkers mee te onttrek:
=Regexextract(C1,"#[\w\d\._%+-]{2,30}")
Bykans dieselfde gereelde uitdrukking kan gebruik word om die persone na wie getwiet word, mee te onttrek. Die aanpassing vir gebruikersname lyk soos volg:
=Regexextract(C1,"@[\w\d\._%+-]{2,30}")
Die gereelde uitdrukkings hier bo onttrek egter net die eerste voorkoms van ’n hutsmerker of ’n gebruikersnaam, terwyl sommige gebruikers na ’n verskeidenheid gebruikers twiet of ’n verskeidenheid hutsmerkers gebruik. Om alle voorkomste van ’n gebruikersnaam na aparte kolomme te onttrek om verdere ontledings te bemiddel, is die volgende gereelde uitdrukking saamgestel:
=split(REGEXREPLACE(C1, "((^|\s)[^@]\S*)|([^@\w\s]\S*)", "")," ")
Die ekwivalente gereelde uitdrukking vir die onttrekking van hutsmerkers is dan:
=split(REGEXREPLACE(C1, "((^|\s)[^#]\S*)|([^#\w\s]\S*)", "")," ")
In die geval van hutsmerkers en die onttrekking van gebruikersname is die data só kompleks dat dit eerder binne die netwerkteorie ontleed moet word. Figuur 5 dui die hutsmerkernetwerk aan, met ander woorde watter hutsmerkers gebruikers in die diskoers rondom Orania op Twitter verbind. In hierdie geval beteken ’n skakel tussen hutsmerkers dat ’n gebruiker beide gebruik het, maar nie noodwendig in dieselfde boodskap nie. Hutsmerkers wat saam met #LanguagePolicy gebruik is, is in blou aangedui. Die gebruikersnaamnetwerk word later in die huidige artikel aangedui.
Figuur 5. Die hutsmerkernetwerk
Figuur 5 dui aan hoe verweef die diskoers rondom Orania is: Saam met die hutsmerker #LanguagePolicy word ook #LandExpropriation, #BlackMonday, #MandelaFoundation, #UFS, #AfrikaansHasFallen, #HoërskoolOvervaal en #EFFMarch gebruik. Hieruit kan gesien word dat Orania gereeld deel uitmaak van die diskoers rondom Afrikaans en Afrikaners. Die hutsmerker #MandelaFoundation verwys na die Mandela-stigting se poging om die ou Suid-Afrikaanse landsvlag te verban, wat hier onder bespreek word.
6.2.6 Sentimentontleding
Sentimentontleding is ’n spesialisveld binne Natuurlike Taalverwerking (“Natural Language Processing” of NLP), gebruik masjienleer of geannoteerde leksikons om te bepaal of ’n twiet positief of negatief is en kwantifiseer die resultaat met behulp van ’n glyskaal vanaf -1 tot 1. Boonop kan die graad van die emosionaliteit van die twiet (“magnitude”) ook sodanig bepaal word. Vir die huidige projek word Google se Natural Language Processing API vanuit Google Sheets gebruik om twiets outomaties te klassifiseer, aangesien dit in Kwiatkowski (2018) se eksperimente uitgewys is as die beste van sy soort met ’n akkuraatheid van 92,1%. Die gemiddelde sentiment van alle twiets oor Orania is bereken as -0,021, wat beteken dat twiets oorwegend negatief is maar nie sterk negatief nie, terwyl die gemiddelde emosionaliteit as 0,340 bereken is, wat ook nie baie sterk emosioneel is nie. Figuur 6 verskaf ’n oorsig oor hierdie veranderlikes per maand.
Figuur 6. Sentiment en emosionaliteit van twiets
Figuur 6 dui daarop dat alhoewel twiets oorwegend negatief is, dit sedert Februarie 2018 meer positief geword het, terwyl emosionaliteit baie wisselvalligheid toon. Aangesien ’n ander studie sentimentontleding breedvoerig met betrekking tot hierdie korpus behandel (Kotze en Senekal 2018), word daar nie indringend hierop ingegaan in die huidige artikel nie.
6.3 Ontleding
6.3.1 Aktiewe gebruikers
Een van die eenvoudigste toepassings van ’n ontleding van twiets is wie die plasings gemaak het. Dit kan byvoorbeeld so wees dat sommige gebruikers gereeld oor Orania twiet en ’n besondere belangstelling in die gemeenskap toon, of andersins kan dit betekenisvol wees wat die amptelike kanale van politieke partye oor Orania twiet.
Verder sou ’n wie-twiet-na-wie-netwerk saamgestel kon word deur die gebruikers te onttrek soos hier bo verduidelik, waarna ’n netwerkontleding onderneem kan word om die belangrikste gebruikers te identifiseer. Daar bestaan ’n verskeidenheid maatstawwe waarmee die belangrikheid van die individuele nodus in ’n netwerk bepaal kan word, insluitend graad-, nabyheid- en tussenliggingsentraliteit (Freeman 1977), Eigenvektorsentraliteit (Bonacich 1987), PageRank (Brin en Page 1998) en Hyperlink-Induced Topic Search (HITS), die algoritme onderliggend aan Yahoo! (Kleinberg 1999). Graadsentraliteit meet die getal direkte skakels wat ’n nodus het en is gewoonlik ’n aanduiding van aktiwiteit. Waar die rigting van skakels aangedui is, kan ook onderskei word tussen in- en uitgraad; nodusse met ’n hoë ingraad is dan nodusse wat gereeld as gesaghebbend gesien word (hulle word juis deur baie gebruikers aangespreek), terwyl nodusse met ’n hoë uitgraad baie aktiewe nodusse is wat baie gebruikers aanspreek. Nabyheidsentraliteit dui die nodusse aan wat tot die sentrum van die netwerk behoort, terwyl tussenliggingsentraliteit die nodusse uitlig wat ’n brug tussen nodusse vorm en gereeld die leiersfigure in ’n netwerk is (Senekal 2014:101). Die PageRank-algoritme kan ook gebruik word om belangrike nodusse mee uit te lig. Dit is ontwikkel deur die stigters van Google, Sergey Brin en Lawrence Page (1998), en is reeds vir vele jare ’n belangrike komponent (maar nie die enigste komponent nie) van Google se rangering van soekresultate (Newman 2010:176). In ’n sekere opsig is dit ’n verlenging van Bonacich (1987) se Eigenvektorsentraliteit, aangesien dit ook die sentraliteit van ’n nodus se bure in ag neem en nie slegs daardie nodus se direkte skakels soos die geval is met graadsentraliteit nie. PageRank werk ook soortgelyk aan spille en gesaghebbendheid soos geïdentifiseer met Kleinberg (1999) se HITS-algoritme deur meer belangrikheid toe te ken aan skakels wat van ’n belangriker nodus ontvang word (Newman 2010:707). Die grootste waarde van hierdie sentraliteitsaanduiders lê egter daarin om hulle saam en aanvullend te gebruik, aangesien elkeen belangrikheid in ’n sekere opsig aandui.
Soos in die vorige afdeling bespreek, is daar ’n groot aantal twiets wat oor ander voorkomste van die kernwoord orania handel, byvoorbeeld die hotel in Berlyn. ’n Mens sou sulke vermeldings kon verwyder deur slegs op Engelse twiets te fokus, maar daar word soms in Engels oor die hotel getwiet, terwyl nie alle vermeldings van Orania in Engels plaasvind nie. ’n Meer gesofistikeerde manier om die tersaaklike twiets te identifiseer is om te fokus op die grootste komponent in die wie-twiet-na-wie-netwerk: dit is onwaarskynlik dat iemand oor beide die dorpie en die hotel sal twiet. Om hierdie rede is die hele netwerk saamgestel, wat bestaan uit 7 916 nodusse (gebruikers) en 11 920 skakels (interaksies), waarna die komponente geïdentifiseer is wat onderling verbind is. ’n Hoofkomponent kan hieruit onttrek word wat bestaan uit 5 870 nodusse en 9 886 skakels. Die netwerk lyk soos in figuur 7, soos gevisualiseer met behulp van die kraggebaseerde uitlegalgoritme van Jacomy, Venturini, Heymann en Bastian (2014).
Figuur 7. Die wie-twiet-na-wie-netwerk
Dit sou etiese implikasies hê om die aktiefste gebruikers se name en sentraliteite hier te lys, maar daar kan wel aangedui word dat alhoewel daar oorvleueling is ten opsigte van bogenoemde sentraliteitsaanduiders, daar ook groot verskille voorkom. Figuur 8 dui die korrelasies tussen ’n paar sentraliteitsaanduiders aan met verwysing na die wie-twiet-na-wie-netwerk: PageRank en tussenliggingsentraliteit (r = 0,11, ’n baie swak korrelasie), ingraad en gesaghebbendheid (r = 0,92, ’n baie sterk korrelasie), PageRank en Eigenvektorsentraliteit (r = 0,95, ’n baie sterk korrelasie) en graad- en tussenliggingsentraliteit (r = 0,22, ’n swak korrelasie). Hieruit kan gesien word dat PageRank en Eigenvektorsentraliteit gereeld dieselfde nodusse uitlig, soos die geval is met ingraad en gesaghebbendheid, maar dat ’n groot verskil tussen tussenliggingsentraliteit en PageRank en tussen graad- en tussenliggingsentraliteit bestaan.
Figuur 8. Korrelasies tussen sentraliteitsaanduiders
’n Verdere vraag is of sommige gebruikers gereeld oor Orania twiet en of gebruikers net sporadies aandag aan die onderwerp skenk. Tabel 4 toon die getal gebruikers wat n boodskappe oor Orania twiet. Die oorgrote meerderheid gebruikers (81,61%) plaas slegs een twiet oor Orania, met ’n verdere 10,69% wat slegs twee twiets plaas en 3,21% wat drie twiets plaas. ’n Klein aantal gebruikers (4,49%) plaas vier of meer twiets oor Orania. In die oorgrote meerderheid van gevalle is dit met ander woorde gebruikers wat een of twee keer oor Orania twiet en dan nie verder aandag aan die onderwerp skenk nie. Die verspreide aard van aandag aan Orania impliseer dat Pareto se beginsel ook hier teenwoordig is, soos Omand e.a. (2012:810) voorgestel het die geval is met gebruikers se deelname aan gesprekke op Twitter. Nadere ondersoek het getoon dat aktiewe gebruikers oorwegend wanopvattings oor dié gemeenskap probeer korrigeer, eerder as dat hulle bydra tot die verspreiding van wanopvattings.
Tabel 4. Die persentasie en getal gebruikers wat n boodskappe oor Orania twiet
Getal twiets van gebruiker | % van totale getal gebruikers wat n twiets plaas | Getal gebruikers |
1 | 81,61% | 5 520 |
2 | 10,69% | 723 |
3 | 3,21% | 217 |
4 | 1,64% | 111 |
5 | 0,84% | 57 |
6 | 0,53% | 36 |
7 | 0,34% | 23 |
8 | 0,31% | 21 |
9 | 0,10% | 7 |
10 | 0,13% | 9 |
11 | 0,04% | 3 |
12 | 0,06% | 4 |
13 | 0,03% | 2 |
14 | 0,01% | 1 |
15 | 0,07% | 5 |
16 | 0,06% | 4 |
17 | 0,03% | 2 |
18 | 0,06% | 4 |
19 | 0,03% | 2 |
20 | 0,01% | 1 |
21 | 0,03% | 2 |
24 | 0,01% | 1 |
27 | 0,01% | 1 |
28 | 0,01% | 1 |
29 | 0,01% | 1 |
37 | 0,01% | 1 |
41 | 0,01% | 1 |
60 | 0,01% | 1 |
71 | 0,01% | 1 |
74 | 0,01% | 1 |
192 | 0,01% | 1 |
6.3.2 Die datum van plasing
Die datum van plasing laat ’n mens toe om ondersoek in te stel na of daar ’n toename of afname in die aantal twiets was wat Orania noem, asook om dae te identifiseer wanneer Orania meer gereeld op Twitter genoem word. Figuur 9 dui ’n paar skerp toenames aan (hier is Duitse, Poolse en Filippynse twiets verwyder).
Figuur 9. Die getal twiets per dag
Die eerste skerp toename het op 30 Oktober 2017 plaasgevind. Op hierdie dag het die landswye protesaksie teen plaasaanvalle, Swart Maandag, plaasgevind. Afrikaners is deur dele van die Suid-Afrikaanse publiek en partye soos die African National Congress (ANC), Economic Freedom Fighters (EFF), Black1stLand1st (BLF) en Cosatu van rassisme beskuldig omdat hulle nie ook teen ander vorme van misdaad betoog het nie (kyk byvoorbeeld Khoza 2017a en Mphahlele 2017), en wanneer rassisme genoem word, word Orania ook meer gereeld genoem. Hierdie reaksie op Swart Maandag word krities deur Mulder (2017) beskou.
Op 29 Desember 2017 het ’n nog skerper toename plaasgevind, met een boodskap wat meer as ’n 100 keer gedeel is: “AfriForum and Solidarity must go open their university in Orania. #LanguagePolicy.” Dít was in reaksie op die Konstitusionele Hof se uitspraak dat die Universiteit van die Vrystaat (UV) hul verengelsingsbeleid mag deurvoer, en die boodskap is vergesel van die foto in figuur 10.
Figuur 10. Die twiet oor die UV se taalbeleid
’n Volgende skerp toename het tydens die heropening van skole in Januarie 2018 plaasgevind. Dié toename gaan gepaard met die betogings by Hoërskool Overvaal oor die voortgesette gebruik van Afrikaans as onderrigtaal. ’n Plasing wat op die Orania Beweging se Facebookblad geplaas is, waar graad 1-kinders in die CVO-skool Orania met die begin van hul eerste skooldag afgeneem is, is wyd op sosiale media gedeel. Teen die agtergrond van bewerings van rassisme by Hoërskool Overvaal het belangstelling in Orania ook in hierdie konteks opgevlam. Een van die reaksies was die volgende: “When done with #HoërskoolOvervaal, protest action should be planned against Orania. All roads should lead to Orania!” Die twiet wat die meeste gedeel is, kan in figuur 11 gesien word.
Figuur 11. Die onderwystwiet
Op 15 Februarie 2018 het Andile Mngxitima van Black1stLand1st die volgende boodskap gedeel:
Figuur 12. Andile Mngxitima van Black1stLand1st se twiet oor Orania en Ramaphosa
Dit was een van twee twiets deur Andile Mngxitima van Black1stLand1st wat gelei het tot die skerp styging op 16 Februarie 2018, wat aandui dat Orania ook binne die konteks van algemene politieke ontwikkelinge in Suid-Afrika genoem word. Die foto wat die twiet vergesel, is egter buite konteks gebruik: dit verwys nie na Ramaphosa se verkiesing nie, maar is ’n bemarkingsfoto wat van Orania se blog geneem is en reeds ’n paar jaar oud is.
Die dag binne die ses maande lange tydperk wat hier ondersoek word waarop die meeste twiets geplaas is wat Orania genoem het, is 2 Maart 2018. Op hierdie dag het ’n gebruiker met meer as 100 000 volgelinge ’n twiet geplaas wat AfriForum se kritiek op die Nelson Mandela-stigting se versoek om die ou Suid-Afrikaanse landsvlag as haatspraak verklaar te kry, verdoem: “@EFFSouthAfrica please table a motion to disband Orania, declare #AfriForum as a right wing movement and ensure they feel the heat!” Dié boodskap betrek Orania by nog ’n debat waarby Afrikaners betrokke is, alhoewel Orania geen openbare stellings van sy eie oor die ou landsvlag uitgereik het nie.
Om bostaande toenames saam te vat: Orania word meer gereeld genoem wanneer sake op Twitter bespreek word wat Afrikaners raak: plaasaanvalle (Swart Maandag), Afrikaans as onderrigtaal (die hofuitspraak oor die UV se taalbeleid en Hoërskool Overvaal), die verkiesing van ’n nuwe president en die gesprekke rondom die verbanning van die ou landsvlag.
6.3.3 Emosionaliteit en sentiment volgens tema
Die onttrekking van temas en die identifisering van sentiment en emosionaliteit wat in die vorige afdeling bespreek is, kan ook in kombinasie gebruik word om meer te wete te kom oor die aard van twiets oor Orania. Figuur 13 gee ’n opsomming van watter onderwerpe gemiddeld watter sentiment dra en watter onderwerpe meer emosionele twiets bevat.
Figuur 13. Sentiment en emosionaliteit volgens tema
Links op die figuur kan gesien word dat taal oorwegend in die sterkste terme verwoord word, gevolg deur die kombinasie van rassisme en taal en rassisme en grond. Wanneer twiets net oor onderrig handel, word die boodskap nie in sterk emosionele terme verwoord nie, maar wanneer onderrig in rassistiese terme bespreek word (byvoorbeeld die diskoers rondom Hoërskool Overvaal), word baie meer emosioneel gelaaide boodskappe geplaas.
Regs kan die gemiddelde sentimente van twiets gesien word: taal en onderrig word gemiddeld op ’n positiewe wyse oor getwiet (wanneer beide temas in dieselfde twiet voorkom), terwyl die negatiefste twiets oor rassisme en grond handel en die tweede negatiefste twiets oor rassisme en onderrig. Hierin herken ’n mens die diskoers rondom Hoërskool Overvaal en die diskoers rondom grondonteiening wat sedert die ANC se 54ste Nasionale kongres in Desember 2017 wyd bespreek word.
6.3.4 Emosionaliteit volgens hutsmerker
Dieselfde metode kan gevolg word om die emosionele waarde te bepaal wat aan hutsmerkers gekoppel is. Tabel 5 dui die negatiefste hutsmerkers in hierdie korpus aan.
Tabel 5. Die negatiefste hutsmerkers
Hutsmerker | Gemiddelde sentiment |
#AfriForum | -0,9000 |
#racism | -0,7000 |
#farmattacks | -0,6000 |
#TheBigDebate | -0,6000 |
#EFF | -0,5000 |
#HoerskoolOvervaal | -0,5000 |
#Resortracism | -0,5000 |
#ZumaImpeachment | -0,5000 |
#Afrikaners | -0,4000 |
#AndrewKenney | -0,4000 |
#ZumaResigns | 0,0000 |
6.4 Verspreiding
Verspreiding behels die kommunikasie van bevindinge aan die nodige rolspelers sodat intelligensie optrede kan ingee. Bogenoemde interaktiewe gebruikerskoppelvlak in Tableau is hiervoor geskep om al bogenoemde tendense duidelik te kan kommunikeer. Grafieke is so eenvoudig moontlik saamgestel ten einde tendense aan ’n gehoor te kan verduidelik wat nie noodwendig ’n agtergrond in statistiek het nie. Na aanleiding van ’n inligtingsessie in Maart 2018 is daar ook ’n maandelikse inligtingsessie met besluitnemers in werking gestel.
7. Gevolgtrekking
Lim (2016:631) skryf in ondubbelsinnige terme oor die potensiaal van grootdata: “Big Data analytics is an unmistakable force multiplier in the grand intelligence campaign to minimize uncertainty.” Dit kom egter gepaard met uitdagings ten opsigte van die volume, verskeidenheid, snelheid en betroubaarheid van die data wat versamel en ontleed moet word. Grootdata, en spesifiek die monitering van sosiale media, verg meer gevorderde vaardighede ten opsigte van dataversameling, -verwerking en -ontleding, maar het ’n bewese voordeel wanneer massa-optredes en -geweld ter sprake is. In die huidige konteks van gemeenskapsveiligheid is dié metode reeds met vrug aangewend om konflik te voorkom (naamlik die potensiële konflik met Cosatu in 2017), maar slegs die tyd sal leer tot watter mate dit in die toekoms in staat sal wees daartoe om gemeenskappe te help veilig hou.
Socmint vervang egter nie ander intelligensiedissiplines nie en funksioneer eerder bykomend: HUMINT bly byvoorbeeld belangrik, al verbreed Socmint die totale intelligensieprentjie. Dit sal dwaas wees om alleenlik op ’n enkele bron van inligting te vertrou.
Boonop is Twitter slegs een van vele sosiale-media-platforms. Instagram, Facebook en ander platforms soos blogs word ook gemonitor, maar in die geval van Facebook bly daar uitdagings ten opsigte van die toegang tot data. In die geval van Instagram word data, soos met Twitter, op ’n deurlopende wyse intyds gemonitor, maar met enkele uitsonderings is plasings op hierdie platform nie van ’n politieke aard nie.
Die sleutelkwessie uit die huidige studie is dat Socmint gebruik kan word om wanopvattings te identifiseer deur ’n algemene gevoel oor ’n onderwerp te bekom. Wanneer wanopvattings en relevante rolspelers geïdentifiseer is, kan daar deur konstruktiewe gesprekvoering met rolspelers in gesprek getree word en wanopvattings kan reggestel word, wat konflik kan verhoed. In die huidige Suid-Afrikaanse opset met die diskoers rondom grondonteiening is dit van besondere belang, aangesien wanopvattings die potensiaal het om tot bloedvergieting en die verbrokkeling van die Suid-Afrikaanse samelewing te lei.
Bibliografie
Akhgar, B., S. Bayerl en F. Sampson (reds.). 2016. Open source intelligence investigation. From strategy to implementation. Springer. Plek van uitgawe onbekend.
Antonius, N. en L. Rich. 2013. Discovering collection and analysis techniques for social media to improve public safety. The International Technology Management Review, 3(1):42–53.
Arslan, C. en M. Yanık. 2015. How to make social media more effective as an exploitation area?. Journal of Military and Information Science, 3(3):79–87.
Assunção, Marcos D., R.N. Calheiros, S. Bianchi, M.A.S. Netto en R. Buyyab. 2015. Big data computing and clouds: Trends and future directions. Journal of Parallel Distributed Computing, 79/80:3–15.
Barge, J. en M. Endsor. 2014. A structural analysis of social media networks. Londen: The International Centre for Security Analysis, The Policy Institute at King’s College.
Barrett, B. 2016. Twitter may have cut spy agencies off from its flood of data. https://www.wired.com/2016/05/twitter-dataminr-intelligence-community (17 Augustus 2018 geraadpleeg).
Biermann, J., R. Korsnes, J. Rohmer en C. Ündeger. 2004. From unstructured to structured information in military intelligence – some steps to improve information fusion SCI 158 Paper 3. Ankara: Bilkent University Department of Computer Engineering. http://www.cs.bilkent.edu.tr/~cagatay/SCI-158-Paper-No3-FinalVersion.pdf.
Bonacich, P. 1987. Power and centrality: A family of measures. The American Journal of Sociology, 92:1170–82.
Bose, R. 2008. Competitive intelligence process and tools for intelligence analysis. Industrial Management en Data Systems, 108(4):510–28.
Brei, W. 1996. Getting intelligence right: The power of logical procedure. Washington: Joint Military Intelligence College.
Brin, S. en L. Page. 1998. The anatomy of a large-scale hypertextual web search engine. Proceedings of the Seventh International Conference on the World Wide Web, ble. 107–17.
Bruls, F. en A.W. Dorn. 2014. Human security intelligence: Towards a comprehensive understanding of complex emergencies. In Hobbs e.a. (reds.) 2014.
Cloete, C. 2016. EFF doen vriendelike “verrassingsaanval” op Orania. Volksblad, 6 Junie, bl. 1.
Davenport, T.H. 2014. Big Data @ work. Dispelling the myths, uncovering the opportunities. Boston: Harvard Business Review Press.
Day, T., H. Gibson en S. Ramwell. 2016. Fusion of Osint and Non-Osint data. In Akhgar e.a. (reds.) 2016
De Klerk, F. 2017. Onderhoud oor die EFF se besoek aan Orania. Onderhoud gevoer in Orania op 31 Julie.
Dencik, L., A. Hintz en Z. Carey. 2017. Prediction, pre-emption and limits to dissent: Social media and big data uses for policing protests in the United Kingdom. New Media & Society, 20(4):1–18.
Department of the US Army. 2012. ADRP 2-0 Intelligence. Department of the US Army. Plek van uitgawe onbekend.
Everton, S. 2009. Tracking, destabilizing, and disrupting dark networks with social network analysis. Monterey, CA: CORE Lab, Department of Defense Analysis, Naval Postgraduate School.
Fihlani, P. 2014. Inside South Africa's whites-only town of Orania. http://www.bbc.com/news/world-africa-29475977 (10 Julie 2017 geraadpleeg).
Findlay, K. 2015. The birth of a movement: #FeesMustFall on Twitter. https://www.dailymaverick.co.za/article/2015-10-30-the-birth-of-a-movement-feesmustfall-on-twitter/#.Wn1UvpP1Vn4 (14 Februarie 2018 geraadpleeg).
Freeman, L.C., 1977. A set of measures of centrality based on betweenness. Sociometry, 40(1):35–41.
Gibson, H. 2016. Acquisition and preparation of data for Osint investigations. In Akhgar e.a. (reds.) 2016.
Gibson, S.D. 2014. Exploring the role and value of open source intelligence. In Hobbs e.a. (reds.) 2014.
Grant, W.J., B. Moon en J.B. Grant. 2010. Digital dialogue? Australian politicians' use of the social network tool Twitter. Australian Journal of Political Science, 45(4):579–604.
Gupta, A. en P. Kumaraguru. 2012. Credibility ranking of tweets during high impact events. Plek van uitgawe en uitgewer onbekend.
Harris, R. 2016. More data will be created in 2017 than the previous 5,000 years of humanity. https://appdevelopermagazine.com/4773/2016/12/23/more-data-will-be-created-in-2017-than-the-previous-5,000-years-of-humanity- (21 Augustus 2017 geraadpleeg).
Helmus, T.C. en E. Bodine-Baron. 2017. Empowering ISIS opponents on Twitter. Perspective. https://www.rand.org/content/dam/rand/pubs/perspectives/PE200/PE227/RAND_PE227.pdf
Hendrikse, B., M.B. Habib en M. van Keulen. 2017. ISIS in the eyes of the Dutch. CEUR-WS.org, 28–33. Plek van uitgawe onbekend.
Hiippala, T. 2017. Recognizing military vehicles in social media images using deep learning, ble. 1–6.Plek van uitgawe en uitgewer onbekend.
Himelboim, I., S. McCreery en M. Smith. 2013. Birds of a feather tweet together: Integrating network and content analyses to examine cross-ideology exposure on Twitter. Journal of Computer-Mediated Communication, 18:154–74.
Hitzler, P. en K. Janowicz. 2013. Linked data, big data, and the 4th paradigm. Semantic Web, 4:233–35.
Hobbs, C., M. Moran en D. Salisbury. 2014. Introduction. In Hobbs e.a. (reds.) 2014.
Hobbs, C., M. Moran en D. Salisbury (reds.). 2014. Open source intelligence in the twenty-first century. New approaches and opportunities. New York: Palgrave Macmillan.
Internet Live Stats 2018. Twitter Usage Statistics. http://www.internetlivestats.com/twitter-statistics (1 Februarie 2018 geraadpleeg).
Jacomy, M., T. Venturini, S. Heymann en M. Bastian. 2014. ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi Software. PLoS ONE, 9(6):e98679.
Jin, X., B.W. Wah, X. Cheng en Y. Wang. 2015. Significance and challenges of big data research. Big Data Research, 2:59–64.
Kemp, S. 2017. Digital in 2017: Global overview. https://wearesocial.com/special-reports/digital-in-2017-global-overview (9 April 2018 geraadpleeg).
Khan, J. 2014. The tribe living in isolation in Orania. The New Age, 9 Januarie, bl. 10.
Khoza, A. 2017a. All lives matter, not just whites – ANC on #BlackMonday march. https://www.news24.com/SouthAfrica/News/all-lives-matter-not-just-whites-anc-on-blackmonday-march-20171030 (11 Maart 2018 geraadpleeg).
—. 2017b. New social media research finds xenophobia rife among South Africans. https://www.news24.com/SouthAfrica/News/new-social-media-research-finds-xenophobia-rife-among-south-africans-20170404 (14 Februarie 2018 geraadpleeg).
Klausen, J. 2015. Tweeting the Jihad: Social media networks of Western foreign fighters in Syria and Iraq. Studies in Conflict en Terrorism,38(1):1–22.
Kleinberg, J. 1999. Authoritative sources in a hyperlinked environment. Journal of the Association for Computing Machinery, 46:604–32.
Kotzé, E. en B. Senekal. 2018. Employing sentiment analysis for gauging perceptions of minorities in multicultural societies: An analysis of Twitter feeds on the Afrikaans community of Orania in South Africa, The Journal for Transdisciplinary Research in Southern Africa. Ter perse.
Krige, P. 2017. Onderhoud oor die EFF se besoek aan Orania. Onderhoud gevoer in Orania op 31 Julie.
Kwiatkowski, S. 2018. Machine learning as a service: Part 1 sentiment analysis: 10 applications and 4 services. https://towardsdatascience.com/machine-learning-as-a-service-487e930265b2 (15 Augustus 2018 geraadpleeg).
Laney, D. 2001. 3D-Data Management: Controlling data: Volume, velocity and variety. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf (8 Augustus 2014 geraadpleeg).
Lim, K. 2016. Big data and strategic intelligence. Intelligence and National Security, 31(4):619–35.
Maclean, S. en E. Miller. 2010. Apartheid's last stand: Inside South African village Orania where 800 Afrikaners cling to all-whites culture. http://www.mirror.co.uk/news/uk-news/apartheids-last-stand-inside-south-260868 (10 Julie 2017 geraadpleeg).
Mayer-Schönberger, V. en K. Cukier. 2013. Big data: A revolution that will transform how we live, work and think. Londen: John Murray.
McNally, P. 2010. Orania tourism: Come gawk at the racists. http://thoughtleader.co.za/paulmcnally/2010/02/01/orania-tourism-come-gawk-at-the-racists (20 September 2017 geraadpleeg).
Mphahlele, M.J. 2017. #BlackMonday: BLF slams “racist” farm murder protest. https://www.iol.co.za/news/politics/justice-safety/blackmonday-blf-slams-racist-farm-murder-protest-11785002 (31 Maart 2018 geraadpleeg).
Mulder, C. 2017. #SwartMaandag se dubbele standaarde. https://maroelamedia.co.za/debat/meningsvormers/swartmaandag-se-dubbele-standaarde (9 April 2018 geraadpleeg).
Newman, M.E. 2010. Networks. Oxford: Oxford University Press.
Ngugi, F. 2017. Whites-only town in SA is a sign of continued white supremacy. https://face2faceafrica.com/article/whites-town-sa-sign-continued-white-supremacy (20 September 2017 geraadpleeg).
Omand, D., J. Bartlett en C. Miller. 2012. Introducing Social Media Intelligence (Socmint). Intelligence and National Security, 27(6):801–23.
Omand, D., C. Miller en J. Bartlett. 2014. Towards the discipline of Social Media Intelligence. In Hobbs e.a. (reds.) 2014.
Orania Beweging. 2018. Gemeenskap neem self verantwoordelikheid vir veiligheid. Nuusbrief van die Orania Beweging, 26 Februarie.
Pareto, V. 1897. Le cours d’economie politique. Londen: Macmillan.
Pienaar, T. 2007. Die aanloop tot en stigting van Orania as groeipunt vir ’n Afrikaner-volkstaat. MA-verhandeling, Universiteit Stellenbosch.
QWERTY 2017. The digital landscape in South Africa 2017. A data driven look at South Africa’s relationship with digital. http://qwertydigital.co.za/wp-content/uploads/2017/08/Digital-Statistics-in-South-Africa-2017-Report.pdf (24 Januarie 2018 geraadpleeg).
Ressler, S. 2006. Social Network Analysis as an approach to combat terrorism: Past, present, and future research. Homeland Security Affairs, 2(2):1–10.
Roberts, N. 2011. Tracking and disrupting dark networks: Challenges of data collection and analysis. Information Systems Frontiers, 13:5–19.
Senekal, B.A. 2012. ’n Inligtingstegnologie-gesentreerde gebruikerskoppelvlak vir navorsingsdoeleindes binne die geesteswetenskappe met spesifieke verwysing na die Afrikaanse letterkunde. LitNet Akademies Geesteswetenskappe, 9(2):468–99. https://www.litnet.co.za/assets/pdf/7GWSenekal.pdf
—. 2014. Mapping a dark network with Social Network Analysis (SNA): The right-wing Vaal Dam bomb plot. Journal for Contemporary History, 39(1):95–114.
Senekal, B.A. en S. Brokensha. 2014. Surfers van die tsunami. Navorsing en inligtingstegnologie binne die Geesteswetenskappe. Bloemfontein: SunPress.
Shin, J., L. Jian, K. Driscoll en F. Bar. 2016. Political rumoring on Twitter during the 2012 US presidential election: Rumor diffusion and correction. New Media & Society, 19(8):1214–35.
Statista. 2018. Most popular social networks worldwide as of January 2018, ranked by number of active users (in millions). https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users (1 Februarie 2018 geraadpleeg).
Theocharis, Y., W. Lowe, J.W. van Deth en G. García-Albacete. 2015. Using Twitter to mobilize protest action: Online mobilization patterns and action repertoires in the Occupy Wall Street, Indignados, and Aganaktismenoi movements. Information, Communication en Society, 18(2):202–20.
Thomas, J. en K. Cook. 2006. A visual analytics agenda. IEEE Computer Graphics and Applications, 26(1):10–13.
Tremayne, M. 2014. Anatomy of protest in the digital era: A Network Analysis of Twitter and Occupy Wall Street. Social Movement Studies, 13(1):110–26.
Tumasjan, A., T.O. Sprenger, G. Sandner en I.M. Welpe. 2010. Predicting elections with Twitter: What 140 characters reveal about political sentiment. Association for the Advancement of Artificial Intelligence, ble.178–85. Plek van uitgawe onbekend.
Wibberley, S. en C. Miller. 2014. Detecting events from Twitter: Situational awareness in the age of social media. In Hobbs e.a. (reds.) 2014.
Wildenboer, N. 2017. Cosatu slams Orania’s digital currency plan. https://www.iol.co.za/news/south-africa/northern-cape/cosatu-slams-oranias-digital-currency-plan-10519484?utm_source=twitterenutm_medium=social (16 Februarie 2018 geraadpleeg).
Wright, P. 2013. Meet Prism's little brother: Socmint. http://www.wired.co.uk/article/Socmint (1 Februarie 2017 geraadpleeg).
LitNet Akademies (ISSN 1995-5928) is geakkrediteer by die SA Departement Onderwys en vorm deel van die Suid-Afrikaanse lys goedgekeurde vaktydskrifte (South African list of Approved Journals). Hierdie artikel is portuurbeoordeel vir LitNet Akademies en kwalifiseer vir subsidie deur die SA Departement Onderwys.