11Kock.qxd


SYNOPSIS

In plurilingual and multicultural countries tests can be translated

or adapted into more than one language for use across diverse

language groups. It is commonly accepted that tests which are

translated or adapted have to be evaluated for equivalence, that is

to say, the extent to which test scores have the same meaning across

groups. On the other hand, tests are often available in only one

language, but are used across more than one language or cultural

group. They could be called ‘monolingual tests’. In South Africa, as

is the case elsewhere in the world, it is a common practice to use

monolingual tests to make decisions about admission into tertiary

education. These tests are not always e valuated for their

applicability across groups to the same extent as with adapted tests.

The overall aim of the study is to evaluate this practice by presenting

an over view of the literature and by conducting an empirical study.

A comprehensive review of the literature led to the acceptance of a

theoretical framework of test equivalence, as it was formulated by

Van de Vijver, Poortinga and others, to conceptualise and focus the

empirical section of the study. This framework conceptualises test

bias in terms of test equivalence. Some of the most salient issues in

the literature will be discussed as the different approaches to these

issues have serious implications for fair admissions testing practices

in South Africa. The aim of the empirical section of this study was

accordingly, as a case study, to evaluate the bias and subsequently,

the equivalence, across language groups, of a test of reading

comprehension, available only in English, but which is used across

language groups to decide about admission to university. The results

of the study indicated that a large proportion of items displayed

unacceptable levels of differential functioning, or DIF, across three

language groups, namely English and Afrikaans students and

students speaking African languages, mainly Xhosa. The structural

equivalence of the test was also a problem. DIF accounted for some

of these differences. However, structural non-equivalence between

the English and non-English speakers continued to be found even

after the removal of the DIF items from the test. The lack of

structural equivalence continued to have practical implications.

The implications of these results for the practice of admissions

testing in SA are discussed.

Hierdie studie het as sy oorkoepelende oogmerk ’n kritiese

bespreking van die praktyk om eentalige toetse vir toelating tot

tersiêre onderwys in Suid Afrika (SA) te gebruik. Internasionaal

raak dit ’n algemene praktyk om opvoedkundige toetse, selfs

toelatingstoetse, wat in heterogene taal- en kultuur-

groepsverband gebruik word, te vertaal en dan seker te maak dat

die vertaling geskik is (sien bv Beller, 1994 vir toelatingspraktyke

in Israel; Robin, Sireci & Hambleton, 2003). ’n Belangrike

eienskap van al die toelatingstoetse in SA is egter dat hulle

geadministreer word in die taal van onderrig aan tersiêre

instellings, meestal Engels en soms Afrikaans. Dit is die geval ten

spyte daarvan dat die toetse in weinig gevalle ’n direkte toets van

taalvaardigheid is en meer dikwels toetse van akademiese

geletterdheid, wiskundige vaardigheid of potensiaal (sien

byvoorbeeld Yeld, 2001). Die toetse word aan beide eerste- en

tweedetaal sprekers van die taal van onderrig geadministreer

sonder om enige onderskeid te tref in die hantering/interpretasie

van die toetstellings van die twee groepe. Die argument is dat die

student haar vaardigheid in die taal van onderrig moet

demonstreer en dat hierdie praktyk dus sonder meer geregverdig

is (Yeld, 2001). 

Dié argument klink korrek, maar sal nie sonder meer standhou

indien dit in terme van die standaarde wat vir sielkundige en

opvoedkundige toetsing gestel word, geëvalueer word nie.

Internasionale riglyne oor evaluering en toetsing in heterogene

verband is besig om sterker klem te begin lê op die rigiede

evaluering van toetse vir gebruik in heterogene kultuur of

ELIZE KOCH
elize.koch@nmmu.ac.za

Nelson Mandela Metropolitaanse Universiteit1

ABSTRACT
The evaluation of monolingual admissions test used for admission to higher education in a plurilingual
context. This study aims to critically evaluate the practice to use monolingual admissions tests across diverse
language groups. The specific aim of the study was, accordingly, to evaluate the bias, across language groups, of

a reading comprehension test used for admission to higher education. The subsequent aim was to decide about

the scalar equivalence of the test across three language groups, namely Afrikaans and English students and

students who are first language speakers of an African language. Item bias and structural differences between the

English first and English second language groups were found, while structural differences continued to be found

after deleting the DIF items from the test. Implications for fair admissions testing in the South African context

are discussed.

OPSOMMING
Hierdie stukkie het dit ten doel om die praktyk om eentalige toelatingstoetse oor taalgroepe heen te gebruik, krities

te evalueer. Die oogmerk van die studie was gevolglik om ’n toets van leesbegrip wat vir toelating tot universiteit

gebruik word en wat slegs in Engels beskikbaar is, te evalueer vir sydigheid. Die uiteindelike oogmerk was om oor

die skaalekwivalensie van die toets ten opsigte van drie taalgroepe te besluit, naamlik Afrikaanse en Engelse studente

en studente met ’n Afrika taal as eerste taal. Item sydigheid en strukturele verskille tussen Engels eerstetaal sprekers

en Engels tweedetaal sprekers is gevind, terwyl strukturele verskille na die verwydering van die DIF items voorgeduur

het. Implikasies vir billike toelatingstoetsing in Suid-Afrika word bespreek.

Key words
Mondingual tests, cross-lingual testing, admissions testing bias and equivalence

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 
WAT VIR TOELATING TOT HOËR ONDERWYS 
IN ’N VEELTALIGE KONTEKS GEBRUIK WORD

90

SA Journal of Industrial Psychology, 2007, 33 (1), 90-101

SA Tydskrif vir Bedryfsielkunde, 2007, 33 (1), 90-101

1 Dank word betuig aan die Centre for Access Assessment and Research, HEADS by die NMMU vir die gebruik van die data vir die studie, en aan Cheryl Foxcroft, NMMU, en Stephan Sireci, University

of Massachucetts at Amherst, VSA, vir hulle bydrae as promotors tot die oorspronklike DPhil studie. 


taalverband sowel as vereistes ten opsigte van die interpretasie

van die toetstellings van heterogene groepe. Terwyl daar steeds

kritiek uitgespreek kan word oor die gebrek aan duidelikheid in

hierdie riglyne, veral ten opsigte van eentalige toetse (Koch,

2005a), kan die verskuiwing na ’n klem op billike toetsing oor

groepe heen as ’n prysenswaardige ontwikkeling beskou word.

So kan daar byvoorbeeld na die hersiende APA Standards for

Educational and Psychological Testing (AERA et al, 1999) en die

stel van 22 riglyne vir die vertaling en/of aanpassing van toetse

in verskillende tale verwys word (Hambleton, 2001;

International Test Commission, 2000; Van de Vijver &

Hambleton, 1996). Die leser wat geïnteresseerd is, word verwys

na die webblad vir die volledige riglyne oor die aanpassing van

toetse: www.intestcom.org/adapt/adapt_test.htm. 

In SA bestaan daar nie spesifieke riglyne nie en bogenoemde

internasionale riglyne word meestal as relevant vir die SA

konteks aanvaar (Huysamen, 2002). Die problematiek van

toetsing in heterogene verband in SA word wel in wetgewing

aangespreek. So word daar byvoorbeeld in die Employment

Equity Act No 55 (1998) vereis dat daar bewyse van die

geldigheid en betroubaarheid van toetse vir gebruik in

heterogene groepe moet bestaan voordat hulle aangewend mag

word vir keuring, terwyl duidelike vereistes ook daargestel word

vir die aanwending van maatreëls om regstellende aksie te

implimenteer. 

Hierdie wet het verreikende implikasies vir sielkundige en

opvoedkundige toetsing in SA, omdat instansies nou

verantwoordelik gehou word vir bewyse oor die toepaslikheid

van toetse wanneer hulle die toetse in heterogene verband

gebruik. Dit is egter belangrik om te onthou dat die klem in

hierdie wet nie net val op die toepaslikheid van die toetse vir

gebruik in heterogene verband nie, maar ook op die impak van

die toetsing op die seleksie van kandidate uit voorheen-

benadeelde groepe. Dit mag wees dat beduidend minder

kandidate uit hierdie groepe afsnypunte op die toetse maak as

gevolg van, byvoorbeeld, onderwys opleiding wat steeds

onderstandaard is vir baie individue uit hierdie groepe. Dit het

dan wel ander implikasies soos die onderverteenwoordiging van

sekere groepe, ook genoem differensiële impak, wat by wyse van

kwotas en verdere opleiding aangespreek moet word. Die

spesifieke fokus van hierdie artikel is egter nie op hierdie aspek

nie, maar op die toepaslikheid van toetse vir gebruik in

heterogene groepe. Dit impliseer egter nie dat die problem van

differensiële impak nie belangrik is en aandag moet geniet nie. 

In die konteks van Hoër Onderwys bestaan daar nie spesifieke

wetgewing oor toetsing vir keuring nie. Bogenoemde wet word

egter wel op hierdie tipe van toetsing ook van toepassing

gemaak. Die vereiste van bewyse oor geldigheid en

betroubaarheid vir gebruik in heterogene groepe is in die

konteks van Hoër Onderwys dus net so streng as in die geval van

toetsing vir indiensneming, terwyl die kwessie van differensiële

impak ook baie relevant is. 

By ’n ondersoek na die toepaslikheid van toetse vir gebruik in

heterogene groepe is die konsep van ‘sydigheid’ baie belangrik.

‘Toets-sydigheid’ word gedefineer as stoornis-faktore (dus

ongevraagde en onbedoelde faktore) wat die variansie in

toetstellings van verskillende groepe sistematies differensieel

affekteer (Van de Vijver & Poortinga, 2005). ’n Oorsig oor

debatte ten opsigte van toelatingstoetse in SA toon aan dat die

probleem van sydigheid in toetse nie voldoende aandag geniet

het nie (Koch, 2005a). Huysamen and Raubenheimer (1999) het

wel gefokus op die voorspellingsydigheid van die matrikulasie

eksamen oor etniese groepe heen. Hulle het verskille in die

snydingslyne en hellings sowel as voorspellingsfout in ’n

meergroep regressie analise ondersoek. Hulle het geen

aanduiding van voorspellingsydigheid gevind nie. Navorsing op

ander toetse in die SA verband het egter wel bewyse van veral

konstruksydigheid gevind, byvoorbeeld Claasen (1993) ten

opsigte van die New South African Group Test, Owen (1989) ten

opsigte van die Junior Aptitude Test, en Abrahams (1996, 2002)

en Meiring, van de Vijver, Rothmann en Barrick (2005) ten

opsigte van toetse soos die South African Personalit y

Questionaire en die 16 PF. Hierdie sydigheid word dikwels

toegeskryf aan gebrekkige taalvaardigheid in die taal van die

toets, naamlik Engels (Meiring et al., 2005). Sydigheid in

toelatingstoetsing is dus iets waaraan daar in konteks van ’n

veeltalige SA baie meer aandag geskenk behoort te word. 

Fokus van die studie: ’n toets van leesbegrip in Engels
In hierdie studie val die soeklig op ’n toets van leesbegrip of

akademiese geletterdheid in Engels wat gebruik word vir

toelating en/of plasing in oorbruggingsprogramme by die

Nelson Mandela Metropolitaanse Universiteit (NMMU) in Port

Elizabeth2. Die toets wat in die VSA ontwikkel is, maar aangepas

is vir die SA konteks, meet akademiese taalverwante

leesvaardighede wat geklassifseer word as, onder andere,

deduksie, inferensie en toepassing. Die toets word dus nie

beskou as ’n toets van Engelse taalvaardigheid in sigself nie en

word aan eerste- en t weedetaal sprekers van Engels

geadministreer. Eerstetaalsprekers van Engels kan arguments-

onthalwe ook sleg vaar op die toets omdat hulle nie die

vaardighede soos in die toets gemeet word, bemeester het nie. 

Akademiese geletterdheid is ’n vaardigheid wat in enige taal kan

ontwikkel. Literatuur oor tweetalige akademiese geletterdheid

toon aan dat sodanige vermoë na ’n tweede taal oorgedra word

sodra ’n sekere drumpel van taalvaardigheid in die tweede taal

bereik word (Cummins, 1984; Koda, 1994 ). Dit is waar dat sekere

taalkundige verskille tussen twee tale, sowel as gebrekkige

bemeestering van ’n tweede taal, leesvermoë in ’n tweede taal

kan affekteer (Koda, 1994). ’n Toets van leesvaardigheid moet

egter nie die kanse van tweedetaal lesers om te demonstreer dat

die vereiste vaardigheid wel aangeleer is, benadeel nie. Daar is

heelwat navorsing wat aantoon dat akademies vaardige studente

wat ’n hoë vlak van akademiese leesvaardigheid in hulle eerste

taal het, dikwels akademies beter vaar in ’n tweede taal as wat uit

hulle oënskynlike taalvaardigheid in die tweede taal aanvaar kan

word (onder andere, Adamson, 1993). Navorsing het ook

aangetoon dat t weedetaal- en eerstetaal lesers in hulle

prosessering van inligting verskil en dat hulle waarskynlik van

verskillende strategieë gebruik sal maak om te verstaan wat hulle

lees (Koda, 1994; Valdés & Figueroa, 1994). 

’n Goeie leser van watter taalagtergrond ookal moet dus die

geleentheid gegee word om sy/haar vaardighede van deduksie,

inferensie en toepassing te demonstreer selfs al sou strategieë

aangewend word wat verskil van dié van ’n leser wie se eerste taal

die taal van die toets is. Met ander woorde, so ’n leestoets moet

lesers met goed ontwikkelende akademiese leesvaardighede

onderskei van lesers met swak ontwikkelde vaardighede, ongeag

taal of agtergrond en die toetstellings van die verskillende groepe

moet dieselfde betekenis hê. Dieselfde konstruk(te) moet dus by

eerste- en tweedetaal lesers gemeet word en bewys hiervan moet

verskaf word.

Die taal van onderrig by die NMMU is Engels. Die universiteit

kan as veeltalig en multikultureel beskou word deurdat

ongeveer 36% van die studentepopulasie (uitsluitend die

internasionale studente) Engelssprekend is, ingeveer 16%

Afrikaanssprekend en die res een of ander Suid Afrikaanse Afrika

taal as eerste taal het. Die oorgrote meerderheid van die laaste

groep, ongeveer 70%, is Xhosasprekend (Focus, 2004). Daar is

ook ’n klein groep internasionale studente met ’n verskeidenheid

van tale as eerste taal. Terwyl uitsluiting van Hoër Onderwys in

terme van taal in die SA konteks in sigself geproblematiseer kan

word, is dit nie die spesifieke fokus van hierdie artikel nie en

moet daar voorlopig aanvaar word dat Engelse taalvaardigheid

wel ’n rol sal speel in die akademiese prestasie van Engelse

tweedetaal sprekers aan dié universiteit. Sydigheid maak dus

moontlik deel uit van assessering op universiteit en die

argument mag wees dat sydigheid in die toets dus net hierdie

‘realiteit’ reflekteer. 

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 91

2 Die oogmerk van die artikel is nie om praktyke aan een bepaalde universiteit te kritiseer nie, maar dit as ’n gevallestudie te gebruik om ’n baie algemene praktyk aan SA tersiêre inrigtings te
problematiseer.  


Navorsing het egter aangetoon dat tweedetaal sprekers se

vermoë om inhoudsvakke in ’n t weede taal te begry p

waarskynlik beter is as hulle vermoë om verbale toetse in die

taal te prosesseer (Pennock- Roman, 1998). Verder is die

konteks in die toets onder bespreking, soos algemeen die geval

is in toelatingstoetse, beperk en die inhoud onbekend, iets wat

nie so ooglopend is in assessering op universiteitsvlak nie. 

Dit moet ook aanvaar word dat terwyl daar vir die 

doeleindes van hierdie artikel voorlopig aanvaar word dat

Engelse taalvaardigheid belangrik is vir funksionering in ’n

Engelse akademiese opset en dit ’n belangrike rol in

akademiese leesvaardigheid speel, die toetstellings van ’n

sydige toets nogtans nie vir verskillende groepe ekwivalent is

nie. ’n Sydige toets kan dus nie gebruik word om die tellings

van eerste en tweedetaal sprekers te vergelyk of op dieselfde

skaal te plaas nie. 

Om die aard van die problematiek rondom sydigheid te

verhelder, word daar eerstens ’n kort teoretiese oorsig van die

belangrikste vraagst ukke in toetsing binne heterogene 

kultuur en taalgroepverband soos dit in die internasionale

literat uur bespreek word, gegee, waarna ’n empiriese

gevallestudie van ’n eentalige leestoets wat vir toelating oor

verskillende taalgroepe gebruik word, bespreek sal word. Om

mee te begin, is dit nodig om ’n onderskeid te tref tussen

billikheid en sydigheid. Daarna sal ’n ’n teoretiese raamwerk

vir die evaluering van sydigheid en ekwivalensie in toetsing

kortliks bespreek word. 

TEORETIESE OORSIG

Die onderskeid tussen sydigheid en billikheid 
In die literatuur word billikheid en sydigheid as belangrike

vraagstukke in kruis-kulturele en -linguistiese toetsing beskou.

Die sentrale probleem wat debatte in lande soos die Verenigde

state van Amerika (VSA) onderlê, is die verskynsel dat

minderheidsgroepe wat meestal tweedetaal sprekers van Engels

of ‘African-Americans’ insluit, tot 1.8 van ’n standaard afwyking

laer presteer op toetse soos die Standardised Achievement Test

(SAT) en die American College Testing (ACT) as eertse taal

sprekers van Engels. Dit is toetse wat algemeen gebruik word vir

toelating tot prestige universiteite in die VSA. Hierdie feit

veroorsaak dat ’n beduidend kleiner ratio van studente uit

minderheidsgroepe tot hierdie universiteite toegelaat word. Dit

kan beskou word as ’n bewys van ‘differensiële impak’ en ’n

aanduiding van onbillikheid, dit is, tensy maatreëls soos

regstellende aksie of kwotastelsels geld, en het op sy beurt gelei

tot die aanwending van verskillende afsnypunte of norme vir

minderheidsgroepe (Sireci & Geisinger, 1998). Die groot verskil

in die gemiddelde prestasie van die verskillende groepe word ook

dikwels, verkeerdelik, voorgehou as ’n bewys van die inherente

sydigheid van gestandardiseerde toetse. 

In die internasionale en SA literat uur is daar algemene

verwarring oor die onderskeid tussen die twee terme, billikheid

en sydigheid, en die implikasies wat die onderskeid inhou vir

toetsing binne heterogene taal- en kultuurgroepsverband

(Camilli, 1993; Cole & Moss, 1989; Yeld, 2001). Die twee terme

word dikwels as sinomieme gebruik of word deur verskillende

teoretici op teenstrydige maniere gedefinieer. Cole and Moss

(1989) in hulle seminale werk oor sydigheid gebruik die woord

‘metingssydigheid’ (‘bias’ in Engels) in die sin van beide

billikheid én sydigheid. Hulle stel, byvoorbeeld, dat toetse wat

na ’n uitgebreide evaluering van sydigheid duidelik nie sydig is

nie, nog steeds as sydig in die sin van onbillik beskou kan word

indien minderheidsgroepe as ’n groep swakker vaar op so ’n

toets as die meerderheidsgroep. Camilli (1993) tref ’n duidelike

onderskeid en stel voor dat sydigheid ’n tegniese probleem is

wat psigometries deur statistiese metodes geëvalueer moet

word, terwyl billikheid ’n eties-morele probleem is wat deur

middel van filosofiese debatering op wetlike vlak aangespreek

moet word. Nadat daar besluit is op ’n bepaalde interpretasie

van billikheid en nadat bewys is dat ’n toets nie sydig is nie, is

die vraag dan of die uitkomste van ’n bepaalde

keuringsprosedure billik is. 

Beide hierdie groepe teoretici stel voor dat sydigheid verstaan en

geïnterpreteer moet word binne die raamwerk van

konstrukgeldigheid, soos gedefinieer deur Messick in sy

seminale werk van 1989. Dit is, daar moet omvattende bewyse

bestaan dat dieselfde konstruk of domein in die verskillende

groepe gemeet word. Dit word gedoen, onder andere, deur

middel van bewyse dat items nie moeiliker is vir sekere groepe as

vir ander groepe van dieselfde vermoë nie, dat items nie

sydigheid openbaar nie, dat dieselfde konstruk in verskillende

groepe gemeet word en om te demonstreer dat toetse dieselfde

voorspellingsgeldigheid het vir verskillende groepe, ook genoem

kriteriumverwante geldigheid. Laasgenoemde twee vereistes kan

byvoorbeeld gedemonstreer word deur statistiese tegnieke soos

faktor analise en/of regressie analise, terwyl daar ’n

verskeidenheid statistiese tegnieke en ontwerpmodelle bestaan

om eersgenoemdes te evalueer. 

Hierdie teoretici, en veral Cole en Moss (1989), stel egter voor

dat die interpretasie van sydigheid afhang van die konteks van

toetsing, ’n benadering wat tot heelwat teenstrydige

interpretasies lei. So beskou Cole en Moss, byvoorbeeld, die

differensiële effek van taalvaardigheid op die toetstellings van

tweedetaal sprekers in rekenkundige toetse as ’n bewys van

sydigheid, terwyl dieselfde effek in ’n toets van akademiese

geletterdheid nie as sydigheid beskou word nie. Ander teoretici

in dieselfde skool beskou die effek van taalvaardigheid in

rekenkundige toetse egter as deel van die konteks van die 

toets en dus nie as sydigheid nie. Dit is, selfs al sou toetslinge

beter vaar op soortgelyke toetse in hulle eie taal (Ebel &

Frisbie, 1986). 

Geisinger (1996), in teenstelling met die bogenoemde

definisies en in navolging van Cleary (1968), definieer

billikheid uitsluitlik in tegniese terme. Volgens hom beteken

dit dat toetse wat nie die prestasie van verskillende groepe

differensieël voorspel nie, as regverdig beskou kan word.

Billikheid word op die volgende manier geëvalueer: ‘Regression

lines between the predictor test and the criterion are computed for

each relevant group and their slopes, intercepts and the errors of

prediction are compared. If any of these three components ...differs

across groups, then the test is not thought to be fair’ (Geisinger,

1996, p.29). Hy beperk dus die evaluering van billikheid tot die

tegniese evaluering van slegs een aspek van geldigheid,

naamlik kriteriumverwante geldigheid. Differensiële impak

maak, volgens Geisinger, nie deel uit van die problematiek van

billikheid nie, selfs al sou dit as belangrik beskou word om dit

te ondersoek. 

Vir die doeleindes van hierdie artikel sal die bogenoemde

debatte nie in meer besonderhede bespreek word nie. Dit is

egter belangrik om kortliks kennis te dra van die volgende

tendens in die VSA, omdat dit direkte implikasies vir SA inhou

en alreeds ge-eggo word in debatte in SA asof dit sondermeer

onproblematies is. Behalwe dat die benadering wat soms daar

ten opsigte van die evaluering van sydigheid voorgehou word,

problematies is, kan die kwessie van die

onderverteenwoordiging van bepaalde groepe in die SA

verband vanuit regs- en eties-morele oogpunte nie op dieselfde

manier as in die VSA hanteer word nie. 

In die VSA word daar tans hewiglik gedebateer oor billikheid en

sydigheid in toetsing (Sireci & Geisinger, 1998). Die argument

dat billikheid in terme van differensiële impak ’n belangrike

aspek is om aan te spreek en die metodes wat voorgestel word

om dit te hanteer, soos byvoorbeeld kwotastelsels of verskillende

afsnypunte vir verskillende groepe, word tans vanuit neoliberale

konserwatiewe kringe sterk teëgestaan as omgekeerde

diskriminasie. 

KOCH92


In geregtelike terme in die VSA is daar nou bewegings om

billikheid te benader, nie meer in terme van die maatreels soos

regstellende aksie of kwotastelsels nie, maar in terme van bewyse

dat toetse nie voorspellingssydigheid openbaar nie (Sireci &

Geisinger, 1998). Dit wil sê, in terme van die voorgestelde

definisie van Geisinger (1996) en Cleary (1968), naamlik dat as

’n toets nie die prestasie van groepe differensieël voorspel nie,

die toets as billik beskou kan word. 

Verder word daar ook vereis dat items nie moeiliker mag wees

vir lede van sekere groepe as vir lede van dieselfde vermoë van

ander groepe nie (items moenie sydig wees nie). Daarna word

verwys as die evaluering van DIF of “differential item

functioning” (Sireci & Geisinger, 1998). Dié vereiste hang egter,

volgens die voorstanders van hierdie benadering, van die

konteks van die toetsing af. Met ander woorde, selfs al is sekere

items moeiliker vir lede van sekere groepe as vir lede van

dieselfde vermoë van ander groepe, kan op grond van sekere

kriteria of die oordeel van ’n groep ‘eksperts’ dat die effek deel

vorm van die konstruk van die toets, besluit word om dié items

nietemin te behou (Sireci & Geisinger, 1998). Dit word die

‘multidimensionale benadering tot DIF’ genoem en lei ook tot

heelwat teenstrydighede in die interpretasie van sydigheid, soos

vroeër bespreek. Nietemin word die laer toetstellings van sekere

groepe, na die evaluering van billikheid, dan as onproblematies

of regverdig beskou, wat die toepassing van ander kriteria soos

kwota stelsels or benaderings soos verskillende afsnypunte vir

verskillende groepe in terme van die beginsel van differensiële

impak, uitskakel. 

Ander navorsers in die VSA verband is egter besig om

bogenoemde benaderings te bet wis. Pennock-Roman

(1998,1999) het bevoorbeeld deur middel van empiriese bewyse

aangetoon dat die SAT in die geval van akademies sterk studente

wat meer vaardig in Spaans as Engels is, sterk statistiese

verwantskappe met Engelse taalvaardigheid openbaar,

byvoorbeeld, tot 36% van die variansie word in die geval van die

verbale toets deur Engelse taalvaardigheid verklaar. Daar word

dus iets anders as die konstruk van belang getoets. Pennock-

Roman stel dit duidelik dat in die geval van studente wie se

sterkste taal nie Engels is nie, hierdie toetse wel

voorspellingsgeldig kan wees, maar dat sodanige resultate

moontlik nie veel meer as net studente se taalvaardigheid in

Engels aandui nie. Haar aanbeveling vir toelatingskomitees is

dat die SAT tellings van eerste en tweedetaalsprekers van Engels

as gevolg van konstruksydigheid nie op dieselfde skaal geplaas

behoort te word vir die doeleindes van interpretasie nie, omdat

daar statisties nie ’n basis vir ’n vergelyking bestaan nie. 

Simplistiese benaderings tot die probleem van die sydigheid van

items word ook betwis. Teoretici soos van de Vijver en Tanzer

(1998) stel dit dat probleme met die konstrukgeldigheid van

toetse DIF kan verskans, omdat die evaluering van DIF

tradisioneel afhang van die aanname dat die totaaltellings op die

toets nie ook sydigheid openbaar nie. Van de Vijver en Leung

(1997) bevraagteken verder die praktyk om onder sommige

omstandighede items wat DIF openbaar in ’n toets te behou.

Volgens hulle is items wat differensiële patrone van

moeilikheidsgraad (DIF) openbaar, ’n metingsvraag en sal hulle

teenwoordigheid in ’n toets altyd die vergelyking van tellings

oor groepe heen kompromiteer. Die konsepte sal in meer

besonderhede in die volgende afdeling bespreek word, terwyl die

leser wat geïntereseerd is, verwys word na die uitgebreide

literatuur oor die onderwerp. 

Die siening dat differensiële voorspelling en DIF as voldoende

evaluering van sydigheid (hierdie navorsers noem dit billikheid)

aanvaar behoort te word, kan dus empiries, maar ook teoreties,

geproblematiseer word. In hierdie teoretiese benadering word

sydigheid met metingsekwivalensie verbind en nie net met

geldigheid, veral bloot kriteriumverwante geldigheid, nie. Die

teoretiese raamwerk in terme waarvan dit gedoen word, word in

die volgende afdeling bespreek.

’n Teoretiese raamwerk: sydigheid en ekwivalensie
Poortinga (1989) en Van de Vijver en sy medewerkers beskou die

probleem van ekwivalensie en sydigheid as dié sleutelvraag in

kruiskulturele en- linguistiese navorsing en toetsing. Volgens die

navorsers verskaf die twee konsepte oorvleuelende, maar effens

verskillende perspektiewe op die sentrale vraag of die

toetstellings van verskillende groepe dieselfde betekenis het (Van

de Vijver en Tanzer, 1998). 

Ekwivalensie is ’n tegniese term wat verwys na die skaal van

meting in terme waarvan vergelykings tussen indiwidue of

groepe gemaak kan word. Om direkte vergelykings tussen die

tellings van verskillende groepe te maak, hetsy vir

navorsingsdoeleindes of keuring, moet daar afdoende bewyse

bestaan dat die tellings van verskillende groepe op dieselfde

skaal is en dat dieselfde konstruk in die verskillende groepe

gemeet word. 

Daar is drie vlakke in die hiërargie van ekwivalensie, 

naamlik strukt urele ekwivalensie, ekwivalensie van

metingseenheid, en skaalekwivalensie (Van de Vijver & Tanzer,

1998). Strukt urele ekwivalensie t ussen groepe bestaan

wanneer dit bewys kan word dat dieselfde konstruk gemeet

word in verskillende groepe, met ander woorde, as

konstruksydigheid nie bestaan nie. Ekwivalensie van

metingseenheid verwys daarna dat die metingseenheid

dieselfde is, soos die geval is met temperatuur in Celsius en

temperatuur in Kelvin. Skaalekwivalensie is die hoogste vlak

van ekwivalensie en is ’n voorvereiste wanneer groepe

vergelyk word in navorsingsverband of wanneer die 

tellings van toetslinge in verskillende groepe op een 

skaal geplaas word vir besluitneming soos in die geval 

van keuring. Skaalekwivalensie kan nie direk bewys word 

nie, en kan slegs indirek ondersoek word deur die 

evaluering van sydigheid. Skaalekwivalensie bestaan 

wanneer dieselfde konstrukte gemeet word, en wanneer die

oorsprong van die skaal en die metingseenheid in die

verskillende groepe dieselfde is.

Die evaluering van sydigheid geskied op ’n omvattende en

geïntegreerde manier en dit word as belangrik beskou om al die

vorms van sydigheid te evalueer alvorens ’n toets in heterogene

verband aangewend kan word. Sydigheid word geklassifiseer in

konstruk- en itemsydigheid en sydigheid wat verband hou met

metodologiese faktore, soos differensiële bekendheid met

itemformaat. Konstruksydigheid toon aan dat verskillende

konstrukte in die verskillende groepe gemeet word, terwyl

itemsydigheid verwys na die nou reeds bekende DIF. DIF kan

geklassifiseer word in uniforme en nie-uniforme DIF. Uniforme

DIF beteken dat ’n item ’n bepaalde groep, ongeag vermoë,

bevoordeel, terwyl in die geval van nie-uniforme DIF die

helling van die regressie van die item op die latente konstruk

oor groepe heen verskil (Jodoin & Gierl, 2001). In al die gevalle

bestaan daar ’n verskeidenheid van statistiese en

ontwerpmetodes wat gevolg kan word om sydigheid te evalueer

(Van de Vijver & Tanzer, 1998).

Navorsers soos Van de Vijver en Tanzer, (1998), Van de 

Vijver en Lueng (1997), Helms-Lorenz en Van de Vijver (1995)

en Poortinga (1989) gaan van die veronderstelling uit 

dat toetse wat sydigheid openbaar se toetstellings noodwendig

nie dieselfde betekenis in verskillende groepe het nie, of 

op dieselfde skaal is nie (dus nie ekwivalent nie) en dat dié

groepe se toetstellings dus nie vergelyk kan word of op

dieselfde skaal geplaas kan word vir interpretasie nie. Toetse

nie inherent sydig of nie sydig nie; dit moet in elke nuwe

konteks van gebruik, gedemonstreer word (Helms-Lorenz &

Van de Vijver, 1995). 

Konstruksydigheid affekteer strukturele ekwivalensie. DIF en

sydigheid wat verband hou met metodologiese faktore affekteer

soms, soos in die geval van nie-uniforme item sydigheid, maar

nie altyd nie, strukturele ekwivalensie. Hulle affekteer wel altyd

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 93


skaalekwivalensie. DIF of sydigheid wat verband hou met

metodologiese faktore verander die oorsprong van die skaal en

mag die metingseenheid ook affekteer (van de Vijver & Leung,

1997). Bewyse van enige vorm van sydigheid word dus as ’n

aanduiding van ’n gebrek aan een of ander vlak van

ekwivalensie beskou. 

Alhoewel die vereiste van ekwivalensie op hierdie stadium in

die internasionale riglyne hoofsaaklik met vertaalde toetse

verbind word, is daar tog wel sterk teoretiese en empiriese

aanduidings dat toetse wat slegs in in een taal beskikbaar is

(ook genoem “eentalige toetse”) maar in heterogene

taalgroepsverband gebruik word, aan dieselfde vereistes moet

voldoen. So kan daar verwys word na die werk deur Pennock-

Roman (1998, 1999), soos hierbo bespreek. Daar is ook ’n

toename in navorsing van hierdie aard op eentalige toetse in

Suid-Afrikaanse verband, byvoorbeeld, ’n studie op die 15 FQ+

(’n alternatief op die 16 PF) wat vir keuring tot die SA

Polisiediens gebruik word (Meiring, et. al., 2005. In hierdie

studie is daar gevind dat strukturele sydigheid tussen swart,

bruin en wit etniese groepe die ekwivalensie van die toets (in

Engels) tot so ’n mate kompromiteer dat aanbeveel is dat die

voortgesette gebruik van die toets heroorweeg moet word.

Ander studies waar die effek van Engelse taalvaardigheid op

tellings as problematies uitgewys is, is Claasen (1993), Owen

(1989), Abrahams (1996, 2002), Abrahams & Mauer (1999a,

1999b) en Meiring et al., (2005). 

In die volgende afdeling word ’n gevallestudie van die empiriese

evaluering van die sydigheid van ’n eentalige leestoets wat in SA

verband gebruik word ter illustrasie van bogenoemde teoretiese

raamwerk aangebied. Die toepaslikheid van die toets is ten

opsigte van drie taalgroepe ondersoek, naamlik ’n

Afrikaanssprekende groep, ’n Engelssprekende groep en ’n groep

wat ’n verskeidenheid van inheemse Suid Afrikaanse Afrika tale

praat. Die Afrikaanssprekende groep en die Afrika taalgroep is

nie in een nie-engelssprekende groep geplaas nie, omdat die

groepe aansienlik verskil in terme van die opsies oor medium

van onderrig op skoolvlak – die meerderheid van

Afrikaanssprekendes word in Afrikaans onderrig, terwyl die

groep wat Afrika tale praat, hoofsaaklik in Engels onderrig word.

Taalverskille tussen Engels en Afrikaans is ook minder opvallend

as taalverskille tussen Engels en die Afrika tale, byvoorbeeld ten

opsigte van sin-struktuur en kognate (Kotze, persoonlike

kommunikasie, September 2006). Die Engelse taalgroep was die

kontrole- of verwysingsgroep en die ander twee groepe die fokus

groepe. Met ander woorde, die prestasie van die Engelse groep is

as verwysing gebruik waarteen die prestasie van die twee ander

groepe geëvalueer is.

NAVORSINGSONTWERP

Loodsstudie
’n Loodsstudie op ’n beskikbaarheidssteekproef van 989

eerstejaarstudente (2003 en 2004 toelating gekombineerd) het

aangetoon dat daar groot verskille tussen die taalgroepe bestaan

ten opsigte van hulle prestasie op die toets (Koch, 2005a). Die

Afrikaanse groep (n = 190, gemiddeld = 22,7, standaard afwyking

= 6,02) het ’n gemiddelde van 0,5 standaard afwyking laer as die

Engelse groep (n = 260; gemiddeld = 25,6, standaard afwyking =

5,06) op die toets behaal, en die Afrika taalgroep, ’n gemiddelde

van (n = 539, gemiddeld = 17,09, standaard afwyking = 6,05) van

1,5 standaard afwyking laer as die Engelse groep. Die standard 1,5

afwyking van die Engelse groep is as verwysing gebruik. Die

totaaltelling van die toets is 35 (die telling uit 35 word na ’n telling

uit 120 getransformeer vir interpretasie). Die Cronbach Alpha’s vir

die drie groepe het gewissel van 0,80 vir die Engelse groep tot 0,85

vir die Afrikaanse groep, met 0,81 vir die Afrika taalgroep. 

Ongeveer 44% van Afrika taal sprekers en sowat 16% van

Afrikaanssprekendes behaal ’n punt wat laer as die afsnypunt

van 16 (uit 35) wat op die toets gestel is (Koch & Foxcroft,

2003) in teenstelling met slegs 3% van Engelssprekendes

(Koch, 2005b), ’n verskynsel met ernstige implikasies vir billike

toelatingspraktyke. In ander navorsing by die NMMU is gevind

dat die Afrikaanse groep nie akademies swakker vaar as die

Engelse groep op universiteit of in matriek nie, terwyl

korrelasies van die toets met akademiese prestasie vir die Afrika

taalgroep swakker is as vir die ander twee groepe (Koch, 2003;

Koch, 2005b).Verder is ook gevind dat die item-totaal

korrelasies van die Afrika taalgroep en die Afrikaanse groep

swak tot matig met dié van die Engelse groep korrreleer (r =

0,14 en 0,38 onderskeidelik) in teenstelling met ’n sterk

korrelasie van r = 0,77 met mekaar (Koch, 2005a).

Laasgenoemde is ’n aanduiding van verskille in die relatiewe

orde van item-totaal korrelasies in die verskillende groepe en

die moontlikheid dat verskille in die konstruk oor groepe heen

bestaan (Van de Vijver & Lueng, 1997).

Hierdie resultate saam met die teoretiese vereistes ten opsigte

van toetse wat in heterogene taal- of kultuurverband gebruik

word, dien as ’n motivering vir die evaluering van die

skaalekwivalensie van die toets. Skaalekwivalensie is ’n

voorvereiste van toetse wat oor taal en kultuurgroepe heen

gebruik word vir toelating of plasing vir tersiëre onderwys.

Hierdie tipe van navorsing word veral as belangrik beskou as

groot groepsverskille gevind word (AERA et al., 1999). 

Navorsingsdoelwitte
Die oorkoepelende navorsingsoogmerk van die studie is om die

skaalekwivalensie van die toets oor drie taalgroepe heen te

evalueer. 

Die spesifieke oogmerke is:

1. Om groepsverskille ten opsigte van betroubaarheid,

standaardmetingsfout en item eienskappe, naamlik item-

totaal korrelasie en moeilikheidsgraad te ondersoek;

2. Om die differensiële moeilikheidsgraad van die items oor

groepe heen te ondersoek; en

3. Om die stukturele ekwivalensie van die toets vir die

verskillende taalgroepe te ondersoek. 

Die post hoc oogmerke is: 

1. Om die stukturele ekwivalensie van die toets vir die

verskillende taalgroepe na die verwydering van problematiese

items te ondersoek. 

2. Om groepsverskille na die verwydering van problematiese

items te ondersoek.

Steekproef
Studente wat in 2003 en 2004 die leestoets as deel van 

’n battery van toelatingstoetse van die NMMU afgelê het, 

het die aanvanklike beskikbaarheidssteekproef van 989

uitgemaak. Alle eerstejaarstudente skryf die toetse, hetsy 

vir toelating of vir navorsingsdoeleindes. ’n Toestem-

mingsbrief is deur al die studente geteken om toestemming

tot navorsing te verleen. Geen internasionale studente is

ingesluit in die steekproef nie, terwyl swart studente wat

hulleself as eerstetaal Engelssprekend beskou, ook nie

opgeneem is in die steekproef nie. Die loodsstudie is op

hierdie steekproef uitgevoer. 

Vorige navorsing op die gebied van ekwivalensie het aangetoon

dat groot groepsverskille op die totaalpunte van toetse sowel as

ongelyke getalle in die groepe tot sydigheid in die resultate kan

lei (Sireci & Khaliq, 2002). ’n Frekwensie distribusie passing is

dus op die oorspronklike steekproef gedoen en ’n steekproef van

563 studente is bekom. Die Engelse en Afrikaanse taalgroepe het

etniese groeperinge soos Kleurling, Indiër en Wit ingesluit in

proporsies wat die algemene studentepopulasie weerspieël. Tabel

1 gee ’n aanduiding van hoe suksesvol die steekproeftrekking

was om distribusies en gemiddeldes op die totaaltellings van

groepe min of meer dieselfde te hou, terwyl tabel 2 die

proporsionele verteenwoordiging van die etniese groepe in die

taalgroepe aandui.

KOCH94


TABEL 1
BESKRYWENDE STATISTIEK VAN STEEKPROEF PER TAALGROEP:

GEMIDDELDES, STANDAARDAFWYKING EN INTERVAL VAN
TOTAALTELLINGS

Taalgroepe Gemiddeld* n Standaard Interval
Afwyking

Afrikaans 23,59 181 5,52 11-35

Afrika taalgroep 23,24 195 5,00 11-34

Engels 24,96 187 4,99 7-35

Totale groep 23,93 563 5,21 7-35

*Totaaltelling uit 35

TABEL 2
BESKRYWING VAN DIE TAALGROEPE PER ETNIESE GROEP

Taalgroepe Kleurling Wit Swart Indiër
n % n % n % n %

Afrikaans 80 44 100 56 0 0 0 0

Afrika taal 0 0 0 0 195 100 0 0

Engels 48 26 108 58 0 0 31 16

Om die groepsverskille tussen die taalgroepe na die verwydering

van die DIF items te ondersoek is ’n totaal van 695 eerstejaar

studente wat in die 2005 die toets afgelê het, en wat geregistreer

en die Junie-eksamen afgelê het, geselekteer. Daar was 191

Afrikaanse studente, 194 sprekers van Afrika tale, meestal Xhosa,

en 310 Engelse studente. Om te kontroleer vir verskille tussen die

moeilikheidsgraad van programme oor die taalgroepe heen, het

die navorser ’n analise gemaak van die proporsie studente in die

verskillende taalgroepe wat ingeskryf is by verskillende

fakulteite. Verskille het nie tussen die drie taalgroepe ten opsigte

van hierdie faktor bestaan nie

Meetinstrument
Die papier weergawe van die ‘ACCUPL ACERTM Reading

Comprehension’ toets is gebruik vir die studie. Die toets is

ontwikkel deur die Educational Testing Services (ETS) in die

VSA en word tans besit en versprei deur die College Board. Die

toets is met toestemming, aangepas vir die SA konteks deur

sekere van die itembewoordigings te verander. Die toets

bestaan uit twee hooftipe vrae en 35 items. Die eerste tipe vrae

bestaan uit leesstukke gevolg deur vrae, terwyl die tweede tipe

uit vrae bestaan wat verbande tussen sinne ondersoek. Inhoud

uit ’n verskeidenheid algemene en akademiese areas is gebruik.

Die prosessering van inligting bestaan uit, onder andere,

eksplisiete stellings wat verband hou met die hoofgedagte,

implisiete stellings wat verband hou met die hoofgedagte,

afleiding en toepassing. Ten spyte hiervan word die konstruk as

eendimensioneel beskou en word ’n Cronbach Alpha vir die

totale toets gerapporteer en nie vir verskillende subskale nie

(College Board, 1993). Die toets is uitvoerig vir geldigheid,

betroubaarheid en kruiskult urele geldigheid in die VSA

verband geëvalueer (College Board, 1993). Die toets het ’n

bevredigende Cronbach Alpha van 0,86 vir ’n totale NMMU

populasie (Davies, 2003). Korrelasies met akademiese prestasie

wissel van 0,34 – 0,52 in verskillende fakulteite en van laag

negatief tot hoog positief vir verskillende taal- en etniese

groepe. Die hoogste korrelasies is vir wit en Engelssprekende

studente gevind (Koch, 2002).

Dataontleding
Dataontleding is gedoen in Excel, Office 2000, SPSS weergawes

11,5 en 12 en Statistica 6. Die volgende analises is per

navorsingsdoelwit gedoen:

Om groepsverskille ten opsigte van betroubaarheid en item

eienskappe, naamlik item-totaal korrelasie en moeilikheidsgraad

te ondersoek, is die Cronbach Alpha’s van die drie taalgroepe

bereken. Die item-totaal korrelasies en moeilikheidsgraad (p-

waardes) per item is bereken, waarna die gemiddelde item-totaal

korrelasie en p-waardes per taalgroep bereken is. Die

gemiddeldes is nie statisties vergelyk nie, slegs beskrywend.

Daarna is die item-totaal korrelasies en p-waardes van die

verskillende taalgroepe gekorreleer as ’n aanduiding van die

relatiewe orde van item eienskappe in die verskillende groepe.

Die benadering om item-totaal korrelasies te vergelyk, word

gebruik as ’n ondersoek van moontlike verskille in die konstruk

oor groepe heen (Van de Vijver & Lueng, 1997). Die

Pearsonkorrelasie is gebruik.

Om die differensiële funksionering van die moeilikheidsgraad

van die items oor groepe heen te ondersoek, is twee tegnieke

gebruik, naamlik die Delta-DIF indeks metode, en logistiese

regressie analise. Twee tegnieke is gebruik omdat die analise van

DIF welbekend is vir onstabiele resultate oor metodes en

steekproewe heen (Robin et al, 2003). Twee tegnieke verleen dus

meer interne geldigheid aan die studie indien ’n hoë mate van

ooreenstemming tussen die twee metodes gevind word. Die

groep wie se eerste taal die taal van die toets is, in die geval van

hierdie studie die Engelse groep, word as die verwysingsgroep

beskou, en die ander groepe (wie se eerste taal nie die taal van

die toets is nie), die fokus groepe.

Die eerste metode, naamlik die Delta-DIF indeks metode, is

verwant aan die delta-plot metode waar die p-waarde

(moeilikheidswaardes) van die items per groep gekarteer word

op ’n grafiek en dan vergelyk word. Om dit te doen word die 

p-waardes van elke taalgroep apart linieêr getransformeer na 

z- waardes op ’n skaal van M = 13 en SD = 4, ook genoem ETS

delta waardes (Missisipi State University, 2004). Met hierdie

prosedure dui laer delta waardes moeilike items aan en hoër

waardes, makliker items. ’n Delta-DIF indeks word dan per item

as ’n aanduiding van verskille tussen die taalgroepe bereken

(sien Robin et al., 2003 vir die formule). ’n Waarde van 1,5 delta

eenhede is as ’n aanduiding van DIF gebruik (Robin et al., 2003).

’n Negatiewe waarde het beteken dat die item die fokus groep

bevoordeel en ’n positiewe waarde, dat die item die

verwysingsgroep bevoordeel. ’n Aparte Delta-DIF indeks is vir

die Engels-Afrikaans en die Engels–Afrikataal groepe bereken.

Die navorsingshipoteses was dat daar verskille sou wees in die

Delta-DIF indekse van die Engels-Afrikaans en die

Engels–Afrikataal groepe vir al die items i, en die nul-hipoteses

dat daar geen verskille sal wees nie.

Die tweede metode, logistiese regressie (LR), bereken die

waarskynlikheid van ’n korrekte respons per item. Zumbo

(1999) se prosedure en sintaks vir binêre items is gebruik om

die analise met behulp van SPSS weergawe 11,5 te doen. Die

afhanklike veranderlike was die itemtelling, 0 vir verkeerd en 1

vir korrek. Die onafhanklike veranderlikes was die totaal

telling as die kondineringsveranderlike (conditioning variable),

en groep lidmaatskap en die interaksie t ussen groep

lidmaatskap en leesvermoë as die DIF veranderlikes, en is

stapsgewys in die analise ingevoer. Die nul-hipoteses was dat

die waarskynlikheid om 1 te behaal op ’n item ’n funksie van

die snydingslyn en die totaal telling sou wees (dus, slegs

leesvermoë speel ’n rol of ’n item reg of verkeerd is) , terwyl

die navorsingshipoteses was dat die waarskynlikheid ’n funksie

sou wees (1) van die snydingslyn en groep lidmaatskap en 

(2) van die snydingslyn en die interaksie t ussen groep

lidmaatskap en leesvermoë (iets anders as leesvermoë speel ’n

rol in die reg of verkeerd beantwoording van ’n item). Aparte

vergelykings is vir die Engels-Afrikaans en die Engels–Afrikataal

groepe gedoen.

’n Beduidende verskil – Chi-kwadraat (DIFF Chi-kwadraat),

kritiese waarde 9,55 (p < 0,01), sowel as die R2 verskil (R2 �)

tussen die eerste en derde stappe van die analise is gebruik om

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 95


moontlike DIF te identifiseer. Om te kontroleer vir tipe-1 fout

is slegs effekgrootes van 0,035 < R2 ��< = 0,060 as ‘medium DIF’

en R2 � > 0.060 as ‘groot DIF’ gebruik om die nul hipetese te

verwerp (Jodoin & Gierl, 2001), ongeag die DIFF Chi-kwadraat

se beduidendheid. Uniforme DIF is gevind as �2 <> 0 en �3 = 0

en nie-uniforme DIF as �3 <> 0 ongeag die waarde van �2. As 

�2 < 0 was, het die item die verwysingsgroep bevoordeel, en as

�2 > 0 was, het die item die fokus groep bevoordeel. In die geval

van nie-uniforme DIF het die item lede van die

verwysingsgroep met ’n hoë vermoë en lede van die fokus

groep met ’n lae vermoë bevoordeel as die �3 < 0, en andersom

as �3 >0. 

Om die strukturele ekwivalensie van die toets vir die verskillende

taalgroepe te ondersoek, is gebruik gemaak van geweegde

meerdimensionele verskaling. In simulasie studies is gevind dat

die metode meer sensitief is vir die effek van kleiner DIF as

byvoorbeeld, faktoranalise en strukturelevergelykings

modellering (Sireci & Khaliq, 2002). Die metode is ook met

welslae gebruik om die effek van DIF op strukturele ekwivalensie

te bestudeer (Robin et al., 2003). Die metode vereis nie die

spesifisering van toets-strukture a priori nie, maak geen

aannames oor die verwantskap tussen items nie en hou die

voordeel in dat ’n gemeenskaplike struktuur te gelykertyd op

meer as een groep (of toetse) gepas kan word (Sireci, Patsula,

Hambleton, 2005). 

Meerdimensionele verskaling gebruik nabyhede t ussen

objekte (items in die geval van hierdie studie) as invoerdata

(dit wil sê, ’n getal wat aandui hoe ver of hoe naby objekte aan

mekaar is), en ’n ruimtelike voorstelling van ’n geometriese

konfigurasie van punte, as uitvoer. Nabyhede kan vir data wat

nie in hulle oorspronklike vorm nabyhede is nie bereken word

deur ’n profiel van ongelyksoortighede of gelyksoortighede af

te lei. Dit word gedoen deur die korrelasies tussen data te

bereken of die afstande tussen die stimuli te kwadreer (Wish

& Carroll, 1974). In kleiner datastelle word die Euclideaanse

formule as meer geskik beskou as die inter-item korrelations

(sien Robin et al., 2003). In hierdie studie is inter-item

korrelations gebruik en die drie matrikse van die drie

taalgroepe is met die data-hanteerder in SPSS in een datastel

bymekaar gevoeg.

Meerdimensionele verskaling kan vir ’n enkele groep of

veelvuldige groepe gedoen word. In die geval van ’n enkele

groep word ’n matriks van geobserveerde ongelyksoortighede

tussen item j en j', � = {�jj'} in 1, 2 … or R dimensionele ruimte

by wyse van die Euclideaanse afstand gemodelleer (sien Robin et

al., 2003 vir die formule). Hierdie model voorsien ’n voorstelling

van die geobserveerde data in enige R-dimensionele ruimte,

byvoorbeeld moontlike oplossings van een to vyf dimensies, en

stel die struktuur van die toets voor. Die items word dan óf

grafies óf by wyse van hulle koordinate voorgestel, xjr vir item j

on dimensie r (r = 1…R). Die dimensies van die oplossing wat

aanvaar word, word beskou as ’n voorstelling van die struktuur

van die data.

In ’n veelgroep analise word meer as een matriks van

ongelyksoortighede gemodelleer. Elke matriks stem met die

groepe van belang, k = 1,2 …K ooreen, in hierdie studie die drie

taalgroepe. Die matrikse word dan gelykt ydig in ’n

gemeenskaplike 2, 3,…R-dimensionele ruimte met die volgende

geweegde Euclideaanse afstandsformule gemodelleer (om ’n

gemeenskaplike struktuur te pas):

(1)

waar ooreenkom met die gewig op dimensie r vir groep k

(Robin et al., 2003). Die gewigte word gebruik om die strukturele

verskille tussen groepe te evalueer. WMDS verskaf dus ’n

metode om die dimensionaliteit wat response onderlê, te

evalueer en vas te stel of die dimensionaliteit dieselfde is oor

groepe heen. ’n Gemeenskaplike struktuur word gelyktydig op al

die groepe gepas, en groepsgewigte word dan gebruik om

verskille te evalueer (Sireci, et al., 2005). Die gewigte is ’n

aanduiding van die mate waartoe die gemeenskaplike struktuur

gewysig moet word om die data van die bepaalde groep die beste

te pas. Indien die patroon van gewigte tussen groepe verskil en

een of meer van die groepe ’n gewig van naby zero op ’n

dimensie het waarop ’n ander groep ’n redelike groot gewig het,

word verskille aanvaar. Dit is egter belangrik dat die verskille

interpreteerbaar moet wees voordat die verskille aanvaar word

(Sireci & Khaliq, 2002).  

Vir hierdie studie is die INDSCAL WMDS model in SPSS 11.5

hiervoor gebruik.

Meerdimensionele verskaling verskaf nie statistiese toetse om die

beste oplossing te selekteer of om te besluit oor verskille tussen

groepe nie en hipoteses word nie vir hierdie tegniek geformuleer

nie. Daar is wel ’n aantal praktiese reëls wat ten opsigte van

passingsindekse, naamlik die STRESS en R2 indekse, en die

interpretasie van dimensies geld om sodoende besluite oor die

mees geskikte oplossing en groepsverskille te neem (Sireci et al.,

1998). Die reëls word in die volgende stappe wat vir hierdie

studie gevolg is, gereflekteer:

a) Die STRESS passingsindeks en R2 indeks is gebruik om die

finale model te selekteer, dit wil sê, of twee of drie of 

meer dimensies die data die beste voorstel. ’n Skerp

verbetering in passing by ’n spesifieke punt van passing, ook

genoem ‘die knakpunttoets’, is gebruik as die kriterium om

’n oplossing te aanvaar. Passing verbeter wanneer die STRESS

indeks skerp daal en die R2 indeks styg en beide daarna

afplat (Sireci et al., 1998). 

b) Om oor die strukturele verskille tussen taalgroepe te besluit,

is ’n aantal stappe gevolg om die dimensies en die verskille

tussen die groepe te interpreteer (Robin et al., 2003; Sireci &

Khaliq, 2002). Indien die patroon van gewigte tussen die

groepe verskil en een of meer van die groepe ’n gewig van

naby zero op ’n dimensie gehad het waarop ’n ander groep ’n

redelike groot gewig het, is verskille aanvaar. Verder is die

item koördinate van elke dimensie in Excel georden en

koördinate van groter as¦1¦is gebruik vir die interpretasie van

die dimensie. Die p-waardes, die diskriminasie waardes van

die items en die DIF terme van die Delta-DIF indeks en die LR

is ook met die item koördinate gekorreleer. Hierdie korrelasies

is gebruik om redes vir verskille tussen die groepe te vind en

hierdie verskille te interpreteer. Slegs korrelasies van 0,6 en

hoër is as van praktiese waarde vir interpretasie aanvaar in

navolging van Robin et al., (2003). Verskille tussen groepe

word aanvaar wanneer die patroon van gewigte tussen groepe

aansienlik verskil en die verskille interpreteerbaar is (Sireci &

Khaliq, 2002).

Vir die post hoc analises is geweegde meerdimensionele

verskaling na die verwydering van die DIF items herhaal.

Groepsverskille is met behulp van beskrywende statistiek en

standaard afwyking ondersoek. Die verskille is op ’n nuwe

steekproef wat die toets in 2005 afgelê het, ondersoek. 

RESULTATE

Groepsverskille ten opsigte van betroubaarheid en item
eienskappe
Geen groepsverskille is ten opsigte van die Cronbach Alpha’s

gevind nie. Die betroubaarheid het gewissel van 0,78 vir die

Engelse en Afrika taal groepe tot 0,83 vir die Afrikaanse groep en

was dus aanvaarbaar in al drie groepe (Koch, 2005). Die

gemiddelde item-totaal korrelasies (van 0,26 tot 0,31) en 

p-waardes (van 0,67 tot 0,71) van die verskillende groepe was ook

dieselfde. Terwyl daar groot ooreenstemming was tussen die

k
rw

2

1

_
( )

R
k k
jj r jr jr

r

d w x x
=

= ∑

KOCH96


groepe ten opsigte van die p-waardes van die items (r = 0,91 tot

0,95), het die item- totaal korrelasies van die Engelse groep egter

min ooreenstemming getoon met dié van die Afrika taal en die

Afrikaanse groepe (r = 0,01 en 0,22, p > 0,05). Dié van die

Afrikaanse en Afrika taal taalgroepe het egter sterk

ooreenkomste getoon (r = 0,70, p < 0,05). Die patroon was dus

dieselfde vir die oorspronklike steekproef soos gerapporteer

onder die loodsstudie. Die laaste bevinding dui op die

moontlikheid van strukturele inekwivalensie en dien as ’n

verdere motivering vir die studie.

Differensiële moeilikheidsgraad funksionering van die items
oor groepe heen
In die Delta-DIF Indeks metode is die nul hipotese van geen DIF

vir tien items verwerp. Daar was ’n gelyke aantal items wat die

Engelse (5) en die ander twee groepe (5 in totaal) bevoordeel het

(Tabel 3).

TABEL 3
DIF ITEMS: DELTA-DIF INDEKS METODE

Analise groepe Rigting van voordeel Aantal items Items

Afrikaans-Engels Engels 2 18,27

Afrikaans 2 21,35

Afrika taal-Engels Engels 4 16,18,19,20

Afrika taal 4 2,4,24,35

In die Logistiese regressie ontleding is altesaam 18 items met

DIF gevind. Tien items het matige DIF openbaar, en 8 items

klein DIF. Die nul hipotese van geen DIF is slegs ten opsigte

van items met matige DIF verwerp. Terwyl drie items die nie-

engelse groepe bevoordeel het, het die ander óf die hele

Engelse groep bevoordeel óf hulle was nie- uniforme DIF items

wat die Engelse studente met hoë totaalpunte op die toets en

nie-engelse studente met lae totaalpunte bevoordeel het.

Dieselfde patroon is ten opsigte van die agt items met lae DIF

gevind (Tabel 4).

TABEL 4
MATIGE DIF ITEMS: LOGISTIESE REGRESSIE METODE

Vergelykingsgroepe Tipe van DIF Rigting van Getal Items
voordeel items

Afrikaans – Engels Uniform Engels 2 18,27

Afrikaans 1 21

Nie-uniform HV* Engels 3 20, 33, 35

LV** Afrikaans

HV Afrikaans 0

LV Engels 

Afrika taal – Engels Uniform Engels 3 16, 18, 19

Afrika taal 2 2,14

Nie-uniform HV Engels 1 20

LV Afrika taal

HV Afrika taal 0

LV Engels

* Hoër Vermoë 

** Laer Vermoë 

Nege van die tien items wat deur die Delta-DIF Indeks metode

geindentifiseer is, is dus ook met LR as beduidende DIF

geidentifiseer. Die ander item was wel geidentifiseer maar was

nie statisties beduidend nie. Verder het die mate van

ooreenstemming tussen die t wee metodes ondersteuning

verleen aan die interne geldigheid van die bevinding dat ’n

groot proporsie (10) van die 35 items DIF openbaar (Robin et

al., 2003). Terwyl die rigting van die DIF in die items wat 

deur die Delta-DIF Indeks metode geidentifiseer is, aandui 

dat ’n gelyke aantal items die verwysing en fokus groepe

bevoordeel, het die items wat deur LR geidentifiseer is

meerendeels Engelse studente met hoë totaalpunte op die

toets en nie-engelse studente met lae totaalpunte bevoordeel.

In totaal is die nul hipotese van geen DIF vir 10 items 

verwerp. Hierdie items vorm ’n groot proporsie van die totale

getal items en dui reeds op ernstige probleme met die

skaalekwivalensie van die toets. 

Strukturele ekwivalensie van die toets vir die verskillende
taalgroepe 
Die verskillende stappe wat onder “Dataontleding” bespreek is, is

gevolg in die selektering van die beste oplossing. Op grond van

die kriteria is drie dimensies geselekteer. Die STRESS statistiek

het van 0,34 tot 0,16 gedaal van die tweede tot die derde

dimensie, terwyl die R2 gestyg het van 0,82 tot 0,93. Verskille het

daarna afgeplat. Groot strukturele verskille tussen die drie

taalgroepe is aangedui deur die verskille in die gewigte per

taalgroep in die drie dimensies. Tabel 5 illustreer die verskille in

terme van die verskil in gewigte oor groepe heen. 

TABEL 5
DIE GEWIGTE PER TAALGROEP EN % VARIANSIE

DEUR DIE DIMENSIES VERKLAAR

Dimensies Groepe Variansie 
verklaar

Afrikaans Afrika taal Engels

Gewigte 1 0,49 0,39 0,91 0,41

2 0,80 0,33 0,27 0,27

3 0,20 0,81 0,19 0,24

Die eerste dimensie kan beskou word as relevant vir die

Engelse groep, die t weede dimensie is relevant vir die

Afrikaanse groep en die derde dimensie, vir die Afrika

taalgroep. Met ander woorde: die betrokke dimensies lê

prominent onderliggend aan die berekende ongelyk-

soortighede van die betrokke groepe. Die betrokke dimensies

verklaar ook die grootste persentasie variansie in die

getransformeerde data in die betrokke groepe. Die afstand

tussen die drie groepe word geïllusteer deur die voorstelling

van groep sentroïdes in figuur 1.

Figuur 1: Grafiese voorstelling van die afstand tussen die
drie taalgroepe (1 = Afrikaans, 2 = Afrika taal, 3 = Engels)

Die stappe wat gevolg is om die dimensies te interpreteer, het

aangedui dat verskille tussen die groepe ten opsigte van die

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 97


dimensies as ‘differensiële moeilikheidsgraad van items oor

dimensies vir die verskillende groepe’ gekategoriseer kan word.

Die item köordinate van die dimensies wat relevant was vir die

verskillende groepe het sterker met die item p-waardes van die

betrokke groepe gekorreleer as met dié van die ander groepe

(Tabel 6).

TABEL 6
KORRELASIES TUSSEN DIE ITEM KOÖRDINATE EN DIE P-WAARDES

EN ITEM-TOTAAL KORRELASIES PER TAALGROEP

Dimensies Groepe

Afrikaans Afrika taal Engels

p-waardes 1 0,84 0,83 0,95

2 0,86 0,72 0,73

3 0,77 0,94 0,79

Item totaal korrelasies 1 0,62 0,41 -0,28

2 0,06 0,11 -0,55

3 0,43 0,34 -0,45

Die item köordinate van geen van die dimensies het meer as r

= 0,60 met die item-totaal korrelasies van die Afrika taalgroep

gekorreleer nie. Die item koordinate van die eerste dimensie

(wat relevant was vir die Engelse groep) het sterker as 0,6 met

die DIF terme van die items in Engels-Afrikaanse groepe

gekorreleer, maar met nie met die DIF terme in die Engels-

Afrika taalgroepe nie. Die item koordinate van die derde

dimensie (wat relevant was vir Afrika taalgroep) het ook

sterker as 0,6 met DIF terme van die LR analise in Engels-

Afrikaanse groepe gekorreleer, maar met nie met die DIF terme

in die Engels-Afrika taalgroepe nie (tabel 7). Die item

koordinate van die tweede dimensie (wat relevant was vir die

Afrikaanse groep) het nie met enige van die DIF terme van die

items gekorreleer nie.

TABEL 7
KORRELASIES VAN DIE KOÖRDINATE VAN DIE 3-DIMESIONELE

OPLOSSING MET DIF TERME

Vergelykingsgroepe Dimensies Korrelasies van die 
koördinate met DIF terme

DIF LR groep LR 
indeks helling interaksie 

helling

Afrikaans-Engels 1 0,58 -0,70 0,64

2 -0,05 -0,42 0,44

3 0,35 -0,68 0,65

Afrikataal-Engels 1 0,22 -0,35 0,30

2 -0,03 -0,32 0,31

3 -0,35 -0,26 0,35

By nadere ondersoek by wyse van die ordening van die item

köordinate van die dimensies – die items met köordinate groter

as ¦1¦was meestal DIF items- het dit geblyk dat die DIF items

wat dimensies 1 en 2 getipeer het, ooreengestem het met die

items wat hoër item-totaal korrelasies gehad in die Engelse

groep, maar met dié wat laer item-totaal korrelasies gehad het

in die Afrikaanse groep. Met ander woorde, die DIF items het

daarin geslaag om te onderskei tussen goeie en swak lesers in

die Engelse groep (in terme van die totaalpunt op die toets),

maar nie in die Afrikaanse groep nie. Dieselfde patroon is 

ten opsigte van die Afrika taalgroep gevind, selfs al het die 

DIF terme swakker as 0,6 met die item koordinate van die

dimensies gekorreleer.

Die strukturele verskille tussen die Afrikaanse en Engelse

groepe kon dus gedeeltelik in terme van DIF verklaar word,

maar DIF het nie die strukturele verskille tussen die Afrika

taalgroep en die Engelse groep verklaar nie. Daar is dus 

verwag dat die verwydering van die DIF items tot meer

strukturele ekwivalensie sou lei, maar dat alle strukturele

verskille nie sou verdwyn nie. Hierdie vermoede is in die post

hoc ontledings ondersoek.

Post hoc analises
Strukturele ekwivalensie van die toets vir die verskillende

taalgroepe na verwydering van DIF items

Die 10 DIF items met medium DIF waardes is uit die toets

verwyder. Dieselfde stappe as voorheen is gevolg deurdat

korrelasie matrikse vir die drie groepe sonder die DIF items

geskep is, die matrikse bymekaar gevoeg is en ’n analise van

veelvuldige meerdimensionele verskaling gedoen is.

Op grond van die afname in die STRESS waardes (van 0,17 na

0,13) en die toename in die R2 waardes (van 0,93 tot 0,95), is drie

dimensies ook in hierdie analise as die mees bevredigende

oplossing aanvaar. Daarna was daar ’n afplatting in die waardes.

Die eerste dimensie het 77% van die totale variansie in die

getransformeerde data verklaar en was dus ’n sterk dimensie. Die

ander twee dimensies het onderskeidelik 10% en 7% verklaar.

Alhoewel die laaste twee dimensies slegs ’n klein persentasie van

die totale variansie verklaar het, het die passingsindekse tog wel

aangedui dat hierdie oplossing die mees bevredigende is. Al drie

dimensies kon ook geinterpreteer word en het bygedra tot die

dissektering van groepsverskille. Dit het verdere ondersteuning

verleen aan die aanvaarding van hierdie oplossing (sien Sireci &

Khalig, 2002 in hierdie verband). 

Tabel 8 gee ’n aanduiding van die verskille tussen die drie

taalgroepe in terme van die verskille in gewigte oor groepe heen,

terwyl figuur 2 dit visueel demonstreer. 

TABEL 8
DIE GEWIGTE PER TAALGROEP EN % VARIANSIE DEUR
DIE DIMENSIES VERKLAAR MET DIF ITEMS VERWYDER

Dimensies Groepe Variansie 
verklaar

Afrikaans Afrika taal Engels

Gewigte 1 0,89 0,79 0,96 0,77

2 0,29 0,45 0,17 0,10

3 0,28 0,36 0,05 0,07

Figuur 2: Grafiese voorstelling van die afstand tussen die
drie taalgroepe na verwydering van DIF items (1 = Afrikaans,
2 = Afrika taal, 3 = Engels)

KOCH98


Daar was duidelik ’n verbetering in die strukt urele

ekwivalensie na die verwydering van die DIF items. Geringe

strukt urele verskille t ussen die drie groepe het egter

voortgeduur. Die eerste dimensie was relevant vir al drie

groepe, maar veral vir die Engelse groep. Alhoewel die 

gewigte van die ander twee groepe nie naby aan zero was 

nie, kon verskille met die Engelse groep op hierdie 

dimensie interpreteer word (sien Sireci & Khaliq, 2002). Dit

kan dus aanvaar word dat die groepe tot ’n geringe mate 

selfs op hierdie sterk en belangrike dimensie verskil het.

Dimensies 2 en 3 was relevant vir die Afrika en Afrikaanse

taalgroepe. Dimensie 2 het minder relevansie vir die 

Engelse groep gehad, terwyl dimensie 3 geen relevansie vir die

Engelse groep gehad het nie. 

Die stappe wat geneem is om die dimensies te interpreteer, het

aangedui dat dimensie 1 beskou kan word as “algemene item

moeilikheidsgraad” in al drie groepe, maar “item diskriminasie”

slegs in die Engelse groep (Tabel 9). 

TABEL 9
KORRELASIES TUSSEN DIE ITEM KOÖRDINATE VAN DIE

TOETS MET DIF ITEMS VERWYDER, EN DIE P-WAARDES EN
ITEM-TOTAAL KORRELASIES PER TAALGROEP

Dimensies Groepe

Afrikaans Afrika taal Engels

p-waardes 1 0,93 0,90 0,97

2 0,64 0,69 0,57

3 -0,56 -0,55 -0,49

Item totaal korrelasies 1 0,40 0,35 -0,80

2 0,08 0,07 -0,39

3 -0,70 -0,55 0,06

Die item koördinate van die dimensie het ook gekorreleer met

DIF terme. Weereens wil dit voorkom of die moeiliker items

met geringe DIF wat hierdie dimensie tipeer wel diskrimeer

tussen goeie en swak lesers in die Engelse groep, maar dat

daardie items nie tot dieselfde mate diskriminerend is in die

nie-Engelse groepe nie. Die geringe verskille tussen die drie

groepe op hierdie dimensie kan dus toegeskryf word aan

differensiele item diskrimasie oor die drie groepe heen.

Dimensie 2 was “algemene item moeilikheidsgraad” in al drie

groepe, effens meer so in die geval van die Afrika taalgroep.

Dimensie 3 was “item moeilikheidsgraad” en “item

diskriminasie” in die Afrika taal en Afrikaanse groepe. Die

dimensie het geen relevansie vir die Engelse groep gehad nie.

Die grootste verskille tussen die Engelse en nie-Engelse groepe

was dus op hierdie ‘swak’ derde dimensie. 

Daar kan dus tot die gevolgtrekking gekom word dat die

verwydering van die matige DIF items gelei het tot ’n

verbetering in strukturele ekwivalensie tussen die drie groepe,

maar dat geringe strukturele verskille voortgeduur het. Dis was

egter belangrik om vas te stel of hierdie geringe verskille

praktiese implikasies het vir die gebruik van die toets oor die

drie groepe heen. 

Groepsverskille tussen die taalgroepe na die ver wydering van die DIF

items

Tabel 10 gee ’n aanduiding van die verskille tussen die

taalgroepe ten opsigte van hulle gemiddeldes op die 25 items

wat nie as DIF geïdentifiseer is in die vorige afdelings nie, sowel

as ten opsigte van hulle akademiese resultate in die eerste

semester van 2005.

Alhoewel die verskille tussen die nie-Engelse en Afrika

taalgroepe kleiner is as met die toets wat die DIF items insluit, is

die verskille tussen die twee groepe steeds aansienlik met die

Afrika taalgroep wat heelwat laer presteer as die Engelse groep.

Die standaard afwyking verskil tussen die Afrikaanse en Engelse

groepe (die standaard afwyking van die Engelse groep is as

verwysing gebruik) is dieselfde as die toets met die DIF items met

die Afrikaanse groep wat laer presteer as die Engelse groep.

Hierdie verskille word egter nie gereflekteer in die verskille op

akademiese prestasie nie, waar die Afrikaanse en Engelse groep

dieselfde vaar, en die verskille tussen die Engelse groep en Afrika

taalgroep kleiner is as op die leestoets. Dit wil dus voorkom asof

die voorgesette strukturele verskille op die toets sonder die DIF

items wel praktiese implikasies inhou vir die gebruik van die

toets oor die drie taalgroepe heen. Met ander woorde, indien

sterk klem geplaas word op hierdie toets in besluitneming oor

toelating sonder om strukturele verskille in ag te neem, bestaan

die moontlikheid dat nie-engelstalige studente aansienlik

benadeel sal word. Dit is ook belangrik dat die

voorspellingsgeldigheid van die toets oor taalgroepe heen

geëvalueer moet word. Die gevolgtrekkings word in die volgende

afdeling bespreek.

TABEL 10
GROEPSVERSKILLE OP DIE LEESTOETS NA VERWYDERING VAN DIF

ITEMS EN EERSTE SEMESTER 2005 AKADEMIESE PRESTASIE

Taal- Gemid- Std Standaard Akade- Std Standaard
groepe delde afwyking afwyking miese afwyking afwyking

totaal op verskil prestasie verskil  
leestoets van van 

Engelse Engelse 
groep groep

Afrikaans 13,30 2,68 0,59 61,32 13,95 0,01

Afrika  12,16 8,58 1,09 50,78 10,80 0,76

taalgroep

Engels 14,63 2,86 61,42 14,04

BESPREKING EN GEVOLGTREKKING

Die resultate van die empiriese afdeling van die studie het

gedemonstreer dat die skaalekwivalensie van die toets oor

taalgroepe heen gekompromiteer is. Daar was ook bewyse dat

die toets nie ’n invariante konstruk in die Engelse en nie-

Engelse taalgroepe meet nie selfs na die verwydering van die

DIF items. Die gevolgtrekking kan dus gemaak word dat die

tellings van die Engels eerstetaal en tweedetaalsprekers nie

gebruik kan word om dieselfde afleidings oor groepe heen te

maak ten opsigte die kontruk/domein wat in die toets gemeet

word nie en dat die tellings van die twee groepe nie op

dieselfde skaal geplaas kan word word vir vergelying nie.

Verder is dit duidelik dat die geringe strukturele verskille

tussen die groepe na die verwydering van die DIF items steeds

op ’n praktiese vlak ’n impak het. Die voortgesette gebruik van

die toets moet dus heroorweeg word, tensy die resultate van die

groepe in ’n differensiële manier hanteer word soos,

byvoorbeeld deur verskillende afsnypunte vir verskillende

groepe te stel, of die toets aangepas word vir gebruik oor

diverse groepe heen. 

Die differensiële gebruik van die toetstellings van die

verskillende groepe is op hierdie stadium die benadering wat

aan die NMMU gebruik word, terwyl daar ook verdere

aanpassings aan die toets aangebring is. Die toets word ook

altyd gebruik as deel van ’n profiel van toetstellings wat

studente se matriekpunte insluit, en besluitneming word nooit

op grond van hierdie toetstellings alleen gemaak nie (Koch &

Foxcroft, 2003). 

Op ’n meer algemene vlak kan daar geargumenteer word dat die

strukturele verskille wat op hierdie toets oor die Engelse en nie-

engelse groepe gevind is, bloot ’n weerspieëling is van die

realiteit van alle leesaktiwiteite wat op universiteitsvlak

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 99


plaasvind omdat meeste van die leesmateriaal in elk geval in

Engels is. Dit mag dus net prakties wees om hierdie realiteit te te

aanvaar en voort te gaan om die toets, en andere soos die, as

geldige en realistiese metings van leesvaardigheid in die SA

konteks te gebruik. Die benadering om die teenwoordigheid van

sydigdigheid in te bou in die konteks van toetsing word egter

gekontesteer deur navorsers soos Valdés and Figueroa (1994) and

Pennock-Roman (1998; 1999), wat argumenteer vir geldiger

toetsing van tweetalige studente en kinders in die VSA, ’n

argument wat ernstig opgeneem moet word in die konteks van

SA. Die teoretiese raamwerk wat in hierdie studie aanvaar is, sluit

ook so ’n benadering vanuit ’n psigometriese, en uiteindelik ’n

regsoogpunt, uit. 

Dit moet duidelik gestel word dat die resultate van die empiriese

deel van die studie nie veralgemeen kan word na ander toetse of

selfs die SA populasie in die algemeen nie. Die metode van

steekproeftrekking wat gebruik is, sluit die moontlikheid van

veralgemening uit, terwyl dit in die literatuur duidelik gestel

word dat toetse vir ekwivalensie geëvalueer moet word in alle

kontekste van gebruik en dat ’n toets wat in een konteks

sydigheid openbaar nie noodwendig in ’n ander konteks

sydigheid sal openbaar nie (Van de Vijver & Leung, 1997; Van de

Vijver & Tanzer, 1998). Hierdie toets was ook vir die VSA konteks

ontwikkel wat dit veral gevoelig maak vir evaluasies soos in

hierdie studie, iets wat moontlik nie die geval mag wees by toetse

wat vir en in hierdie land ontwikkel is nie. Die resultate van

hierdie studie moet egter as ’n ernstige motivering dien vir

soortgelyke studies op ander toetse wat in die veeltalige SA

konteks gebruik word.

As ’n slotopmerking kan daar gestel word dat hierdie studie

daarin geslaag het om aan te dui dat die praktyk om eentalige

toelatingstoetse te gebruik vir toelating tot Hoër Onderwys in SA

inderdaad problematies mag wees, en dat dit belangrik is om

navorsing soos in hierdie studie op alle soortgelyke toetse uit te

voer. Alternatiewe tot die gebruik van eentalige toelatingstoetse

moet ook dringend ondersoek word. In dié verband kan die

praktyk in Israel (Beller, 1994), waar toelatingstoetse in tot agt

tale vertaal word, ten spyte van die feit dat die taal van onderrig

Hebreeus is, met vrug ondersoek word. Sulke navorsing moet

verder aangevul word met evaluerings van die voorspellings-

sydigheid van toetse sowel as ondersoeke na die differensiële

impak van toelatingsprosedures op verskillende taalgroepe. 

VERWYSINGSLYS

Abrahams, F. (1996). The cross-cultural comparability of the Sixteen

Personality Factor Inventory (16PF). Unpublished doctoral

thesis, University of Pretoria, Pretoria,  South Africa. 

Abrahams, F. (2002). Fair usage of the 16PF (SA 92) in South

Africa: A response to C. H. Prinsloo & I. Ebersohn. South

African Journal of Psychology, 32, 58-61. 

Abrahams, F., & Mauer, K. F. (1999a). The comparability of the

constructs of the 16PF in the South African context. Journal

of Industrial Psychology, 25, 53-59. 

Abrahams, F., & Mauer, K. F. (1999b). Qualitative and statistical

impact of home language on responses to the items of the

Sixteen Personality Factor Questionnaire (16PF) in South

African context. South African Journal of Psychology, 29, 76-

86.

Adamson, H.D. (1993). Academic competence: Theor y and

classroom practice: Preparing ESL students for content courses.

New York: Longman Publishing Group.

American Educational Research Association, American

Psychological Association, and National Council on

Measurement in Education. (1999). Standards for Educational

and Psychological Testing. Washington, DC: American

Psychological Association (also published 1985, 1974, 1969).

Beller, M. (1994). Psychometric and social issues in admissions to

Israeli universities. Educational Measurement: Issues and

Practices, 13, 12-21. 

Camilli, G. (1993). The case against item bias techniques based

on internal criteria: do item bias procedures obscure test

fairness issues? In P.W. Holland and H. Wainer (Eds.),

Differential item functioning. (pp 397-413). Hillsdale:

Lawrence Erlbaum Associates, Publishers.

Claassen, N. C. W. (1993). Verslag oor die funksionering van die

NSAG intermedier G in verskillende bevolkingsgroepe. Pretoria:

Raad vir Geesteswetenskaplike Navorsing. 

Cleary, T.A. (1968). Test bias: prediction of grades of Negro and

white students in integrated colleges. Journal of Educational

measurement, 5 (2), summer 1968.

Cole, N.S.& Moss, P.A. (1989). Bias in test use. In R.L. Linn (Ed.),

Educational Measurement (3rd ed.). (pp. 201-220). London:

Collier Macmillan publishers.

College Board (1993). ACCUPLACER�: Computerized placement

tests technical data supplement. New York: College Entrance

Examinations Board.

Cummins, J. (1984). Bilingualism and special education: Issues 

in assessment and pedagogy. San Diego, CA: College Hill 

Press
Davies, C.L. (2003). A psychometric evaluation of the equivalence

of the paper-based companion tests and the ACCUPLACER

Computerised Placement tests. Unpublished MA dissertation,

University of Port Elizabeth.

Ebel, R.L. & Frisbie, D.A. (1986). Essentials of educational

measurement (4th ed.). Englewood Cliffs, NJ: Prentice-Hall.

Employment Equity Act No 55 of 1998 (1998). Government

Gazette Vol. 400, No. 19370. Cape Town, 19 October 1998.

Focus (UPE). The Commemorative Edition. (2004). Port Elizabeth:

Universiteit van Port Elizabeth

Geisinger, K.F. (1996, September). The testing of Hispanics in 

civil ser vice settings. Paper presented at the Personnel 

Testing Council of Metropolitan Washington, Washington,

DC.

Hambleton, R.K. (2001). The next generation of ITC test

translation and adaptation guidelines. European Journal for

Psychological Assessment, 17, 164-172.

Helms-Lorenz, M. & Van de Vijver, F. (1995). Cognitive

assessment in education in a multicultural society. European

Journal of Psychological Assessment, 11, 158-169.

Huysamen, G.K. (2002). The relevance of the new APA standards

for educational and psychological testing for employment

testing in South Africa. South African Journal of Psychology,

32 (2), 26-33

International Test Commission (2000). Guidelines for adapting

educational and psychological tests. [Online] Available:

http://www.intestcom.org/adapt_test.htm

Jodoin, M.G. & Gierl, M.J. (2001). Evaluating type 1 error and

power rates using an effect size measure with the logistic

regression procedure for DIF detection. Applied Measurement

in Education, 14 (4), 329-349.

Koch, E. (2002, September). Commerce, science and Pharmacy

entry criteria: 2002 development and tracking. Unpublished

report for APAP. University of Port Elizabeth, Suid Afrika.

Koch, E. (2003, March). Results on the APAP language tests. Paper

presented at Language Testing Colloquium, University of the

Vrystaat, Bloemfontein, South Africa.

Koch, E., & Foxcroft, C.D. (2003). A developmental approach to

admissions testing: Admissions and placement standards

development. South African Journal of Higher Education, 17

(3), 192-208. 

Koch, E. 2005a. Evaluating the equivalence, across language

groups, of a reading comprehension test used for admissions

purposes. Unpublished D.Phil thesis, Nelson Mandela

Metropolitan University, South Africa.

Koch, E. (2005b). Group differences on a reading compre-

hension test: What are the practical implications of

inequivalence across language groups. Unpublished report for

CA AR, HEADS, Nelson Mandela Metropolitan University,

South Africa.

Koda, K. (1994). Second language reading research: Problems and

possibilities. Applied Psycholinguistics, 15, 1-28.

KOCH100


Meiring, D., Van de Vijver, F., Rothmann, S. & Barrick, M.R.

(2005). Construct, item and method bias of cognitive and

personality tests in South Africa. South African Journal of

Industrial Psychology, 31 (1), 1 – 8. 

Messick, S. (1989). Validity. In R.L. Linn (Ed.), Educational

Measurement (3rd ed). (pp. 13-104). London: Collier

Macmillan publishers.

Missisipi State Universit y (2004). Item bias/differential 

item functioning. Chapter 16. Notes and supplement.

[Online] Available: http://www2.mstate.edu/=dmorse/

8993chap16.pdf)

Owen, K. (1989). Test and item bias: The suitability of the Junior

Aptitude Test as a common test battery of White, Indian and

Black pupils in standard seven. Pretoria: Human Sciences

Research Council.

Pennock-Roman, M. (1998, August). Measuring de veloped

academic abilities using Spanish-language and English-language

tests; PAEG/GRE relationships for Puerto Ricans who are more

proficient in Spanish than in English. (GRE Board Professional

Report No. 89-01cP; ETS Research Report No. 98-40).

Princeton,  NJ: Educational Testing Service.

Pennock-Roman, M. (1999, June). English prof iciency and

differences among racial and ethnic groups in mean SAT and

GRE scores: A longitudinal analysis. (GRE Board Professional

Report No. 86-09cP; ETS Research Report No. 99-17).

Princeton, NJ: Educational Testing Service.

Poortinga, Y.H. (1989). Equivalence of cross-cultural data: An

overview of basic issues. International Journal of Psychology,

24, 737-756. 

Robin, F., Sireci, S.G., & Hambleton, R.K. (2003). Evaluating the

equivalence of different language versions of a credentialing

exam. International Journal of Testing, 3 (1), 1-20. 

Sireci, S.G., Bastari, B., Xing, D., Allalouf, A.,& Fitzgerald, C.

(1998). Evaluating construct equivalence across tests adapted

for use across multiple languages. Paper presented at the

Annual Meeting of the American Psychological Association

(Division Research), San Francisco, CA. 

Sireci, S.G., & Geisinger, K.F. (1998). Equit y issues in

employment testing. In J. Sandoval, C.L. Frisby, K.F.

Geisinger, Scheuneman, and J. R. Grenier (Eds.), Test

interpretation and diversity. Achieving equity in assessment (pp

105-140). Washington: American Psychological Association.

Sireci, S.G., & Khaliq, S.N. (2002). Comparing the psychometric

properties of monolingual and dual language test forms. (Center

for Educational Assessment Research No. 458). Amherst, MA:

School of Education, University of Massachucetts Amherst.

Sireci, S.G., Patsula, L., & Hambleton, R.K. (2005). Statistical

methods for identif ying flaws in the adaptation process. In

R.K. Hambleton, P.F. Merenda & C.D Spielburger (Eds),

Adapting educational and psychological tests for cross-cultural

assessment (pp. 93 – 116). New JerseY; Lawrence Erlbaum

Associates, Inc.

Valdés, G., & Figueroa, R.A. (1994). Bilingualism and testing. A

special case of bias. Norwood, NJ: Ablex Publishing

corporation. 

Van de Vijver, F., & Hambleton, R.K. (1996). Translating tests:

Some practical guidelines. European Psychologist, 1, 89-99.

Van de Vijver, F., & Lueng, K. (1997). Methods and data analysis

for cross-cultural research. Thousand Oaks: Sage.

Van de Vijver, F., & Poortinga, Y.H. (2005). Conceptual and

methodological issues in adapting tests. In R.K. Hambleton,

P.F. Merenda & C.D Spielburger (Eds), Adapting educational

and psychological tests for cross-cultural assessment. (pp. 39 –

64). New Jersey; Lawrence Erlbaum Associates, Inc.

Van de Vijver, F., & Tanzer, N.K. (1998). Bias and equivalence in

cross-cultural assessment: An overview. European Review of

Applied Psychology, 47, 263-279.

Wish, M., & Carroll, J.D. (1974). Applications of individual

differences scaling to studies of human perception and

judgment. In E.C. Carterette and M.P. Friedman (Eds.)

Handbook of Perception, vol. 2. New York: Academic Press.

Yeld, N. (2001). Assessment, equity and language of learning: Key

issues for higher education selection in South Africa.

Unpublished PHD thesis, University of Cape Town, South

Africa.

Zumbo, B. D. (1999). A handbook on the theory and methods of

differential item functioning. Logistic regression modeling as a

unitary framework for binary and likert-type (ordinal) item

scores. Ottawa ON: Directorate of Human Research and

Evaluation, Department of National Defense.

DIE EVALUERING VAN ‘N EENTALIGE TOELATINGSTOETS 101