Bevezető az R statisztikai programcsomaghoz

Mi az az R?

Az R egy statisztikai adatelemző program, mely az utóbbi években nagyon népszerűvé vált. Ennek két oka van: egyrészt ingyenes, másrészt könnyen bővíthető. Az internetről rengeteg könyvtár (library) tölthető le, melyek további funkciókat adnak a programhoz.

Informatikusoknak: Az R igazából egy programozási nyelv, melyet numerikus matematikai számításokra fejlesztettek ki. Sok szempontból hasonlít a Matlabhoz, szokták úgy is nevezni, hogy "a szegény ember Matlabja".

Hogyan kell telepíteni az R programot?

Az R program az R project oldaláról tölthető le. Itt megtalálható a Windows, a Linux és az macOS alá fejlesztett változat is. Néhány tanács a telepítéshez:

Windows: Az R project oldalán klikkeljünk a "Download R for Windows", majd az "install R for the first time" linkre. A kapott oldal tetején a "Download" link segítségével letölthető egy .exe telepítő fájl az R legfrissebb verziójával. A telepítés során kérhetünk egy parancsikont is az asztalra, ezzel lehet elindítani a programot.
FONTOS: Az R legújabb verziója nem támogatja a Windows 7 előtti Windows operációs rendszereket. Ha valaki még mindig Vista-t, XP-t vagy 2000-et használ, akkor telepítse az R 2.12.2 verzióját innen.

Linux: A legtöbb Linux disztribúcióban eleve megtalálható az R program, tehát nem kell külön telepíteni. Indítsuk el a terminált, majd írjuk be a következő parancsot: $ R
Ha az R telepítve van a gépen, akkor kapunk egy 10-15 soros üzenetet arról, hogy az R elindult. A prompt is megváltozik, és a terminálablakban futtathatunk R parancsokat. Az R-ből a q() utasítással lehet kilépni.
Ha a gépen nincsen telepítve az R, akkor a $ R parancs hibaüzenetet ad. Az R project oldalán a "Download R for Linux" link alatt található telepítési útmutató minden létező Linux disztribúcióhoz, ezt javasolt megnézni.

OS X: Az R project oldalán van egy "Download R for macOS" link, ezt tessék követni. Nem vagyok almás, többet sajnos nem tudok segíteni.

Ez a felhasználói felület eléggé fapados!

Ha elindítjuk az R programot, akkor azt tapasztaljuk, hogy felhasználói felületként csak egy konzolt kapunk. Ide tudjuk beírni az adatelemzéshez szükséges parancsokat, és itt jelenik meg az elemzés eredménye. Sajnos ez a felület még informatikusok számára is kényelmetlen, ráadásul egyes szakokon a hallgatók nem is tanulnak programozni. Emiatt az órákon nem ebben az ablakban fogunk majd dolgozni, hanem barátságosabb felhasználói felületeket fogunk majd használni.

Matematika és nappalis informatikus szakokon az RStudio nevű felhasználói felületet használjuk. Ez egy önálló program, melynek legbutább verziója ingyenesen letölthető a fejlesztők honlapjáról. A telepítés során az RStudio megkeresi az R telepítési könyvtárát. Az órai és otthoni munkához nem az R programot, hanem az RStudiot kell elindítani, és ezen keresztül tudjuk futtatni az R utasításokat.

Biológus, biomérnök, biológia tanár és levelezős informatikus szakon az RCommander nevű felhasználói felületet használjuk. Ez a felület nem egy önálló program, hanem egy bővítmény az R programhoz, mely az Rcmdr nevű könyvtárban található meg. A könyvtárak telepítéséről részletesebben írok alább.

Mit jelent az, hogy "könyvtár/library"?

A könyvtárak (library), vagy másnéven csomagok (package) bővítmények, melyek további funkciókat adnak az R programhoz. Ezek a bővítmények gyakran olyan adatelemzési módszereket tartalmaznak, melyek nem találhatóak meg más statisztikai programokban. Az elérhető csomagok listája megtalálható például itt.

A könyvtárakat az R programon belül tudunk telepíteni a számítógépre az install.packages parancs segítségével. Például az Rcmdr nevű csomagot az alábbi utasítással lehet telepíteni:

install.packages("Rcmdr", dependencies=TRUE)

A felugró ablakban majd válasszunk egy közeli szervert (például Austria). Ha a program azt kérdezni, hogy "Do you want to install from sources the package which needs compilation?", akkor válasszuk a No/Nem gombot. Minden más kérdésre Yes/Igen a válasz. Ezek után az R program letölti a csomagot az internetről, ami jónéhány percig is eltarthat.

Az R program az indításkor nem tölti be automatikusan az összes telepített csomagot. A munkánkhoz szükséges könyvtárakat mi magunk a library paranccsal tudjuk betölteni. Például az Rcmdr csomag esetében az alábbi utasítást kell kiadni:

library(Rcmdr)

Ha sikeres volt a telepítés, akkor az Rcmdr könyvtár betöltése után megjelenik egy RCommander nevű ablak, és a továbbiakban itt tudunk dolgozni. Ha sikerült eddig eljutni, akkor nem kell tovább olvasni ezt az oldalt, az R program használatát az órán tanuljuk majd meg.

Linuxot használok, és nem indul el az RCommander!

Linux alatt természetesen ez nem mindig ilyen egyszerű. Egyes Linux disztribúciókban (például Debian) az R garantáltan stabil (tehát őskori) verziói vannak telepítve, melyek nem támogatják az RCommander legfrissebb változatát. Debian alatt például a következő utasítással lehet telepíteni az RCommander megfelelő verzióját (a dokumentáció elérhető itt):

$ sudo apt-get install r-cran-rcmdr

Még mindig nem indul el az RCommander!

Az RCommader futtatásához számos további csomag is szükséges, melyeket szerencsés esetben a program automatikusan letölt, amikor telepítjük az Rcmdr könyvtárat. Viszont előfordulhat, hogy valamelyik csomag mégis hiányzik, és ilyenkor az RCommader nem indul el. Ebben az esetben fussuk át a library(Rcmdr) parancsra kapott hibaüzenetet! Például az alábbi sor arra utal, hogy hiányzik a car nevű csomag:

Error: package ‘car’ could not be loaded

A megoldás az, hogy külön feltelepítjük a hiányzó csomagot egy kis módosítással:

install.packages("car", dependencies=TRUE, type="binary")

Ha nem a car csomag hiányzik, akkor a fenti parancsot értelemszerűen módosítani kell. Ezek után javasolt újra feltelepíteni az Rcmdr csomagot, és csak utána próbálkozni az RCommander betöltésével. Sajnos megtörténhet, hogy az RCommander ekkor sem indul el, ugyanis további csomagok hiányoznak. Ebben az esetben ezeket is telepíteni kell egyesével.