Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. november 8., péntek

(Programozási) nyelvek/eszközök adatbányászathoz

.
A KDnugets idei és eddigi legfrissebb (augusztusi) felmérésének össezsítése:

What programming/statistics languages you used for an analytics / data mining / data science work in 2013? [713 votes total]
"Languages for analytics / data mining / data science"




 És akkor a közvetlen reakciós kommentjeim. ;)

* Az R megkérdőjelezhetetlenül első ma még mindig, de azért csökken az aránya. :)
- Az R úgy régóta kiforrott, magasszintű, gyors illetve támogatott csomagokkal, hogy nagy hátránya nincs, így a kiemelt szerepe magyarázható. Két ellenérvet tudok mindössze felhozni, de azok is eröltetettek:
- Speciális célú nyelv
- Az R annyira és akkora referencia, mint a Weka. Igazodási pont, mindenki akarja közvetlenül támogatni: olyan gigászoktól elkezdve,mint az Oracle. De pont ez a hátránya is, hiszen halványítólag hathat rá, ha a támogatók komoly hozzáadott értéket tudnak mellé tenni, "konkurensként".

* A Python - azt gondolom szerencsére - egyre inkább előretör.
- Az én vesszőparipás kérdésem régóta:  mi az amit a Python nem tud ugyanolyan jól vagy egyenesen még jobban, mint akár egy R vagy Octave? Milyen hátránya van?
- A lambda-kalkulussal még a funkcionális nyelvek felé is nyitott (bár ezt Java alapokon nyilván triviálisabb szemlélni)
- Általános célú nyelv.
- Rapid módon növekvő csomagok, könyvtárak, és egyre inkább minden lényeges pontot lefedően.

* SQL a harmadik helyen. Yessssssssssssssssssssssssssss! ;)
- Aki ismer, az még keveselheti is az "s"-ek számát a fenti "yes"-ben :)
- Nálam übereli a visual-streamek fontosságát is.
- Az SQL roppant kifejező nyelv
- Data Mining felé is nyitott, lásd Oracle (9i-től).
- Azon szűk halmazába tartozom a világ népességének, aki szerint, az a feladat, amit SQL-ben nem lehet megcsinálni, az nem létezik :)
- Egyetlen csúnya vonása a nyelvjárások sokasága.

* SAS negyedik helye viszont nagyon fáj gyarló személyemnek. :(( /legnagyobb ellendrukkerük vagyok/
- A SAS semmi úttörő jelentőségű hozzáadott értéket nem adott a szakmában (visual stream az angol Integral Solution Ltd (ISL) találmánya volt, akiktől megvette a terméket az SPSS 1999-ben)
- Végtelen - profitmaximalizálásnak hívott - kapzsiságával tán legkomolyabb kerékkötője volt a data mining nagyobb terjedésének.
- Szegényes node-készlet, korlátos funkcionális tudás jellemzi (más termékekhez viszonyítva)
- Per a mai napig minden határon túl eszement drága: nem is érti az ember, hogy hogyan élnek meg.
- Azt viszont el kell ismerni, hogy valamit tudtak/tudnak, ha 2013-ban ilyen erősek a pozicióik.

* Java korrekt pozicióban van és örömteli alternatíva volt eddig is, meg lesz ezután is remélhetőleg.Ha egy Apache Mahout-ra gondolunk, az innováció itt sem áll meg.

* Sajnálom, hogy a Matlab ennyire megelőzi az Octave-ot
- Nem vitatom jó eszköz a Matlab, jó dolgozni vele, nemvéletlenül szeretik az egyetemek.
- Az ecoysysteme meggyőzően kiterjedt.
- Az ára viszont nagyon túlzás
- Pláne úgy, hogy matlab programokat mások tudnak gyorsabb végrehajtásúra fordítani.
- Az Octave-ról mindent elmond, hogy a Coursera-s kurzusok rajta keresztül igyekeznek tanítani a Machine Learning jellegű tárgyakat. :)

 * High-level Data Mining Suite. Azt kell mondjam jogos az előkelő helyezése. Teljesen jó és támogatandó alternatíva. Nem is érdemes, nem is szabad ellene küzdeni.

* Awk/Sed/Perl....
- Iziben dobtam egy hátast, ezekre az atavisztikus csökevényekre. ;)
- Én elhiszem, hogy beléjük lehet szeretni, de annyira, hogy minden mást ignorjon valaki előre és látatlanba.
- Meg ad absurdum, az assembly, akkor miért nincs a listában? Az is van olyan nehezen olvasható és módosíthatatlan, mint a fentiek.
- Azért attól remélem messze vagyunk, hogy egy növekvő részhalmaz lenne. ;)

* Pig és Hive még messze van az SQL-től.Sokat kell még fejlődniük, többet mint az ábra tükröz. ;)

* Funkcionális nyelvek mindenütt.
Ismét csak megállapíthatóan
És végül is meg is érthető, sőt egyre inkább megérthető a dolog,

* Ezt a Juliát egyre többet látom, most már lassan rá fogok keresni, mi fán terem :)

Nincsenek megjegyzések:

Megjegyzés küldése