toplista - címke - it-tanfolyam.hu

Alkalmazottak életpálya modellje – mi lenne, ha…?

2024. április 20.2023. június 12. Szerző: Kaczur Sándor

Kiss Balázs kolléga Alkalmazottak életpálya modellje – munkakör, fizetés jutalék blog bejegyzése inspirálta ezt a blog bejegyzést. Az Oracle HR sémában az értékesítési vezetők adható havi fizetése 10000 és 20000 között van, átlagfizetésük 12200. Az üzletkötők paraméterei hasonlóan: 6000, 12000, 8350. A pénznem USD. Mi lenne, ha…? Ha többféleképpen is kalkulálhatnánk jutalékokat fizetési modellek alapján. Vajon hogyan lehetne választani? Következzen kétféle fizetési modell az alkalmazottak jutalékaihoz kötődően.

Alkossunk egy fizetési modellt! Hogyan kalkuláljuk a jutalékokat?

A jutalék negyedévente kerül kifizetésre és a havi fizetés megadott százaléka. Például: Elizabeth Bates üzletkötő havi fizetése 7300, jutaléka 15%, azaz minden 3. hónapban a fizetése 8395 helyett 10585. A negyedévek első két hónapjában a cég bérköltsége 691400, az utolsó hónapjában pedig 765090. Mindez arra a 106 fő alkalmazottra vonatkozik, akik részleghez tartoznak. Nincs benne az az 1 fő, aki nincs részleghez rendelve.

Összesített megoldás

A lekérdező SQL parancs:

Eredményül ezt az eredménytáblát adja:

Részlegekre összesített 1. megoldás

Vegyük figyelembe azt a 106 fő alkalmazottat, akik részleghez tartoznak (a 107 fő közül). Az alábbi lekérdező SQL parancsot futtatva:

Az eredménytábla 11 rekordból áll. A százalékok a részlegre jutó bérköltség arányát fejezik ki (tényleges fizetésre és jutalékos fizetésre vonatkoztatva).

Részlegekre összesített 2. megoldás

Balázs írta, hogy a Sales részlegben 35-en dolgoznak. Ez akkor helytálló, ha a munkakörök alapján kérdezzük le és láttuk, hogy a 35 főből értékesítési vezetőként 5 fő, üzletkötőként 30 fő dolgozik. Igen ám, de van egy olyan alkalmazott, aki nem tartozik egy részleghez sem ( DEPARTMENT_ID IS NULL), ezért kapjuk az előző eredménytábla szerint a Sales részlegben a 34 főt. Ugyanis az azt előállító lekérdező parancs a DEPARTMENT_ID részlegazonosító alapján kapcsolja össze a két táblát ( EMPLOYEES és DEPARTMENTS). Ha az ő fizetését is figyelembe kell venni, akkor ez lehetséges az alábbi lekérdező paranccsal:

Az eredménytáblában az utolsó, 12. rekord tartalmazza az eddig hiányzó 1 fő alkalmazott adatait:

Az eredménytábla – az utolsó rekord kivételével – majdnem megegyezik az előzővel. A fizetési modell szerint a negyedévek első két hónapjában a cégre vonatkozó bérköltség 7000-rel növekszik és a negyedévek harmadik hónapjában pedig 8050-nel. A fizetések arányát százalékban egy tizedesjeggyel ábrázolva szinte nem vehető észre a különbség. A rekordok azonos sorrendjétől tekintsünk most el, hiszen a UNION és az ORDER BY alparancsok alkalmazása együtt külön történet. Aki érti, hogy mire gondolok, most biztosan kacsint egyet. 😉 Aki még nem érti, annak részletesen elmagyarázzuk Java adatbázis-kezelő tanfolyamunkon. Továbbá a százalékokat összesítve a kerekítésük miatt nem kapunk pontosan 100%-ot.

Az így kapott adatok kiegészítik a Top 5 fizetésű alkalmazottak listája blog bejegyzésben kapott adatokat. Ott nem szerepelnek az alkalmazottak részlegei, de természetesen könnyen összepárosíthatók. Másképpen: a 107 fő alkalmazottból 35 fő (32,7%) kapja a fizetések 45%-át jutalék nélkül, illetve 50,4%-t jutalékkal kalkulálva. Tehát érdemes/megéri a Sales részlegben dolgozni. Még akár jutalék nélkül is. 🙂

A bejegyzéshez tartozó teljes Java forráskódot (ami beépítve tartalmazza a fenti SQL lekérdező parancsokat) ILIAS e-learning tananyagban tesszük elérhetővé tanfolyamaink résztvevői számára.

A feladatok a Java adatbázis-kezelő tanfolyam 13-16. óra: Konzolos kliensalkalmazás fejlesztése JDBC alapon, 1. rész alkalmához és a 33-36. óra: Grafikus kliensalkalmazás fejlesztése JDBC alapon, 1. rész alkalmához kötődnek.

Az SQL forráskód formázásához a Free Online SQL Formatter-t használtam.

Alkossunk másik fizetési modellt! Várjuk hozzászólásban a megoldás SQL parancsait.

Vajon hogyan változna az előző fizetési modell, ha a negyedévente kifizetendő jutalék számítási alapja a havi fizetés helyett a háromhavi – időszakra vonatkozó – fizetés megadott százaléka lenne? Hogyan alakulna a cég bérköltsége?

Rómeó és Júlia

2023. augusztus 4.2021. február 14. Szerző: Kaczur Sándor

Vajon hogyan kerül elő a Rómeó és Júlia az it-tanfolyam.hu szakmai blogban témaként? Hiszen mégiscsak egy Shakespeare színműről/tragédiáról van szó. Vajon mit programozhatunk Java nyelven ehhez kötődően épp Valentin-napon? Mindjárt kiderül.

Tegyünk fel egy kérdést és próbáljunk rá válaszolni! Vajon ki szereti jobban a másikat? Rómeó vagy Júlia?

Induljunk el az adatforrásból, amihez alkalmazkodnunk kell. A színmű angol nyelven publikusan elérhető XML formátumban: The Tragedy of Romeo and Juliet. Az XML fájlok könnyen feldolgozhatók Java nyelven. Részletek a fájlból (görgethető):

<?xml version="1.0"?>

<LINE>Two households, both alike in dignity,</LINE>

<LINE>In fair Verona, where we lay our scene,</LINE>

<LINE>From ancient grudge break to new mutiny,</LINE>

<LINE>Where civil blood makes civil hands unclean.</LINE>

...

</SPEECH>

<SPEAKER>ROMEO</SPEAKER>

<LINE>Is the day so young?</LINE>

</SPEECH>

<SPEAKER>ROMEO</SPEAKER>

<LINE>Stay, fellow; I can read.</LINE>

<STAGEDIR>Reads</STAGEDIR>

<LINE>'Signior Martino and his wife and daughters;</LINE>

<LINE>County Anselme and his beauteous sisters; the lady</LINE>

...

<LINE>assembly: whither should they come?</LINE>

</SPEECH>

<SPEAKER>ROMEO</SPEAKER>

<LINE><STAGEDIR>To JULIET</STAGEDIR> If I profane with my unworthiest hand</LINE>

<LINE>This holy shrine, the gentle fine is this:</LINE>

<LINE>My lips, two blushing pilgrims, ready stand</LINE>

<LINE>To smooth that rough touch with a tender kiss.</LINE>

</SPEECH>

<STAGEDIR>Enter JULIET</STAGEDIR>

</ACT>

Az XML fájl felépítését tanulmányozva (1-5 alapján) megállapíthatóak az alábbiak:

A színmű öt felvonásból áll, ezeket <ACT></ACT> csomópontok jelölik.
Egy „adagnyi” beszédet a <SPEECH></SPEECH> csomópont fog össze.
A csomópontban található, hogy ki beszél: ez a <SPEAKER></SPEAKER> elem. A mesélő, kar esetén ez az elem üres, és a null-t nem szabad feldolgozni.
A csomópontban találhatók a szabadvers kimondott sorai: ezek a <LINE></LINE> elemek. Legalább egy sor minden beszédben van, és nem tudjuk előre a számukat.
Nem következetes helyen a DOM-ban, többféleképpen beágyazva és önállóan is előfordulhatnak <STAGEDIR></STAGEDIR> elemek. Ezek a színmű Kosztolányi-féle magyar fordításában dőlt betűvel megjelenő – cselekvésre utaló – színpadi utasítások. Van köztük csók is, amit az XML-ből nem szabad feldolgozni, bár erősen ráutaló magatartás. 🙂
Nem tudjuk előre, hogy hány csomópont található a fájlban.

A Java program készítése, tesztelése közben – mintegy mellékesen – megtudhatjuk, hogy Rómeó 612 sorban 24075 betűnyi, Júlia 544 sorban 21855 betűnyi szöveget mond. Persze nem mindet egymásnak mondják. Eközben vajon hányszor mondják ki a szeret, szeretem, szeretlek szavakat? A ragoktól, toldalékoktól, kis- és nagybetűket nem megkülönböztetve és attól is eltekintve, hogy éppen kinek/kiknek mondják amit éppen mondanak, egy becsléshez elegendő, ha a love szóra fókuszálunk (számíthatna a loving alak is).

Az alábbi Java forráskód betölti az XML fájlt a memóriába. Ezután kiválogatja a beszédeket. Ha a beszélő élő ember (szereplő), akkor érdekes, hogy mit/miket mond. Ha ROMEO vagy JULIET mondja az adott sort, akkor azt a program kiválogatja két generikus listába ( romeoLineList és julietLineList) beszédnyi adagokban. Ez nem szétválogatás programozási tétel, mert nem minden beszéd minden sora kerül valahová. A kivételkezelés nem kidolgozott.

private static ArrayList<String> getLineList(final Node SPEECH) {

ArrayList<String> lineList=new ArrayList<>();

NodeList nodeList=((Element)SPEECH).getElementsByTagName("LINE");

for(int i=0; i<nodeList.getLength(); i++) {

String line=

((Element)nodeList.item(i)).getFirstChild().getNodeValue();

lineList.add(line);

}

return lineList;

}

public static void main(String[] args) {

ArrayList<String> romeoLineList=new ArrayList<>();

ArrayList<String> julietLineList=new ArrayList<>();

try {

NodeList speechList=DocumentBuilderFactory.newInstance().

newDocumentBuilder().parse(new File("./files/r_and_j.xml")).

getDocumentElement().getElementsByTagName("SPEECH");

for(int i=0; i<speechList.getLength(); i++) {

Node speech=speechList.item(i);

Node speaker=((Element)speech).getElementsByTagName("SPEAKER").

item(0).getFirstChild();

if(speaker!=null)

switch(speaker.getNodeValue()) {

case "ROMEO":

romeoLineList.addAll(getLineList(speech));

break;

case "JULIET":

julietLineList.addAll(getLineList(speech));

}

catch(ParserConfigurationException | SAXException | IOException e) {

e.printStackTrace();

}

//...

}

Könnyen megkaphatjuk, hogy Rómeó hány darab olyan sort mond, amely tartalmazza a love szót. Például ennek a lambda kifejezésnek kiíratva az eredményét a konzolra:

romeoLineList.stream().

filter(f->f!=null).filter(f->f.toLowerCase().contains("love")).

count();

Könnyen megkaphatjuk Rómeótól a 53 sornyi szöveget is így:

romeoLineList.stream().

filter(f->f!=null).filter(f->f.toLowerCase().contains("love")).

forEach(line->System.out.println(line));

Íme Rómeó kiválogatott sorai (az 5. sorban kétszer is előfordul a love, de ez most nem számít):

Out of her favour, where I am in love.

Alas, that love, whose view is muffled still,

Here's much to do with hate, but more with love.

Why, then, O brawling love! O loving hate!

This love feel I, that feel no love in this.

Why, such is love's transgression.

With more of thine: this love that thou hast shown

Love is a smoke raised with the fume of sighs;

Being purged, a fire sparkling in lovers' eyes;

Being vex'd a sea nourish'd with lovers' tears:

In sadness, cousin, I do love a woman.

A right good mark-man! And she's fair I love.

From love's weak childish bow she lives unharm'd.

She hath forsworn to love, and in that vow

widow of Vitravio; Signior Placentio and his lovely

One fairer than my love! the all-seeing sun

Under love's heavy burden do I sink.

Is love a tender thing? it is too rough,

Did my heart love till now? forswear it, sight!

It is my lady, O, it is my love!

O, that I were a glove upon that hand,

Call me but love, and I'll be new baptized;

With love's light wings did I o'er-perch these walls;

For stony limits cannot hold love out,

And what love can do that dares love attempt;

And but thou love me, let them find me here:

Than death prorogued, wanting of thy love.

By love, who first did prompt me to inquire;

If my heart's dear love--

The exchange of thy love's faithful vow for mine.

Wouldst thou withdraw it? for what purpose, love?

Love goes toward love, as schoolboys from

But love from love, toward school with heavy looks.

How silver-sweet sound lovers' tongues by night,

Then plainly know my heart's dear love is set

And bad'st me bury love.

I pray thee, chide not; she whom I love now

Doth grace for grace and love for love allow;

A gentleman, nurse, that loves to hear himself talk,

Then love-devouring death do what he dare;

Tybalt, the reason that I have to love thee

But love thee better than thou canst devise,

Till thou shalt know the reason of my love:

Wert thou as young as I, Juliet thy love,

My conceal'd lady to our cancell'd love?

No nightingale: look, love, what envious streaks

That may convey my greetings, love, to thee.

And trust me, love, in my eye so do you:

Ah me! how sweet is love itself possess'd,

When but love's shadows are so rich in joy!

By heaven, I love thee better than myself;

Call this a lightning? O my love! my wife!

Here's to my love!

Hasonlóan megkaphatjuk Júlia 38 kiválogatott sorát is:

My only love sprung from my only hate!

Prodigious birth of love it is to me,

That I must love a loathed enemy.

Or, if thou wilt not, be but sworn my love,

Dost thou love me? I know thou wilt say 'Ay,'

Thou mayst prove false; at lovers' perjuries

If thou dost love, pronounce it faithfully:

My true love's passion: therefore pardon me,

And not impute this yielding to light love,

Lest that thy love prove likewise variable.

This bud of love, by summer's ripening breath,

My love as deep; the more I give to thee,

I hear some noise within; dear love, adieu!

If that thy bent of love be honourable,

Remembering how I love thy company.

O, she is lame! love's heralds should be thoughts,

Therefore do nimble-pinion'd doves draw love,

My words would bandy her to my sweet love,

Sweet, sweet, sweet nurse, tell me, what says my love?

'Your love says, like an honest gentleman,

But my true love is grown to such excess

Spread thy close curtain, love-performing night,

Lovers can see to do their amorous rites

By their own beauties; or, if love be blind,

With thy black mantle; till strange love, grown bold,

Think true love acted simple modesty.

That all the world will be in love with night

O, I have bought the mansion of a love,

My dear-loved cousin, and my dearer lord?

Believe me, love, it was the nightingale.

Art thou gone so? love, lord, ay, husband, friend!

To wreak the love I bore my cousin

But thankful even for hate, that is meant love.

I will confess to you that I love him.

To live an unstain'd wife to my sweet love.

Love give me strength! and strength shall help afford.

And gave him what becomed love I might,

What's here? a cup, closed in my true love's hand?

Próbáljunk válaszolni a fentiek alapján a feltett kérdésre! Következtethetünk arra, hogy Rómeó jobban szereti Júliát. Legalábbis többször említi. 53>38. Persze tudjuk, hogy mindez nem ilyen egyszerű. 🙂

A bejegyzéshez tartozó teljes forráskódot ILIAS e-learning tananyagban tesszük elérhetővé tanfolyamaink résztvevői számára.

A feladat a Java SE szoftverfejlesztő tanfolyam szakmai moduljának 21-24. óra: Objektumorientált programozás 2. rész, 25-28. óra: Objektumorientált programozás 3. rész, valamint a Java EE szoftverfejlesztő tanfolyam szakmai moduljának 9-12. óra: XML feldolgozás alkalmaihoz kötődik.

Nagyon különböző megoldásokat készíthetünk és szerteágazóan gyakorolhatunk, ha:

az XML fájlt kézzel mentjük a webről és utána a helyi fájlrendszerből dolgozzuk fel,
az XML fájlt közvetlenül a webről, dinamikusan olvassuk,
csak beépített XML-feldolgozást használunk,
külső XML API-t használunk,
DOM, SAX, XSL, van-e DTD,
XPath kifejezésekkel adunk választ a kérdésre,
a fenti didaktikusan egyszerű megoldás helyett haladóbb eszközöket (például: Stream API-t) használunk.

Top 5 fizetésű alkalmazottak listája

2023. augusztus 4.2020. május 23. Szerző: Kaczur Sándor

Az a feladatunk, hogy az Oracle HR sémából lekérdezve állítsuk elő a top 5 fizetésű alkalmazottak listáját, a fizetések csökkenő sorrendjében. Ez egytáblás lekérdezéssel megvalósítható. Az EMPLOYEES táblában megtalálható az összefűzött névhez szükséges FIRST_NAME és LAST_NAME mezők, valamint a fizetés a SALARY mezőben. Minden alkalmazottnak van neve és fizetése. Előfordul legalább 5 különböző fizetés.

Tanfolyamainkon többféleképpen modellezzük és tervezzük meg a feladat megoldását.

Megoldás (Java SE szoftverfejlesztő tanfolyam)

A Java SE szoftverfejlesztő tanfolyam 45-52. óra: Adatbázis-kezelés JDBC alapon alkalmain a következők szerint modellezünk és tervezünk.

Kiindulunk az alábbi egyszerű lekérdező parancsból (V1):

Eredményül ezt kapjuk (részlet, V1):

A kapott 107 rekordból álló eredménytáblát a Java kliensprogram fejlesztése során leképezzük egy generikus POJO listába, a rekordonként összetartozó két adatból előállítva az objektumok tulajdonságait. Kiderül, hogy a 17000 többször is előfordul. Mivel bármely fizetés előfordulhatna többször is, így előre nem tudjuk, hogy az eredménytáblából mennyi rekordot kell áttölteni a listába. A fizetésekből generikus halmazt építhetve, addig tudjuk folytatni a beolvasást, amíg a halmaz elemszáma kisebb ötnél. Eredményül hat rekordot kapunk. A Java kliensprogram forráskódját most nem részletezzük, de tanfolyamaink hallgatói számára ILIAS e-learning tananyagban tesszük elérhetővé a teljes forráskódot. Ennél a megoldásnál egyszerűbb a lekérdező parancs, de több feladat hárul a Java kliensprogramra.

Lássunk néhány tévutat és az általános megoldás helyett konkrét megoldásokat! Ha szeretnénk adatbázis oldalon megoldani a feladatot, akkor használhatnánk a ROWNUM pszeudooszlopot. Ez 1-től sorszámozza az eredménytáblát, így használható lehetne arra, ha limitálni szeretnénk a visszaadandó rekordok számát.

1. elvi hibás lekérdező parancs:

1. elvi hibás eredmény:

A hiba elvi, a lekérdező parancs szintaktikailag helyes. A harmadik oszlopban látjuk, hogy a rekordok sorszámozása megtörténik, de a kapott nevek és fizetések eltérnek a V1 esetben kapott helyes eredménytől. Az okokat természetesen megbeszéljük. Támpont: próbáljuk meg a lekérdező parancs feltételében kicserélni az 5-öt például 10-re és próbáljuk megmagyarázni, miért kapjuk azt, amit kapunk. Továbbá a konkrét esetben tudjuk, hogy hat rekordot kellene kapunk. Felmerülhet a gyanú, hogy a rendezés túl későn történik meg. Megpróbáljuk zárójelezéssel és lekérdezések egymásba ágyazásával befolyásolni a WHERE és ORDER BY alparancsok végrehajtási sorrendjét.

2. elvi hibás lekérdező parancs:

2. elvi hibás eredmény:

A hiba most is elvi, a lekérdező parancs szintaktikailag helyes. A zárójelezés valóban hatással van a két alparancs végrehajtási sorrendjére és megfigyelhető, hogy a harmadik oszlopban a rekordok táblabeli fizikai sorrendje jelenik meg és a feltétel ( ROWNUM <= 5) nem a mező értékére, hanem a rekordok darabszámára értendő. Nyilván az 5-öt 6-ra módosítva visszakaphatnánk a V1 első hat rekordját, de ez nem lenne általános megoldás. Más úton is eljuthatunk a konkrét megoldáshoz.

3. elvi hibás lekérdező parancs:

3. konkrét megközelítéssel kapott helyesnek látszó eredmény:

A hiba most is elvi, a lekérdező parancs szintaktikailag helyes. Általános megoldás helyett konkrét megoldásként megkapjuk a V1 első hat rekordját, de ehhez be kellett építeni a lekérdező parancsba a 13000-et. Ez a Top 5-ben legkisebb fizetés. Megbeszéljük, hogy miért hasznos a DISTINCT módosító/kulcsszó beépítése a lekérdező parancsba.

Megoldás (Java adatbázis-kezelő tanfolyam)

A Java adatbázis-kezelő tanfolyam 9-12. óra: Oracle HR séma elemzése, 13-16. óra: Konzolos kliensalkalmazás fejlesztése JDBC alapon, 1. rész, 33-36. óra: Grafikus kliensalkalmazás fejlesztése JDBC alapon, 2. rész alkalmával a következők szerint modellezünk és tervezünk.

Most arra helyezzük a hangsúlyt, hogy back-end, azaz adatbázis oldalon állítsuk elő az eredményt és ezáltal a front-end, azaz a Java kliensprogram egyszerűbb lehet. A lekérdező parancsot belülről kifelé haladva gondoljuk végig. Először kell egy halmaz a különböző fizetésekről csökkenő sorrendben. Utána ebből kell az első öt darab, amelyek halmazt alkotnak. Végül erre építve kell azoknak az alkalmazottaknak a neve és fizetése, akiknek a fizetése benne van a halmazban.

1. majdnem helyes megoldás:

1. általános megközelítéssel kapott helyesnek látszó eredmény:

A probléma az, hogy az adatok helyes sorrendje a véletlennek köszönhető. Ha a lekérdező parancs feltételében az 5 helyett nagyobb számokat helyettesítünk be, akkor ez jól megfigyelhető. A következő megoldás már ezt a problémát is kezeli.

Finomítva a 3. elvi hibás lekérdező parancsot, a konkrét 13000 helyettesíthető belső lekérdező paranccsal. Építsük ezt be az 1. helyes megoldásba úgy, hogy az IN predikátum helyett használjuk a nagyobb vagy egyenlő hasonlító operátort. A középső lekérdező parancs a halmaz helyett már csak egyetlen értéket adjon vissza, amelyhez könnyű hasonlítani az aktuális alkalmazott fizetését. Ezzel kiváltható a nagyobb memóriaigényű halmazban való tartalmazottságot eldöntő művelet, a jóval hatékonyabb egy értékkel való összehasonlítással. Memóriaigény szempontjából nem maga a konkrét művelet/operátor az érdekes, hanem a használatukhoz szükséges adatok előállítása, mennyisége, tárolása, feldolgozása.

2. helyes megoldás:

2. általános megközelítéssel kapott helyes eredmény:

Közben az is kiderült, hogy miért szükséges két helyen az ORDER BY alparancs.

Végül, ha ismerjük az Oracle DENSE_RANK() analitikai függvényét, amely egy rendezett lista különböző elemeihez rendel sorrendben számokat (másképpen rangsort állít fel 1-től kezdve), akkor elkészíthetjük az alábbi megoldást.

3. helyes megoldás:

3. általános megközelítéssel kapott helyes eredmény:

Érdemes átgondolni és összehasonlítani a többféle különböző megközelítés lehetőségeit, korlátait. Ha egyensúlyozni kell a kliensprogram és az adatbázis-szerver terhelése között, valamint az MVC modell összetettsége, karbantarthatósága, könnyen dokumentálhatósága a/is szempont, akkor többféle alternatív módszer is bevethető, valamint építhetünk a különböző Oracle verziók (dialektusok) képességeire is.

Az SQL forráskódok formázásához a Free Online SQL Formatter-t használtam.

Címkefelhő generálása

2023. augusztus 4.2020. április 21. Szerző: Kaczur Sándor

A címkefelhők/szófelhők népszerűek, sok weboldalon megtalálhatóak. A CMS rendszerekben beépített szolgáltatás is lehet, vagy külön bővítmény/plugin is megvalósíthatja. Egy szövegben előforduló szavakból a gyakrabban előfordulókat nagyobb betűmérettel emeli ki. Eredménye lehet listás, táblázatos, esetleg képpé generált is. Kétféleképpen is megközelíthető, erre utal a Word Cloud és a Tag Cloud elnevezés. Utóbbi inkább egy blog taxonomiájához kapcsolódik és kategóriákra/címkékre érvényesül. A szakmai blogunkhoz is tartozik egy táblázatos címkefelhő. A szófelhő a szöveg betűméretén túl megjelenítheti a szavak előfordulását, például Java forráskód (63), címkefelhő (2).

Példánkban tetszőleges szöveget dolgozunk fel. Ebből felépítünk egy előfordulást is mutató listás szófelhőt, amely rendezett, és a szavak betűmérete 32-16-ig változik. Azok a szavak kerülnek a szófelhőbe, amelyek legalább 5-ször előfordulnak. Kezelünk kivételeket is, például olyan szavakat, amiket nem érdemes szófelhőbe tenni. Lépésenként haladva ismertetjük a megvalósító forráskódot, és külön megjeleníthetők az egyes lépések részeredményei.

A Java programozási nyelv csomagjait, osztályait, interfészeit, metódusait, műveleteit használjuk. Különböző adatszerkezetek kerülnek elő: tömb, generikus lista, generikus map, generikus folyam. Építünk a Stream API szolgáltatásaira és a lambda kifejezésekre. A megvalósítás könnyen testre szabható, kezeli a tipikusan előforduló igényeket.

1. Szövegforrás előkészítése

Generálunk egy 10 bekezdésből álló szöveget a Lorem Ipsum – All the facts – Lipsum generator weboldalon és a későbbi feldolgozáshoz mentjük a Java projekt files mappájába lorem.txt néven. A fájl mérete: 5781 bájt. Szövegfájl:

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Curabitur quis mauris laoreet, lobortis orci eget, egestas dui. Vivamus pretium nunc sit amet ex dictum rutrum. Duis sodales augue dui, vitae porta eros auctor non. Pellentesque vehicula sollicitudin scelerisque. Sed urna massa, auctor nec tellus at, iaculis dictum ligula. Nunc vitae metus quis velit hendrerit finibus. Aenean et nunc et sem facilisis sagittis. Phasellus vestibulum accumsan eleifend. Etiam finibus est fringilla augue imperdiet lacinia. Suspendisse eleifend, magna quis sollicitudin euismod, turpis enim pretium nulla, at vulputate justo sem vel ipsum. Donec vestibulum risus viverra purus sodales, nec laoreet tortor volutpat. Pellentesque vitae sodales odio. Morbi tristique vitae justo ac dictum. Nam eleifend dolor sapien, ullamcorper pellentesque quam semper quis.

Suspendisse eu aliquet lectus. Maecenas placerat nunc nec ipsum tempor suscipit. Donec fringilla lacinia aliquam. Fusce maximus nunc eget nibh dignissim, id aliquam ex fringilla. Donec eget blandit tortor. Nunc at ornare lectus, non varius augue. Donec cursus velit ligula, non volutpat tellus euismod eu. Mauris dictum nisl consequat nisl dapibus placerat. Maecenas in purus leo. Praesent imperdiet aliquet porttitor. Nunc tempus maximus enim. Integer imperdiet luctus lorem eget luctus. Nullam et sapien fringilla, vestibulum lectus at, porttitor odio. Sed cursus mollis ante, ac volutpat est facilisis non.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum id posuere tellus. Quisque ornare, sem ac maximus porttitor, eros dui porta sem, ornare vulputate mi leo vel nunc. Donec leo ex, fringilla cursus dui at, congue euismod velit. Nunc viverra lectus vel nunc tempus viverra. Suspendisse potenti. Integer vel purus commodo, rutrum lectus nec, pharetra sem. Proin blandit tincidunt turpis in pulvinar. Aliquam malesuada tellus id dui ullamcorper pellentesque. Donec vel urna felis.

Morbi blandit ipsum eget tellus efficitur, ac pulvinar nunc porttitor. Quisque nec posuere elit, ac sollicitudin sem. Vestibulum faucibus ante lectus, vel congue erat molestie sed. Maecenas ac leo porttitor, congue felis sit amet, dignissim nibh. Quisque porttitor neque maximus est scelerisque, nec gravida orci eleifend. Aenean ac magna ut dolor aliquet fermentum vel nec risus. Phasellus in ullamcorper mauris. Phasellus semper blandit bibendum. Cras vitae purus fermentum diam dapibus dictum. Curabitur sapien neque, rutrum in dapibus eu, ornare at ante.

Integer facilisis, libero convallis pellentesque gravida, velit odio interdum nisi, vel ultricies nisl sapien et eros. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Morbi nec ante at ante blandit fringilla eu sed nisi. Suspendisse potenti. Maecenas neque lacus, laoreet nec lacinia efficitur, suscipit at est. Mauris lacinia fringilla ligula, sit amet blandit nisl ullamcorper sed. Nulla et velit laoreet, egestas sapien vitae, elementum leo. Suspendisse laoreet nibh neque, et convallis dolor vulputate id.

Fusce at elit a libero ullamcorper interdum vitae bibendum urna. Proin porta est lorem, eget accumsan nibh placerat ut. Aenean scelerisque, lectus rutrum efficitur mollis, elit eros dapibus velit, eu lobortis ipsum felis quis dui. Cras quis faucibus eros, eget scelerisque ligula. Proin tempor felis quis tellus ornare sodales. Curabitur quam sapien, venenatis nec diam in, molestie euismod arcu. Morbi malesuada sodales metus, vitae ornare nisl eleifend nec. Nulla nec metus sed diam vestibulum commodo vel vitae lectus. Suspendisse quis quam eu nibh suscipit faucibus quis ut orci.

Cras quis mi sit amet ante fermentum consectetur. Aliquam euismod libero vitae euismod dapibus. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Morbi auctor in mi vitae egestas. Aenean justo nisl, consectetur quis dui cursus, consectetur commodo lacus. In scelerisque erat ac ligula aliquet ultrices. Aliquam rutrum ut tortor sed pellentesque. Aliquam semper, felis sed finibus scelerisque, neque odio consectetur odio, eget imperdiet quam quam ut arcu. Maecenas non arcu tempus, ornare quam vel, fringilla turpis. Vivamus rhoncus velit sed mauris pretium pharetra. Mauris tempor, leo quis tristique ullamcorper, mauris mi aliquet dui, sed ullamcorper risus nunc quis metus.

Donec in laoreet lectus. Ut sit amet mattis diam. Maecenas et mauris eget lacus mollis sodales. Pellentesque porttitor venenatis accumsan. In a aliquet tortor. Donec condimentum lectus sem, quis ornare magna dapibus ac. Mauris maximus dolor in porttitor pulvinar. Cras ut magna eros. Nullam eu dolor eget purus aliquam bibendum vel nec erat. Duis augue justo, ornare non urna id, elementum pulvinar arcu. Donec placerat quam lorem, pulvinar laoreet justo hendrerit vitae. Suspendisse porta accumsan leo. Mauris suscipit urna ac erat convallis auctor.

Quisque sollicitudin elit odio. Mauris tempor eu lorem nec rhoncus. Aliquam in feugiat tellus. Maecenas elementum euismod ex. In maximus scelerisque viverra. Nam vel placerat quam, sit amet eleifend nisi. Cras porta tincidunt malesuada. Ut congue porta pellentesque. Donec porttitor elit ac tempor malesuada. Etiam ultricies laoreet ante, vitae interdum felis rhoncus eu. Morbi dignissim consequat semper.

Nam luctus molestie turpis, vel bibendum ante lobortis eget. Orci varius natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Sed cursus urna nisl, molestie faucibus libero pulvinar nec. Nulla facilisi. Integer lorem odio, suscipit vel risus eget, tempor vulputate nulla. Morbi a posuere arcu. Praesent et arcu dolor. Sed placerat eros vel lacus interdum viverra. Ut pulvinar dui ac enim rhoncus hendrerit.

2. Szöveges tartalom előkészítése

String s=new String(Files.readAllBytes(Paths.get("./files/lorem.txt")));

s=s.replace("\n", "").replace("\r", "").replace(",", "").

replace(".", "").toLowerCase();

A megadott útvonalról a java.nio csomag metódusaival betöltjük a szövegfájl tartalmát byte[]-be, majd az s szövegbe. A replace() metódus hívásaival eltávolítjuk a szövegből a sor és bekezdés végét jelző soremelés ( LF="\n") és kocsi vissza ( CR="\r") vezérlőkaraktereket, a vessző és a pont írásjeleket (mindet külön-külön cseréljük a semmire), végül kisbetűssé alakítjuk ( toLowerCase()) a szöveget. A szöveg 5563 db karakterből áll. Előkészített szöveg:

lorem ipsum dolor sit amet consectetur adipiscing elit curabitur quis mauris laoreet lobortis orci eget egestas dui vivamus pretium nunc sit amet ex dictum rutrum duis sodales augue dui vitae porta eros auctor non pellentesque vehicula sollicitudin scelerisque sed urna massa auctor nec tellus at iaculis dictum ligula nunc vitae metus quis velit hendrerit finibus aenean et nunc et sem facilisis sagittis phasellus vestibulum accumsan eleifend etiam finibus est fringilla augue imperdiet lacinia suspendisse eleifend magna quis sollicitudin euismod turpis enim pretium nulla at vulputate justo sem vel ipsum donec vestibulum risus viverra purus sodales nec laoreet tortor volutpat pellentesque vitae sodales odio morbi tristique vitae justo ac dictum nam eleifend dolor sapien ullamcorper pellentesque quam semper quissuspendisse eu aliquet lectus maecenas placerat nunc nec ipsum tempor suscipit donec fringilla lacinia aliquam fusce maximus nunc eget nibh dignissim id aliquam ex fringilla donec eget blandit tortor nunc at ornare lectus non varius augue donec cursus velit ligula non volutpat tellus euismod eu mauris dictum nisl consequat nisl dapibus placerat maecenas in purus leo praesent imperdiet aliquet porttitor nunc tempus maximus enim integer imperdiet luctus lorem eget luctus nullam et sapien fringilla vestibulum lectus at porttitor odio sed cursus mollis ante ac volutpat est facilisis nonlorem ipsum dolor sit amet consectetur adipiscing elit vestibulum id posuere tellus quisque ornare sem ac maximus porttitor eros dui porta sem ornare vulputate mi leo vel nunc donec leo ex fringilla cursus dui at congue euismod velit nunc viverra lectus vel nunc tempus viverra suspendisse potenti integer vel purus commodo rutrum lectus nec pharetra sem proin blandit tincidunt turpis in pulvinar aliquam malesuada tellus id dui ullamcorper pellentesque donec vel urna felismorbi blandit ipsum eget tellus efficitur ac pulvinar nunc porttitor quisque nec posuere elit ac sollicitudin sem vestibulum faucibus ante lectus vel congue erat molestie sed maecenas ac leo porttitor congue felis sit amet dignissim nibh quisque porttitor neque maximus est scelerisque nec gravida orci eleifend aenean ac magna ut dolor aliquet fermentum vel nec risus phasellus in ullamcorper mauris phasellus semper blandit bibendum cras vitae purus fermentum diam dapibus dictum curabitur sapien neque rutrum in dapibus eu ornare at anteinteger facilisis libero convallis pellentesque gravida velit odio interdum nisi vel ultricies nisl sapien et eros pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas morbi nec ante at ante blandit fringilla eu sed nisi suspendisse potenti maecenas neque lacus laoreet nec lacinia efficitur suscipit at est mauris lacinia fringilla ligula sit amet blandit nisl ullamcorper sed nulla et velit laoreet egestas sapien vitae elementum leo suspendisse laoreet nibh neque et convallis dolor vulputate idfusce at elit a libero ullamcorper interdum vitae bibendum urna proin porta est lorem eget accumsan nibh placerat ut aenean scelerisque lectus rutrum efficitur mollis elit eros dapibus velit eu lobortis ipsum felis quis dui cras quis faucibus eros eget scelerisque ligula proin tempor felis quis tellus ornare sodales curabitur quam sapien venenatis nec diam in molestie euismod arcu morbi malesuada sodales metus vitae ornare nisl eleifend nec nulla nec metus sed diam vestibulum commodo vel vitae lectus suspendisse quis quam eu nibh suscipit faucibus quis ut orcicras quis mi sit amet ante fermentum consectetur aliquam euismod libero vitae euismod dapibus class aptent taciti sociosqu ad litora torquent per conubia nostra per inceptos himenaeos morbi auctor in mi vitae egestas aenean justo nisl consectetur quis dui cursus consectetur commodo lacus in scelerisque erat ac ligula aliquet ultrices aliquam rutrum ut tortor sed pellentesque aliquam semper felis sed finibus scelerisque neque odio consectetur odio eget imperdiet quam quam ut arcu maecenas non arcu tempus ornare quam vel fringilla turpis vivamus rhoncus velit sed mauris pretium pharetra mauris tempor leo quis tristique ullamcorper mauris mi aliquet dui sed ullamcorper risus nunc quis metusdonec in laoreet lectus ut sit amet mattis diam maecenas et mauris eget lacus mollis sodales pellentesque porttitor venenatis accumsan in a aliquet tortor donec condimentum lectus sem quis ornare magna dapibus ac mauris maximus dolor in porttitor pulvinar cras ut magna eros nullam eu dolor eget purus aliquam bibendum vel nec erat duis augue justo ornare non urna id elementum pulvinar arcu donec placerat quam lorem pulvinar laoreet justo hendrerit vitae suspendisse porta accumsan leo mauris suscipit urna ac erat convallis auctorquisque sollicitudin elit odio mauris tempor eu lorem nec rhoncus aliquam in feugiat tellus maecenas elementum euismod ex in maximus scelerisque viverra nam vel placerat quam sit amet eleifend nisi cras porta tincidunt malesuada ut congue porta pellentesque donec porttitor elit ac tempor malesuada etiam ultricies laoreet ante vitae interdum felis rhoncus eu morbi dignissim consequat sempernam luctus molestie turpis vel bibendum ante lobortis eget orci varius natoque penatibus et magnis dis parturient montes nascetur ridiculus mus sed cursus urna nisl molestie faucibus libero pulvinar nec nulla facilisi integer lorem odio suscipit vel risus eget tempor vulputate nulla morbi a posuere arcu praesent et arcu dolor sed placerat eros vel lacus interdum viverra ut pulvinar dui ac enim rhoncus hendrerit

3. Szólista elkészítése

1	List<String> wordList=Arrays.asList(s.split(" "));

A szóközök mentén darabolva ( split()) a szöveget elkészül belőle egy névtelen szövegtömb ( String[]), amit rögtön átalakítunk ( Arrays.asList()) szöveg típusú generikus listává ( List<String>). A lista 826 db elemből áll. Generikus lista:

[lorem, ipsum, dolor, sit, amet, consectetur, adipiscing, elit, curabitur, quis, mauris, laoreet, lobortis, orci, eget, egestas, dui, vivamus, pretium, nunc, sit, amet, ex, dictum, rutrum, duis, sodales, augue, dui, vitae, porta, eros, auctor, non, pellentesque, vehicula, sollicitudin, scelerisque, sed, urna, massa, auctor, nec, tellus, at, iaculis, dictum, ligula, nunc, vitae, metus, quis, velit, hendrerit, finibus, aenean, et, nunc, et, sem, facilisis, sagittis, phasellus, vestibulum, accumsan, eleifend, etiam, finibus, est, fringilla, augue, imperdiet, lacinia, suspendisse, eleifend, magna, quis, sollicitudin, euismod, turpis, enim, pretium, nulla, at, vulputate, justo, sem, vel, ipsum, donec, vestibulum, risus, viverra, purus, sodales, nec, laoreet, tortor, volutpat, pellentesque, vitae, sodales, odio, morbi, tristique, vitae, justo, ac, dictum, nam, eleifend, dolor, sapien, ullamcorper, pellentesque, quam, semper, quissuspendisse, eu, aliquet, lectus, maecenas, placerat, nunc, nec, ipsum, tempor, suscipit, donec, fringilla, lacinia, aliquam, fusce, maximus, nunc, eget, nibh, dignissim, id, aliquam, ex, fringilla, donec, eget, blandit, tortor, nunc, at, ornare, lectus, non, varius, augue, donec, cursus, velit, ligula, non, volutpat, tellus, euismod, eu, mauris, dictum, nisl, consequat, nisl, dapibus, placerat, maecenas, in, purus, leo, praesent, imperdiet, aliquet, porttitor, nunc, tempus, maximus, enim, integer, imperdiet, luctus, lorem, eget, luctus, nullam, et, sapien, fringilla, vestibulum, lectus, at, porttitor, odio, sed, cursus, mollis, ante, ac, volutpat, est, facilisis, nonlorem, ipsum, dolor, sit, amet, consectetur, adipiscing, elit, vestibulum, id, posuere, tellus, quisque, ornare, sem, ac, maximus, porttitor, eros, dui, porta, sem, ornare, vulputate, mi, leo, vel, nunc, donec, leo, ex, fringilla, cursus, dui, at, congue, euismod, velit, nunc, viverra, lectus, vel, nunc, tempus, viverra, suspendisse, potenti, integer, vel, purus, commodo, rutrum, lectus, nec, pharetra, sem, proin, blandit, tincidunt, turpis, in, pulvinar, aliquam, malesuada, tellus, id, dui, ullamcorper, pellentesque, donec, vel, urna, felismorbi, blandit, ipsum, eget, tellus, efficitur, ac, pulvinar, nunc, porttitor, quisque, nec, posuere, elit, ac, sollicitudin, sem, vestibulum, faucibus, ante, lectus, vel, congue, erat, molestie, sed, maecenas, ac, leo, porttitor, congue, felis, sit, amet, dignissim, nibh, quisque, porttitor, neque, maximus, est, scelerisque, nec, gravida, orci, eleifend, aenean, ac, magna, ut, dolor, aliquet, fermentum, vel, nec, risus, phasellus, in, ullamcorper, mauris, phasellus, semper, blandit, bibendum, cras, vitae, purus, fermentum, diam, dapibus, dictum, curabitur, sapien, neque, rutrum, in, dapibus, eu, ornare, at, anteinteger, facilisis, libero, convallis, pellentesque, gravida, velit, odio, interdum, nisi, vel, ultricies, nisl, sapien, et, eros, pellentesque, habitant, morbi, tristique, senectus, et, netus, et, malesuada, fames, ac, turpis, egestas, morbi, nec, ante, at, ante, blandit, fringilla, eu, sed, nisi, suspendisse, potenti, maecenas, neque, lacus, laoreet, nec, lacinia, efficitur, suscipit, at, est, mauris, lacinia, fringilla, ligula, sit, amet, blandit, nisl, ullamcorper, sed, nulla, et, velit, laoreet, egestas, sapien, vitae, elementum, leo, suspendisse, laoreet, nibh, neque, et, convallis, dolor, vulputate, idfusce, at, elit, a, libero, ullamcorper, interdum, vitae, bibendum, urna, proin, porta, est, lorem, eget, accumsan, nibh, placerat, ut, aenean, scelerisque, lectus, rutrum, efficitur, mollis, elit, eros, dapibus, velit, eu, lobortis, ipsum, felis, quis, dui, cras, quis, faucibus, eros, eget, scelerisque, ligula, proin, tempor, felis, quis, tellus, ornare, sodales, curabitur, quam, sapien, venenatis, nec, diam, in, molestie, euismod, arcu, morbi, malesuada, sodales, metus, vitae, ornare, nisl, eleifend, nec, nulla, nec, metus, sed, diam, vestibulum, commodo, vel, vitae, lectus, suspendisse, quis, quam, eu, nibh, suscipit, faucibus, quis, ut, orcicras, quis, mi, sit, amet, ante, fermentum, consectetur, aliquam, euismod, libero, vitae, euismod, dapibus, class, aptent, taciti, sociosqu, ad, litora, torquent, per, conubia, nostra, per, inceptos, himenaeos, morbi, auctor, in, mi, vitae, egestas, aenean, justo, nisl, consectetur, quis, dui, cursus, consectetur, commodo, lacus, in, scelerisque, erat, ac, ligula, aliquet, ultrices, aliquam, rutrum, ut, tortor, sed, pellentesque, aliquam, semper, felis, sed, finibus, scelerisque, neque, odio, consectetur, odio, eget, imperdiet, quam, quam, ut, arcu, maecenas, non, arcu, tempus, ornare, quam, vel, fringilla, turpis, vivamus, rhoncus, velit, sed, mauris, pretium, pharetra, mauris, tempor, leo, quis, tristique, ullamcorper, mauris, mi, aliquet, dui, sed, ullamcorper, risus, nunc, quis, metusdonec, in, laoreet, lectus, ut, sit, amet, mattis, diam, maecenas, et, mauris, eget, lacus, mollis, sodales, pellentesque, porttitor, venenatis, accumsan, in, a, aliquet, tortor, donec, condimentum, lectus, sem, quis, ornare, magna, dapibus, ac, mauris, maximus, dolor, in, porttitor, pulvinar, cras, ut, magna, eros, nullam, eu, dolor, eget, purus, aliquam, bibendum, vel, nec, erat, duis, augue, justo, ornare, non, urna, id, elementum, pulvinar, arcu, donec, placerat, quam, lorem, pulvinar, laoreet, justo, hendrerit, vitae, suspendisse, porta, accumsan, leo, mauris, suscipit, urna, ac, erat, convallis, auctorquisque, sollicitudin, elit, odio, mauris, tempor, eu, lorem, nec, rhoncus, aliquam, in, feugiat, tellus, maecenas, elementum, euismod, ex, in, maximus, scelerisque, viverra, nam, vel, placerat, quam, sit, amet, eleifend, nisi, cras, porta, tincidunt, malesuada, ut, congue, porta, pellentesque, donec, porttitor, elit, ac, tempor, malesuada, etiam, ultricies, laoreet, ante, vitae, interdum, felis, rhoncus, eu, morbi, dignissim, consequat, sempernam, luctus, molestie, turpis, vel, bibendum, ante, lobortis, eget, orci, varius, natoque, penatibus, et, magnis, dis, parturient, montes, nascetur, ridiculus, mus, sed, cursus, urna, nisl, molestie, faucibus, libero, pulvinar, nec, nulla, facilisi, integer, lorem, odio, suscipit, vel, risus, eget, tempor, vulputate, nulla, morbi, a, posuere, arcu, praesent, et, arcu, dolor, sed, placerat, eros, vel, lacus, interdum, viverra, ut, pulvinar, dui, ac, enim, rhoncus, hendrerit]

4. Csoportosítás és megszámolás

1 2	Map<String, Long> wordCountMap=wordList.stream().collect( Collectors.groupingBy(Function.identity(), Collectors.counting()));

A szólistát csoportosítjuk és megszámoljuk, hogy az egyes szavak hányszor fordulnak elő (másképpen: egy-egy csoport hány elemű). Elkészül a wordCountMap generikus map, amely kulcs-érték párok halmaza (leképezés). A kulcs a szó ( String), az érték a darabszáma ( Long). Alkalmazkodunk ahhoz, hogy a csoportosítás során használt counting() megszámoló művelet Long típusú értéket ad vissza. 188 db kulcs-érték párt kapunk. Generikus map:

{aenean=4, elementum=3, efficitur=3, mollis=3, tempor=6, potenti=2, bibendum=4, commodo=3, purus=5, augue=4, justo=5, lorem=6, leo=7, id=4, nam=2, per=2, habitant=1, semper=3, volutpat=3, ac=13, ad=1, sodales=6, in=12, finibus=3, velit=7, urna=6, sociosqu=1, luctus=3, fusce=1, at=9, pellentesque=9, ipsum=6, convallis=3, elit=7, taciti=1, aptent=1, ullamcorper=7, vestibulum=6, laoreet=8, ridiculus=1, congue=4, idfusce=1, penatibus=1, arcu=6, conubia=1, dolor=8, iaculis=1, inceptos=1, sed=12, duis=2, metus=3, dictum=5, vehicula=1, dapibus=6, sem=7, pulvinar=7, diam=4, porta=6, ultricies=2, interdum=4, a=3, felismorbi=1, magnis=1, nisi=3, morbi=7, quam=8, tincidunt=2, nisl=7, ultrices=1, condimentum=1, ornare=9, aliquam=8, praesent=2, magna=4, auctor=3, turpis=5, nibh=5, ante=7, placerat=6, parturient=1, malesuada=5, rutrum=5, sapien=6, himenaeos=1, quis=13, porttitor=9, sagittis=1, eros=7, maximus=6, torquent=1, tristique=3, etiam=2, suscipit=5, sempernam=1, cursus=5, est=5, adipiscing=2, odio=7, eleifend=6, accumsan=4, fames=1, integer=3, egestas=4, nec=15, scelerisque=7, dis=1, erat=4, nunc=12, facilisis=3, euismod=7, nascetur=1, donec=9, vivamus=2, mauris=11, nostra=1, neque=5, imperdiet=4, natoque=1, molestie=4, mi=4, vel=15, feugiat=1, metusdonec=1, ut=9, enim=3, consequat=2, ligula=5, lobortis=3, quissuspendisse=1, varius=2, facilisi=1, dignissim=3, nullam=2, vulputate=4, fermentum=3, auctorquisque=1, litora=1, et=11, eu=9, mattis=1, lacus=4, ex=4, vitae=13, senectus=1, posuere=3, felis=5, tellus=7, orci=3, faucibus=4, phasellus=3, pharetra=2, blandit=6, lacinia=4, massa=1, venenatis=2, lectus=10, rhoncus=4, viverra=5, montes=1, netus=1, tempus=3, mus=1, non=5, proin=3, risus=4, cras=4, maecenas=7, hendrerit=3, class=1, sit=8, tortor=4, orcicras=1, anteinteger=1, fringilla=8, curabitur=3, sollicitudin=4, suspendisse=6, aliquet=6, amet=8, quisque=3, pretium=3, dui=9, nonlorem=1, libero=4, gravida=2, nulla=5, eget=12, consectetur=6}

5. Szűrés és rendezés

List<String> exceptList=

Arrays.asList(new String[] {"at", "et", "in", "ut"});

Stream<Entry<String, Long>> sortedWordCountStream=

wordCountMap.entrySet().stream().

filter(e -> !exceptList.contains(e.getKey())).

filter(e -> e.getValue()>=5).

sorted((e1, e2) ->

(e1.getValue().equals(e2.getValue())) ?

e1.getKey().compareTo(e2.getKey()) :

e2.getValue().compareTo(e1.getValue())

);

A generikus map-et kétszer szűrjük ( filter() művelet) úgy, hogy a kivételeket tartalmazó exceptList-ben ne szerepeljen a szó, valamint csak a legalább 5-ször előforduló szavakat hagyjuk meg. 71 db elemből álló folyam marad. Ebből a maradékból készítünk rendezett generikus folyamot ( sortedWordCountStream). A sorted() művelet két kulcs-érték párt hasonlít össze. A rendezés érték/darabszám szerint ( getValue()) csökkenő, azon belül kulcs/szavak szerint ( getKey()) növekvő sorrendet biztosít. Másképpen: ha az értékek megegyeznek, akkor a növekvő sorrendet a szavak ábécé sorrendje határozza meg, egyébként a darabszámok csökkenő sorrendje dönti el. Most már könnyen látható, hogy a leggyakrabban előforduló kevés szóból 15 van, 14 előfordulás nincs… Rendezett generikus folyam:

[nec=15, vel=15, ac=13, quis=13, vitae=13, eget=12, nunc=12, sed=12, mauris=11, lectus=10, donec=9, dui=9, eu=9, ornare=9, pellentesque=9, porttitor=9, aliquam=8, amet=8, dolor=8, fringilla=8, laoreet=8, quam=8, sit=8, ante=7, elit=7, eros=7, euismod=7, leo=7, maecenas=7, morbi=7, nisl=7, odio=7, pulvinar=7, scelerisque=7, sem=7, tellus=7, ullamcorper=7, velit=7, aliquet=6, arcu=6, blandit=6, consectetur=6, dapibus=6, eleifend=6, ipsum=6, lorem=6, maximus=6, placerat=6, porta=6, sapien=6, sodales=6, suspendisse=6, tempor=6, urna=6, vestibulum=6, cursus=5, dictum=5, est=5, felis=5, justo=5, ligula=5, malesuada=5, neque=5, nibh=5, non=5, nulla=5, purus=5, rutrum=5, suscipit=5, turpis=5, viverra=5]

6. Saját típusú listává konvertálás

Definiálunk egy WordCount POJO-t, String típusú word nevű, Long típusú count nevű, int típusú fontSize nevű tulajdonságokkal, getter/setter metódusokkal, és toString() függvénnyel.

List<WordCount> sortedWordCountList=

sortedWordCountStream.

map(e -> new WordCount(e.getKey(), e.getValue())).

collect(Collectors.toList());

A map() intermediate művelettel a rendezett generikus folyamot bejárva, előállítjuk a POJO/ WordCount típusú kimeneti objektumok rendezett generikus listáját. Továbbra is 71 elemmel dolgozunk. Rendezett generikus lista:

POJO{word: nec, count: 15, fontSize: 0}

POJO{word: vel, count: 15, fontSize: 0}

POJO{word: ac, count: 13, fontSize: 0}

POJO{word: quis, count: 13, fontSize: 0}

POJO{word: vitae, count: 13, fontSize: 0}

POJO{word: eget, count: 12, fontSize: 0}

POJO{word: nunc, count: 12, fontSize: 0}

POJO{word: sed, count: 12, fontSize: 0}

POJO{word: mauris, count: 11, fontSize: 0}

POJO{word: lectus, count: 10, fontSize: 0}

POJO{word: donec, count: 9, fontSize: 0}

POJO{word: dui, count: 9, fontSize: 0}

POJO{word: eu, count: 9, fontSize: 0}

POJO{word: ornare, count: 9, fontSize: 0}

POJO{word: pellentesque, count: 9, fontSize: 0}

POJO{word: porttitor, count: 9, fontSize: 0}

POJO{word: aliquam, count: 8, fontSize: 0}

POJO{word: amet, count: 8, fontSize: 0}

POJO{word: dolor, count: 8, fontSize: 0}

POJO{word: fringilla, count: 8, fontSize: 0}

POJO{word: laoreet, count: 8, fontSize: 0}

POJO{word: quam, count: 8, fontSize: 0}

POJO{word: sit, count: 8, fontSize: 0}

POJO{word: ante, count: 7, fontSize: 0}

POJO{word: elit, count: 7, fontSize: 0}

POJO{word: eros, count: 7, fontSize: 0}

POJO{word: euismod, count: 7, fontSize: 0}

POJO{word: leo, count: 7, fontSize: 0}

POJO{word: maecenas, count: 7, fontSize: 0}

POJO{word: morbi, count: 7, fontSize: 0}

POJO{word: nisl, count: 7, fontSize: 0}

POJO{word: odio, count: 7, fontSize: 0}

POJO{word: pulvinar, count: 7, fontSize: 0}

POJO{word: scelerisque, count: 7, fontSize: 0}

POJO{word: sem, count: 7, fontSize: 0}

POJO{word: tellus, count: 7, fontSize: 0}

POJO{word: ullamcorper, count: 7, fontSize: 0}

POJO{word: velit, count: 7, fontSize: 0}

POJO{word: aliquet, count: 6, fontSize: 0}

POJO{word: arcu, count: 6, fontSize: 0}

POJO{word: blandit, count: 6, fontSize: 0}

POJO{word: consectetur, count: 6, fontSize: 0}

POJO{word: dapibus, count: 6, fontSize: 0}

POJO{word: eleifend, count: 6, fontSize: 0}

POJO{word: ipsum, count: 6, fontSize: 0}

POJO{word: lorem, count: 6, fontSize: 0}

POJO{word: maximus, count: 6, fontSize: 0}

POJO{word: placerat, count: 6, fontSize: 0}

POJO{word: porta, count: 6, fontSize: 0}

POJO{word: sapien, count: 6, fontSize: 0}

POJO{word: sodales, count: 6, fontSize: 0}

POJO{word: suspendisse, count: 6, fontSize: 0}

POJO{word: tempor, count: 6, fontSize: 0}

POJO{word: urna, count: 6, fontSize: 0}

POJO{word: vestibulum, count: 6, fontSize: 0}

POJO{word: cursus, count: 5, fontSize: 0}

POJO{word: dictum, count: 5, fontSize: 0}

POJO{word: est, count: 5, fontSize: 0}

POJO{word: felis, count: 5, fontSize: 0}

POJO{word: justo, count: 5, fontSize: 0}

POJO{word: ligula, count: 5, fontSize: 0}

POJO{word: malesuada, count: 5, fontSize: 0}

POJO{word: neque, count: 5, fontSize: 0}

POJO{word: nibh, count: 5, fontSize: 0}

POJO{word: non, count: 5, fontSize: 0}

POJO{word: nulla, count: 5, fontSize: 0}

POJO{word: purus, count: 5, fontSize: 0}

POJO{word: rutrum, count: 5, fontSize: 0}

POJO{word: suscipit, count: 5, fontSize: 0}

POJO{word: turpis, count: 5, fontSize: 0}

POJO{word: viverra, count: 5, fontSize: 0}

7. Darabszámok összegyűjtése

List<Long> distinctCountList=

sortedWordCountList.stream().map(e -> e.getCount()).distinct().

collect(Collectors.toList());

A POJO típusú rendezett generikus listában lévő objektumoktól elkért darabszámok ( getCount() POJO függvény) közül a különbözőeket ( distinct() művelet) összegyűjtjük egy Long típusú generikus listába ( distinctCountList). Az egyediesítő művelet nincs hatással az adatok sorrendjére. Tízféle előfordulást kapunk. Generikus lista:

1	[15, 13, 12, 11, 10, 9, 8, 7, 6, 5]

8. Betűméret lépésköze

final int MAX_FONT_SIZE=32;

final int MIN_FONT_SIZE=16;

long countCount=distinctCountList.size();

double stepFontSize=(double)(MAX_FONT_SIZE-MIN_FONT_SIZE+1)/countCount;

A szófelhőben a szavak gyakorisága alapján határozzuk meg a betűméretet. A betűméret 32-ről indul és fokozatosan csökken 16-ig. A betűméret léptetéséhez a tízféle gyakoriság/előfordulás meghatározza a stepFontSize lépésközt. Lépésköz:

1.7

9. Betűméret kiszámítása

int i=0, gi=0;

while(i<sortedWordCountList.size()) {

long count=sortedWordCountList.get(i).getCount();

int fontSize=(int)Math.round(MAX_FONT_SIZE-gi*stepFontSize);

while(i<sortedWordCountList.size() &&

count==sortedWordCountList.get(i).getCount()) {

sortedWordCountList.get(i).setFontSize(fontSize);

i++;

}

gi++;

}

Csoportváltást alkalmazunk és a csoportot gi-vel indexeljük. Egy csoportba azok a POJO objektumok tartoznak, amelyeknél a szavak előfordulása megegyezik. Az algoritmus 2. lépésében az aktuális csoportra érvényesen kiszámítjuk a betűméretet ( fontSize), ami az algoritmus 3. lépésében a csoportba tartozó minden POJO objektumnál beállításra kerül a setFontSize() POJO eljárással. Az algoritmus 4. lépésében léptetjük a csoport gi indexét. A POJO-k esetén először csak a word és count tulajdonságok kerültek beállításra, de most már a fontSize tulajdonság is értéket kapott. Generikus lista:

POJO{word: nec, count: 15, fontSize: 32}

POJO{word: vel, count: 15, fontSize: 32}

POJO{word: ac, count: 13, fontSize: 30}

POJO{word: quis, count: 13, fontSize: 30}

POJO{word: vitae, count: 13, fontSize: 30}

POJO{word: eget, count: 12, fontSize: 29}

POJO{word: nunc, count: 12, fontSize: 29}

POJO{word: sed, count: 12, fontSize: 29}

POJO{word: mauris, count: 11, fontSize: 27}

POJO{word: lectus, count: 10, fontSize: 25}

POJO{word: donec, count: 9, fontSize: 24}

POJO{word: dui, count: 9, fontSize: 24}

POJO{word: eu, count: 9, fontSize: 24}

POJO{word: ornare, count: 9, fontSize: 24}

POJO{word: pellentesque, count: 9, fontSize: 24}

POJO{word: porttitor, count: 9, fontSize: 24}

POJO{word: aliquam, count: 8, fontSize: 22}

POJO{word: amet, count: 8, fontSize: 22}

POJO{word: dolor, count: 8, fontSize: 22}

POJO{word: fringilla, count: 8, fontSize: 22}

POJO{word: laoreet, count: 8, fontSize: 22}

POJO{word: quam, count: 8, fontSize: 22}

POJO{word: sit, count: 8, fontSize: 22}

POJO{word: ante, count: 7, fontSize: 20}

POJO{word: elit, count: 7, fontSize: 20}

POJO{word: eros, count: 7, fontSize: 20}

POJO{word: euismod, count: 7, fontSize: 20}

POJO{word: leo, count: 7, fontSize: 20}

POJO{word: maecenas, count: 7, fontSize: 20}

POJO{word: morbi, count: 7, fontSize: 20}

POJO{word: nisl, count: 7, fontSize: 20}

POJO{word: odio, count: 7, fontSize: 20}

POJO{word: pulvinar, count: 7, fontSize: 20}

POJO{word: scelerisque, count: 7, fontSize: 20}

POJO{word: sem, count: 7, fontSize: 20}

POJO{word: tellus, count: 7, fontSize: 20}

POJO{word: ullamcorper, count: 7, fontSize: 20}

POJO{word: velit, count: 7, fontSize: 20}

POJO{word: aliquet, count: 6, fontSize: 18}

POJO{word: arcu, count: 6, fontSize: 18}

POJO{word: blandit, count: 6, fontSize: 18}

POJO{word: consectetur, count: 6, fontSize: 18}

POJO{word: dapibus, count: 6, fontSize: 18}

POJO{word: eleifend, count: 6, fontSize: 18}

POJO{word: ipsum, count: 6, fontSize: 18}

POJO{word: lorem, count: 6, fontSize: 18}

POJO{word: maximus, count: 6, fontSize: 18}

POJO{word: placerat, count: 6, fontSize: 18}

POJO{word: porta, count: 6, fontSize: 18}

POJO{word: sapien, count: 6, fontSize: 18}

POJO{word: sodales, count: 6, fontSize: 18}

POJO{word: suspendisse, count: 6, fontSize: 18}

POJO{word: tempor, count: 6, fontSize: 18}

POJO{word: urna, count: 6, fontSize: 18}

POJO{word: vestibulum, count: 6, fontSize: 18}

POJO{word: cursus, count: 5, fontSize: 17}

POJO{word: dictum, count: 5, fontSize: 17}

POJO{word: est, count: 5, fontSize: 17}

POJO{word: felis, count: 5, fontSize: 17}

POJO{word: justo, count: 5, fontSize: 17}

POJO{word: ligula, count: 5, fontSize: 17}

POJO{word: malesuada, count: 5, fontSize: 17}

POJO{word: neque, count: 5, fontSize: 17}

POJO{word: nibh, count: 5, fontSize: 17}

POJO{word: non, count: 5, fontSize: 17}

POJO{word: nulla, count: 5, fontSize: 17}

POJO{word: purus, count: 5, fontSize: 17}

POJO{word: rutrum, count: 5, fontSize: 17}

POJO{word: suscipit, count: 5, fontSize: 17}

POJO{word: turpis, count: 5, fontSize: 17}

POJO{word: viverra, count: 5, fontSize: 17}

10. HTML tartalom előállítása

StringBuilder sbHTML=new StringBuilder("");

sortedWordCountList.forEach(wordCount ->

sbHTML.append("<span style=\"font-size: ").

append(wordCount.getFontSize()).append("px\">").

append(wordCount.toString()).append(" ")

);

sbHTML.append("");

A generikus lista POJO objektumain végighaladva, a forEach() záró művelettel összeállítható a weboldal szófelhőt tartalmazó része ( sbHTML). A 71 db szóból álló szófelhő HTML forráskódjának mérete 3409 bájt. HTML forráskód:

nec (15) vel (15) ac (13) quis (13) vitae (13) eget (12) nunc (12) sed (12) mauris (11) lectus (10) donec (9) dui (9) eu (9) ornare (9) pellentesque (9) porttitor (9) aliquam (8) amet (8) dolor (8) fringilla (8) laoreet (8) quam (8) sit (8) ante (7) elit (7) eros (7) euismod (7) leo (7) maecenas (7) morbi (7) nisl (7) odio (7) pulvinar (7) scelerisque (7) sem (7) tellus (7) ullamcorper (7) velit (7) aliquet (6) arcu (6) blandit (6) consectetur (6) dapibus (6) eleifend (6) ipsum (6) lorem (6) maximus (6) placerat (6) porta (6) sapien (6) sodales (6) suspendisse (6) tempor (6) urna (6) vestibulum (6) cursus (5) dictum (5) est (5) felis (5) justo (5) ligula (5) malesuada (5) neque (5) nibh (5) non (5) nulla (5) purus (5) rutrum (5) suscipit (5) turpis (5) viverra (5)

Eredmény

Szöveges formában:

Képként (a 3. lépés részeredményéből a WordClouds.com weboldalon generálva):

A bejegyzéshez tartozó teljes forráskódot ILIAS e-learning tananyagban tesszük elérhetővé tanfolyamaink résztvevői számára.

A feladat a Java SE szoftverfejlesztő tanfolyam szakmai moduljának több alkalmához is kötődik. A Stream API-val és a lambda kifejezésekkel sokszor foglalkozunk.

KSH táblázatból dolgozunk

2023. augusztus 4.2020. január 17. Szerző: Kaczur Sándor

A Központi Statisztikai Hivatal honlapján elérhető STADAT táblákból könnyen kinyerhetjük a nekünk szükséges adatokat. A témastruktúrába sorolt online és XLS exportként is böngészhető táblázatokban megtalálhatjuk logikusan csoportosítva összesítve az adatokat régiónként (megyénként), évenként, százalékosan. Az XLS fájlformátum Java nyelven a JExcel API-val hatékonyan feldolgozható. Lássunk erre egy példát!

Feladat

A KSH 2.1.2.35. táblázatából gyűjtsük ki a 19 magyar megyére + Budapestre vonatkozóan a gazdaságilag aktívak létszámát és az első évet alapnak tekintve adjuk meg évenként a változást százalékosan!

Tervezés

A KSH témastruktúrában a táblázat elérési útja:

2. Társadalom,
2.1. Munkaerőpiac,
2.1.2. A munkaerőpiac alakulása Magyarországon (1998–2018) -> Területi adatok,
2.1.2.35. A 15–64 éves népesség gazdasági aktivitása megyénként és régiónként (1998–2018)

Online böngészhető táblázat:
https://www.ksh.hu/docs/hun/xstadat/xstadat_hosszu/mpal2_01_02_35.html.

Letölthető táblázat (XLS formátumban): https://www.ksh.hu/docs/hun/xstadat/xstadat_hosszu/xls/h2_1_2_35.xls.

A táblázat A oszlopában szerepelnek a régiók, megyék, időszakok (vegyesen, szövegként) és a D oszlopában a gazdaságilag aktívak (ezer fő, valós számként). A fejlécet nem szabad feldolgozni. 1998-tól 2018-ig 546 sorból áll az adatsor. A csoportosítás 26 régiót és megyét tartalmaz, amiből a 6 régiót (például: Közép-Dunántúl) ki kell hagyni.

A megyékre vonatkozóan 440 sort kell feldolgozni. Ebből az első sor a megye (vagy Budapest) neve, a többi (2019-ben 21 db) sorban találhatók az adatok (időszak). Olyan algoritmusban érdemes gondolkodni, ami a jövőben is működik. Ha csoportváltást alkalmazunk, akkor nem számít, hogy megyénként minden évben egy sornyival több adat lesz majd. A KSH táblázatok szerkezete nagyon ritkán változik, így bátran írható rájuk testre szabott forráskód (ezeket nem kell évente frissíteni).

Az évenkénti változást százalékosan nem tartalmazza a táblázat, ezt nekünk kell kiszámítani. A valós számok formázását érdemes egységesíteni, például a gazdaságilag aktívak létszámát 3 tizedesre, a változást 2 tizedesre kerekítve.

A belső adatábrázolást érdemes átgondolni. Hasznos, ha az időszakhoz tartozó három összetartozó adatot egyetlen Data POJO-ba fogjuk össze ( String period, double active és double change). Ezeket generikus listába szervezve ( ArrayList<Data> list) könnyen hozzájuk rendelhető a megye ( String county) és ezek együtt alkotják a Region POJO-t. A Region és Data kapcsolati fokszáma: 1:N. 2019-ben N=21 .

Részlet a megoldásból

private List<Region> readXLS() throws IOException, BiffException {

WorkbookSettings workbookSettings=new WorkbookSettings();

workbookSettings.setEncoding("Cp1252");

Workbook workbook=Workbook.getWorkbook(

new File("./files/h2_1_2_35.xls"), workbookSettings); //munkafüzet

Sheet sheet=workbook.getSheet("2.1.2.35."); //munkalap

List<String> skipRegionList=Arrays.asList(new String[] {

"Közép-Dunántúl", "Nyugat-Dunántúl", "Dél-Dunántúl",

"Észak-Magyarország", "Észak-Alföld", "Dél-Alföld"});

List<Region> list=new ArrayList<>();

int i=3; //kihagyjuk a fejlécet

while(i<sheet.getRows()) {

Cell cellA=sheet.getCell(0, i); //megyék

if(cellA.getType()==CellType.LABEL) {

String county=((LabelCell)cellA).getString().trim();

Region region=new Region(county);

i++;

Cell cellD=sheet.getCell(3, i); //gazdaságilag aktívak

while(i<sheet.getRows() && cellD.getType()!=CellType.EMPTY) {

cellA=sheet.getCell(0, i); //időszakok

String period="";

if(cellA.getType()==CellType.LABEL)

period=((LabelCell)cellA).getString().trim();

double active=0;

if(cellD.getType()==CellType.NUMBER)

active=((NumberCell)cellD).getValue();

region.addList(period, active);

i++;

if(i<sheet.getRows())

cellD=sheet.getCell(3, i);

}

if(!skipRegionList.contains(county))

list.add(region);

}

workbook.close();

return list;

}

A JExcel API használatához a Java projekthez hozzá kell adni a jxl.jar fájlt. A XLS fájl olvasható közvetlenül a webről is, de egyszerűbb helyi fájlrendszerbe mentett változatból dolgozni ( ./files/h2_1_2_35.xls). A megyék nevében található ékezetes karakterek miatt ügyelni kell a megfelelő karakterkódolásra ( Cp1252). A munkafüzet azonosítását követően hivatkozni kell a feldolgozandó munkalapra ( 2.1.2.35.). Az adatfeldolgozás során kihagyott régiókat (kivételeket) érdemes listába gyűjteni ( skipRegionList). A csoportváltást a két egymásba ágyazott ciklus valósítja meg. Ügyelni kell az adatok formátumának ellenőrzésére.

Eredmények

Például Somogy megyére az alábbi adatokat kapjuk eredményként (XLS formátumban, Excel-be betöltve, tipikus háttérszín kiemeléssel: szélsőértékek a C oszlopban, negatív értékek a D oszlopban):

További programozható feladatok

Hogyan alakult a magyar autóbuszgyártás 1960-tól évtizedenként csoportosítva (átlag, min, max, szórás)? – 4.2. Ipar (1960–)
Milyen a lakossági építkezés aránya az ezredforduló után a teljes építőipari termelés értékéhez viszonyítva évenkénti bontásban? – 4.3.1. Az országos építőipari termelés értéke kivitelezők szerint (1990–)
Milyen kapcsolat figyelhető meg a szállodák száma és a kiadható férőhelyek száma között a 2008-ban kirobbant gazdasági világválság előtt és után? – 4.5.11. A kereskedelmi szálláshelyek kapacitása, július 31. (2001–)
Melyik években volt a legmagasabb (TOP 3) a saját mobilhálózatba irányuló beszélgetések hossza az összes mobilhálózatba irányuló beszélgetések hosszához viszonyítva? – 4.7.5. A mobilhálózatokból kiinduló beszélgetések (2001–)
Hogyan alakultak az üzemanyagok éves fogyasztói átlagárai (átlag, min, max, szórás)? – 3.6.3. Egyes termékek és szolgáltatások éves fogyasztói átlagára (1996–)
Ábrázoljuk tematikus térképen: hogyan alakult régiónként a munkanélküliségi ráta a mindenkori utolsóként megadott negyedévben az előző év azonos negyedévéhez viszonyítva! – 6.2.1.11. Munkanélküliségi ráta

A bejegyzéshez tartozó teljes forráskódot ILIAS e-learning tananyagban tesszük elérhetővé tanfolyamaink résztvevői számára.

A feladat a Java SE szoftverfejlesztő tanfolyam tematikájához kötődik (ha az XLS fájlt a helyi fájlrendszerből érjük el), és a Java EE szoftverfejlesztő tanfolyam tematikájához kapcsolódik (ha az XLS fájl tartalmát közvetlenül a webről olvassuk).