Címkefelhő generálása - it-tanfolyam.hu

A címkefelhők/szófelhők népszerűek, sok weboldalon megtalálhatóak. A CMS rendszerekben beépített szolgáltatás is lehet, vagy külön bővítmény/plugin is megvalósíthatja. Egy szövegben előforduló szavakból a gyakrabban előfordulókat nagyobb betűmérettel emeli ki. Eredménye lehet listás, táblázatos, esetleg képpé generált is. Kétféleképpen is megközelíthető, erre utal a Word Cloud és a Tag Cloud elnevezés. Utóbbi inkább egy blog taxonomiájához kapcsolódik és kategóriákra/címkékre érvényesül. A szakmai blogunkhoz is tartozik egy táblázatos címkefelhő. A szófelhő a szöveg betűméretén túl megjelenítheti a szavak előfordulását, például Java forráskód (63), címkefelhő (2).

Példánkban tetszőleges szöveget dolgozunk fel. Ebből felépítünk egy előfordulást is mutató listás szófelhőt, amely rendezett, és a szavak betűmérete 32-16-ig változik. Azok a szavak kerülnek a szófelhőbe, amelyek legalább 5-ször előfordulnak. Kezelünk kivételeket is, például olyan szavakat, amiket nem érdemes szófelhőbe tenni. Lépésenként haladva ismertetjük a megvalósító forráskódot, és külön megjeleníthetők az egyes lépések részeredményei.

A Java programozási nyelv csomagjait, osztályait, interfészeit, metódusait, műveleteit használjuk. Különböző adatszerkezetek kerülnek elő: tömb, generikus lista, generikus map, generikus folyam. Építünk a Stream API szolgáltatásaira és a lambda kifejezésekre. A megvalósítás könnyen testre szabható, kezeli a tipikusan előforduló igényeket.

1. Szövegforrás előkészítése

Generálunk egy 10 bekezdésből álló szöveget a Lorem Ipsum – All the facts – Lipsum generator weboldalon és a későbbi feldolgozáshoz mentjük a Java projekt files mappájába lorem.txt néven. A fájl mérete: 5781 bájt. Szövegfájl:

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Curabitur quis mauris laoreet, lobortis orci eget, egestas dui. Vivamus pretium nunc sit amet ex dictum rutrum. Duis sodales augue dui, vitae porta eros auctor non. Pellentesque vehicula sollicitudin scelerisque. Sed urna massa, auctor nec tellus at, iaculis dictum ligula. Nunc vitae metus quis velit hendrerit finibus. Aenean et nunc et sem facilisis sagittis. Phasellus vestibulum accumsan eleifend. Etiam finibus est fringilla augue imperdiet lacinia. Suspendisse eleifend, magna quis sollicitudin euismod, turpis enim pretium nulla, at vulputate justo sem vel ipsum. Donec vestibulum risus viverra purus sodales, nec laoreet tortor volutpat. Pellentesque vitae sodales odio. Morbi tristique vitae justo ac dictum. Nam eleifend dolor sapien, ullamcorper pellentesque quam semper quis.

Suspendisse eu aliquet lectus. Maecenas placerat nunc nec ipsum tempor suscipit. Donec fringilla lacinia aliquam. Fusce maximus nunc eget nibh dignissim, id aliquam ex fringilla. Donec eget blandit tortor. Nunc at ornare lectus, non varius augue. Donec cursus velit ligula, non volutpat tellus euismod eu. Mauris dictum nisl consequat nisl dapibus placerat. Maecenas in purus leo. Praesent imperdiet aliquet porttitor. Nunc tempus maximus enim. Integer imperdiet luctus lorem eget luctus. Nullam et sapien fringilla, vestibulum lectus at, porttitor odio. Sed cursus mollis ante, ac volutpat est facilisis non.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vestibulum id posuere tellus. Quisque ornare, sem ac maximus porttitor, eros dui porta sem, ornare vulputate mi leo vel nunc. Donec leo ex, fringilla cursus dui at, congue euismod velit. Nunc viverra lectus vel nunc tempus viverra. Suspendisse potenti. Integer vel purus commodo, rutrum lectus nec, pharetra sem. Proin blandit tincidunt turpis in pulvinar. Aliquam malesuada tellus id dui ullamcorper pellentesque. Donec vel urna felis.

Morbi blandit ipsum eget tellus efficitur, ac pulvinar nunc porttitor. Quisque nec posuere elit, ac sollicitudin sem. Vestibulum faucibus ante lectus, vel congue erat molestie sed. Maecenas ac leo porttitor, congue felis sit amet, dignissim nibh. Quisque porttitor neque maximus est scelerisque, nec gravida orci eleifend. Aenean ac magna ut dolor aliquet fermentum vel nec risus. Phasellus in ullamcorper mauris. Phasellus semper blandit bibendum. Cras vitae purus fermentum diam dapibus dictum. Curabitur sapien neque, rutrum in dapibus eu, ornare at ante.

Integer facilisis, libero convallis pellentesque gravida, velit odio interdum nisi, vel ultricies nisl sapien et eros. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Morbi nec ante at ante blandit fringilla eu sed nisi. Suspendisse potenti. Maecenas neque lacus, laoreet nec lacinia efficitur, suscipit at est. Mauris lacinia fringilla ligula, sit amet blandit nisl ullamcorper sed. Nulla et velit laoreet, egestas sapien vitae, elementum leo. Suspendisse laoreet nibh neque, et convallis dolor vulputate id.

Fusce at elit a libero ullamcorper interdum vitae bibendum urna. Proin porta est lorem, eget accumsan nibh placerat ut. Aenean scelerisque, lectus rutrum efficitur mollis, elit eros dapibus velit, eu lobortis ipsum felis quis dui. Cras quis faucibus eros, eget scelerisque ligula. Proin tempor felis quis tellus ornare sodales. Curabitur quam sapien, venenatis nec diam in, molestie euismod arcu. Morbi malesuada sodales metus, vitae ornare nisl eleifend nec. Nulla nec metus sed diam vestibulum commodo vel vitae lectus. Suspendisse quis quam eu nibh suscipit faucibus quis ut orci.

Cras quis mi sit amet ante fermentum consectetur. Aliquam euismod libero vitae euismod dapibus. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Morbi auctor in mi vitae egestas. Aenean justo nisl, consectetur quis dui cursus, consectetur commodo lacus. In scelerisque erat ac ligula aliquet ultrices. Aliquam rutrum ut tortor sed pellentesque. Aliquam semper, felis sed finibus scelerisque, neque odio consectetur odio, eget imperdiet quam quam ut arcu. Maecenas non arcu tempus, ornare quam vel, fringilla turpis. Vivamus rhoncus velit sed mauris pretium pharetra. Mauris tempor, leo quis tristique ullamcorper, mauris mi aliquet dui, sed ullamcorper risus nunc quis metus.

Donec in laoreet lectus. Ut sit amet mattis diam. Maecenas et mauris eget lacus mollis sodales. Pellentesque porttitor venenatis accumsan. In a aliquet tortor. Donec condimentum lectus sem, quis ornare magna dapibus ac. Mauris maximus dolor in porttitor pulvinar. Cras ut magna eros. Nullam eu dolor eget purus aliquam bibendum vel nec erat. Duis augue justo, ornare non urna id, elementum pulvinar arcu. Donec placerat quam lorem, pulvinar laoreet justo hendrerit vitae. Suspendisse porta accumsan leo. Mauris suscipit urna ac erat convallis auctor.

Quisque sollicitudin elit odio. Mauris tempor eu lorem nec rhoncus. Aliquam in feugiat tellus. Maecenas elementum euismod ex. In maximus scelerisque viverra. Nam vel placerat quam, sit amet eleifend nisi. Cras porta tincidunt malesuada. Ut congue porta pellentesque. Donec porttitor elit ac tempor malesuada. Etiam ultricies laoreet ante, vitae interdum felis rhoncus eu. Morbi dignissim consequat semper.

Nam luctus molestie turpis, vel bibendum ante lobortis eget. Orci varius natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Sed cursus urna nisl, molestie faucibus libero pulvinar nec. Nulla facilisi. Integer lorem odio, suscipit vel risus eget, tempor vulputate nulla. Morbi a posuere arcu. Praesent et arcu dolor. Sed placerat eros vel lacus interdum viverra. Ut pulvinar dui ac enim rhoncus hendrerit.

2. Szöveges tartalom előkészítése

String s=new String(Files.readAllBytes(Paths.get("./files/lorem.txt")));

s=s.replace("\n", "").replace("\r", "").replace(",", "").

replace(".", "").toLowerCase();

A megadott útvonalról a java.nio csomag metódusaival betöltjük a szövegfájl tartalmát byte[]-be, majd az s szövegbe. A replace() metódus hívásaival eltávolítjuk a szövegből a sor és bekezdés végét jelző soremelés ( LF="\n") és kocsi vissza ( CR="\r") vezérlőkaraktereket, a vessző és a pont írásjeleket (mindet külön-külön cseréljük a semmire), végül kisbetűssé alakítjuk ( toLowerCase()) a szöveget. A szöveg 5563 db karakterből áll. Előkészített szöveg:

lorem ipsum dolor sit amet consectetur adipiscing elit curabitur quis mauris laoreet lobortis orci eget egestas dui vivamus pretium nunc sit amet ex dictum rutrum duis sodales augue dui vitae porta eros auctor non pellentesque vehicula sollicitudin scelerisque sed urna massa auctor nec tellus at iaculis dictum ligula nunc vitae metus quis velit hendrerit finibus aenean et nunc et sem facilisis sagittis phasellus vestibulum accumsan eleifend etiam finibus est fringilla augue imperdiet lacinia suspendisse eleifend magna quis sollicitudin euismod turpis enim pretium nulla at vulputate justo sem vel ipsum donec vestibulum risus viverra purus sodales nec laoreet tortor volutpat pellentesque vitae sodales odio morbi tristique vitae justo ac dictum nam eleifend dolor sapien ullamcorper pellentesque quam semper quissuspendisse eu aliquet lectus maecenas placerat nunc nec ipsum tempor suscipit donec fringilla lacinia aliquam fusce maximus nunc eget nibh dignissim id aliquam ex fringilla donec eget blandit tortor nunc at ornare lectus non varius augue donec cursus velit ligula non volutpat tellus euismod eu mauris dictum nisl consequat nisl dapibus placerat maecenas in purus leo praesent imperdiet aliquet porttitor nunc tempus maximus enim integer imperdiet luctus lorem eget luctus nullam et sapien fringilla vestibulum lectus at porttitor odio sed cursus mollis ante ac volutpat est facilisis nonlorem ipsum dolor sit amet consectetur adipiscing elit vestibulum id posuere tellus quisque ornare sem ac maximus porttitor eros dui porta sem ornare vulputate mi leo vel nunc donec leo ex fringilla cursus dui at congue euismod velit nunc viverra lectus vel nunc tempus viverra suspendisse potenti integer vel purus commodo rutrum lectus nec pharetra sem proin blandit tincidunt turpis in pulvinar aliquam malesuada tellus id dui ullamcorper pellentesque donec vel urna felismorbi blandit ipsum eget tellus efficitur ac pulvinar nunc porttitor quisque nec posuere elit ac sollicitudin sem vestibulum faucibus ante lectus vel congue erat molestie sed maecenas ac leo porttitor congue felis sit amet dignissim nibh quisque porttitor neque maximus est scelerisque nec gravida orci eleifend aenean ac magna ut dolor aliquet fermentum vel nec risus phasellus in ullamcorper mauris phasellus semper blandit bibendum cras vitae purus fermentum diam dapibus dictum curabitur sapien neque rutrum in dapibus eu ornare at anteinteger facilisis libero convallis pellentesque gravida velit odio interdum nisi vel ultricies nisl sapien et eros pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas morbi nec ante at ante blandit fringilla eu sed nisi suspendisse potenti maecenas neque lacus laoreet nec lacinia efficitur suscipit at est mauris lacinia fringilla ligula sit amet blandit nisl ullamcorper sed nulla et velit laoreet egestas sapien vitae elementum leo suspendisse laoreet nibh neque et convallis dolor vulputate idfusce at elit a libero ullamcorper interdum vitae bibendum urna proin porta est lorem eget accumsan nibh placerat ut aenean scelerisque lectus rutrum efficitur mollis elit eros dapibus velit eu lobortis ipsum felis quis dui cras quis faucibus eros eget scelerisque ligula proin tempor felis quis tellus ornare sodales curabitur quam sapien venenatis nec diam in molestie euismod arcu morbi malesuada sodales metus vitae ornare nisl eleifend nec nulla nec metus sed diam vestibulum commodo vel vitae lectus suspendisse quis quam eu nibh suscipit faucibus quis ut orcicras quis mi sit amet ante fermentum consectetur aliquam euismod libero vitae euismod dapibus class aptent taciti sociosqu ad litora torquent per conubia nostra per inceptos himenaeos morbi auctor in mi vitae egestas aenean justo nisl consectetur quis dui cursus consectetur commodo lacus in scelerisque erat ac ligula aliquet ultrices aliquam rutrum ut tortor sed pellentesque aliquam semper felis sed finibus scelerisque neque odio consectetur odio eget imperdiet quam quam ut arcu maecenas non arcu tempus ornare quam vel fringilla turpis vivamus rhoncus velit sed mauris pretium pharetra mauris tempor leo quis tristique ullamcorper mauris mi aliquet dui sed ullamcorper risus nunc quis metusdonec in laoreet lectus ut sit amet mattis diam maecenas et mauris eget lacus mollis sodales pellentesque porttitor venenatis accumsan in a aliquet tortor donec condimentum lectus sem quis ornare magna dapibus ac mauris maximus dolor in porttitor pulvinar cras ut magna eros nullam eu dolor eget purus aliquam bibendum vel nec erat duis augue justo ornare non urna id elementum pulvinar arcu donec placerat quam lorem pulvinar laoreet justo hendrerit vitae suspendisse porta accumsan leo mauris suscipit urna ac erat convallis auctorquisque sollicitudin elit odio mauris tempor eu lorem nec rhoncus aliquam in feugiat tellus maecenas elementum euismod ex in maximus scelerisque viverra nam vel placerat quam sit amet eleifend nisi cras porta tincidunt malesuada ut congue porta pellentesque donec porttitor elit ac tempor malesuada etiam ultricies laoreet ante vitae interdum felis rhoncus eu morbi dignissim consequat sempernam luctus molestie turpis vel bibendum ante lobortis eget orci varius natoque penatibus et magnis dis parturient montes nascetur ridiculus mus sed cursus urna nisl molestie faucibus libero pulvinar nec nulla facilisi integer lorem odio suscipit vel risus eget tempor vulputate nulla morbi a posuere arcu praesent et arcu dolor sed placerat eros vel lacus interdum viverra ut pulvinar dui ac enim rhoncus hendrerit

3. Szólista elkészítése

1	List<String> wordList=Arrays.asList(s.split(" "));

A szóközök mentén darabolva ( split()) a szöveget elkészül belőle egy névtelen szövegtömb ( String[]), amit rögtön átalakítunk ( Arrays.asList()) szöveg típusú generikus listává ( List<String>). A lista 826 db elemből áll. Generikus lista:

[lorem, ipsum, dolor, sit, amet, consectetur, adipiscing, elit, curabitur, quis, mauris, laoreet, lobortis, orci, eget, egestas, dui, vivamus, pretium, nunc, sit, amet, ex, dictum, rutrum, duis, sodales, augue, dui, vitae, porta, eros, auctor, non, pellentesque, vehicula, sollicitudin, scelerisque, sed, urna, massa, auctor, nec, tellus, at, iaculis, dictum, ligula, nunc, vitae, metus, quis, velit, hendrerit, finibus, aenean, et, nunc, et, sem, facilisis, sagittis, phasellus, vestibulum, accumsan, eleifend, etiam, finibus, est, fringilla, augue, imperdiet, lacinia, suspendisse, eleifend, magna, quis, sollicitudin, euismod, turpis, enim, pretium, nulla, at, vulputate, justo, sem, vel, ipsum, donec, vestibulum, risus, viverra, purus, sodales, nec, laoreet, tortor, volutpat, pellentesque, vitae, sodales, odio, morbi, tristique, vitae, justo, ac, dictum, nam, eleifend, dolor, sapien, ullamcorper, pellentesque, quam, semper, quissuspendisse, eu, aliquet, lectus, maecenas, placerat, nunc, nec, ipsum, tempor, suscipit, donec, fringilla, lacinia, aliquam, fusce, maximus, nunc, eget, nibh, dignissim, id, aliquam, ex, fringilla, donec, eget, blandit, tortor, nunc, at, ornare, lectus, non, varius, augue, donec, cursus, velit, ligula, non, volutpat, tellus, euismod, eu, mauris, dictum, nisl, consequat, nisl, dapibus, placerat, maecenas, in, purus, leo, praesent, imperdiet, aliquet, porttitor, nunc, tempus, maximus, enim, integer, imperdiet, luctus, lorem, eget, luctus, nullam, et, sapien, fringilla, vestibulum, lectus, at, porttitor, odio, sed, cursus, mollis, ante, ac, volutpat, est, facilisis, nonlorem, ipsum, dolor, sit, amet, consectetur, adipiscing, elit, vestibulum, id, posuere, tellus, quisque, ornare, sem, ac, maximus, porttitor, eros, dui, porta, sem, ornare, vulputate, mi, leo, vel, nunc, donec, leo, ex, fringilla, cursus, dui, at, congue, euismod, velit, nunc, viverra, lectus, vel, nunc, tempus, viverra, suspendisse, potenti, integer, vel, purus, commodo, rutrum, lectus, nec, pharetra, sem, proin, blandit, tincidunt, turpis, in, pulvinar, aliquam, malesuada, tellus, id, dui, ullamcorper, pellentesque, donec, vel, urna, felismorbi, blandit, ipsum, eget, tellus, efficitur, ac, pulvinar, nunc, porttitor, quisque, nec, posuere, elit, ac, sollicitudin, sem, vestibulum, faucibus, ante, lectus, vel, congue, erat, molestie, sed, maecenas, ac, leo, porttitor, congue, felis, sit, amet, dignissim, nibh, quisque, porttitor, neque, maximus, est, scelerisque, nec, gravida, orci, eleifend, aenean, ac, magna, ut, dolor, aliquet, fermentum, vel, nec, risus, phasellus, in, ullamcorper, mauris, phasellus, semper, blandit, bibendum, cras, vitae, purus, fermentum, diam, dapibus, dictum, curabitur, sapien, neque, rutrum, in, dapibus, eu, ornare, at, anteinteger, facilisis, libero, convallis, pellentesque, gravida, velit, odio, interdum, nisi, vel, ultricies, nisl, sapien, et, eros, pellentesque, habitant, morbi, tristique, senectus, et, netus, et, malesuada, fames, ac, turpis, egestas, morbi, nec, ante, at, ante, blandit, fringilla, eu, sed, nisi, suspendisse, potenti, maecenas, neque, lacus, laoreet, nec, lacinia, efficitur, suscipit, at, est, mauris, lacinia, fringilla, ligula, sit, amet, blandit, nisl, ullamcorper, sed, nulla, et, velit, laoreet, egestas, sapien, vitae, elementum, leo, suspendisse, laoreet, nibh, neque, et, convallis, dolor, vulputate, idfusce, at, elit, a, libero, ullamcorper, interdum, vitae, bibendum, urna, proin, porta, est, lorem, eget, accumsan, nibh, placerat, ut, aenean, scelerisque, lectus, rutrum, efficitur, mollis, elit, eros, dapibus, velit, eu, lobortis, ipsum, felis, quis, dui, cras, quis, faucibus, eros, eget, scelerisque, ligula, proin, tempor, felis, quis, tellus, ornare, sodales, curabitur, quam, sapien, venenatis, nec, diam, in, molestie, euismod, arcu, morbi, malesuada, sodales, metus, vitae, ornare, nisl, eleifend, nec, nulla, nec, metus, sed, diam, vestibulum, commodo, vel, vitae, lectus, suspendisse, quis, quam, eu, nibh, suscipit, faucibus, quis, ut, orcicras, quis, mi, sit, amet, ante, fermentum, consectetur, aliquam, euismod, libero, vitae, euismod, dapibus, class, aptent, taciti, sociosqu, ad, litora, torquent, per, conubia, nostra, per, inceptos, himenaeos, morbi, auctor, in, mi, vitae, egestas, aenean, justo, nisl, consectetur, quis, dui, cursus, consectetur, commodo, lacus, in, scelerisque, erat, ac, ligula, aliquet, ultrices, aliquam, rutrum, ut, tortor, sed, pellentesque, aliquam, semper, felis, sed, finibus, scelerisque, neque, odio, consectetur, odio, eget, imperdiet, quam, quam, ut, arcu, maecenas, non, arcu, tempus, ornare, quam, vel, fringilla, turpis, vivamus, rhoncus, velit, sed, mauris, pretium, pharetra, mauris, tempor, leo, quis, tristique, ullamcorper, mauris, mi, aliquet, dui, sed, ullamcorper, risus, nunc, quis, metusdonec, in, laoreet, lectus, ut, sit, amet, mattis, diam, maecenas, et, mauris, eget, lacus, mollis, sodales, pellentesque, porttitor, venenatis, accumsan, in, a, aliquet, tortor, donec, condimentum, lectus, sem, quis, ornare, magna, dapibus, ac, mauris, maximus, dolor, in, porttitor, pulvinar, cras, ut, magna, eros, nullam, eu, dolor, eget, purus, aliquam, bibendum, vel, nec, erat, duis, augue, justo, ornare, non, urna, id, elementum, pulvinar, arcu, donec, placerat, quam, lorem, pulvinar, laoreet, justo, hendrerit, vitae, suspendisse, porta, accumsan, leo, mauris, suscipit, urna, ac, erat, convallis, auctorquisque, sollicitudin, elit, odio, mauris, tempor, eu, lorem, nec, rhoncus, aliquam, in, feugiat, tellus, maecenas, elementum, euismod, ex, in, maximus, scelerisque, viverra, nam, vel, placerat, quam, sit, amet, eleifend, nisi, cras, porta, tincidunt, malesuada, ut, congue, porta, pellentesque, donec, porttitor, elit, ac, tempor, malesuada, etiam, ultricies, laoreet, ante, vitae, interdum, felis, rhoncus, eu, morbi, dignissim, consequat, sempernam, luctus, molestie, turpis, vel, bibendum, ante, lobortis, eget, orci, varius, natoque, penatibus, et, magnis, dis, parturient, montes, nascetur, ridiculus, mus, sed, cursus, urna, nisl, molestie, faucibus, libero, pulvinar, nec, nulla, facilisi, integer, lorem, odio, suscipit, vel, risus, eget, tempor, vulputate, nulla, morbi, a, posuere, arcu, praesent, et, arcu, dolor, sed, placerat, eros, vel, lacus, interdum, viverra, ut, pulvinar, dui, ac, enim, rhoncus, hendrerit]

4. Csoportosítás és megszámolás

1 2	Map<String, Long> wordCountMap=wordList.stream().collect( Collectors.groupingBy(Function.identity(), Collectors.counting()));

A szólistát csoportosítjuk és megszámoljuk, hogy az egyes szavak hányszor fordulnak elő (másképpen: egy-egy csoport hány elemű). Elkészül a wordCountMap generikus map, amely kulcs-érték párok halmaza (leképezés). A kulcs a szó ( String), az érték a darabszáma ( Long). Alkalmazkodunk ahhoz, hogy a csoportosítás során használt counting() megszámoló művelet Long típusú értéket ad vissza. 188 db kulcs-érték párt kapunk. Generikus map:

{aenean=4, elementum=3, efficitur=3, mollis=3, tempor=6, potenti=2, bibendum=4, commodo=3, purus=5, augue=4, justo=5, lorem=6, leo=7, id=4, nam=2, per=2, habitant=1, semper=3, volutpat=3, ac=13, ad=1, sodales=6, in=12, finibus=3, velit=7, urna=6, sociosqu=1, luctus=3, fusce=1, at=9, pellentesque=9, ipsum=6, convallis=3, elit=7, taciti=1, aptent=1, ullamcorper=7, vestibulum=6, laoreet=8, ridiculus=1, congue=4, idfusce=1, penatibus=1, arcu=6, conubia=1, dolor=8, iaculis=1, inceptos=1, sed=12, duis=2, metus=3, dictum=5, vehicula=1, dapibus=6, sem=7, pulvinar=7, diam=4, porta=6, ultricies=2, interdum=4, a=3, felismorbi=1, magnis=1, nisi=3, morbi=7, quam=8, tincidunt=2, nisl=7, ultrices=1, condimentum=1, ornare=9, aliquam=8, praesent=2, magna=4, auctor=3, turpis=5, nibh=5, ante=7, placerat=6, parturient=1, malesuada=5, rutrum=5, sapien=6, himenaeos=1, quis=13, porttitor=9, sagittis=1, eros=7, maximus=6, torquent=1, tristique=3, etiam=2, suscipit=5, sempernam=1, cursus=5, est=5, adipiscing=2, odio=7, eleifend=6, accumsan=4, fames=1, integer=3, egestas=4, nec=15, scelerisque=7, dis=1, erat=4, nunc=12, facilisis=3, euismod=7, nascetur=1, donec=9, vivamus=2, mauris=11, nostra=1, neque=5, imperdiet=4, natoque=1, molestie=4, mi=4, vel=15, feugiat=1, metusdonec=1, ut=9, enim=3, consequat=2, ligula=5, lobortis=3, quissuspendisse=1, varius=2, facilisi=1, dignissim=3, nullam=2, vulputate=4, fermentum=3, auctorquisque=1, litora=1, et=11, eu=9, mattis=1, lacus=4, ex=4, vitae=13, senectus=1, posuere=3, felis=5, tellus=7, orci=3, faucibus=4, phasellus=3, pharetra=2, blandit=6, lacinia=4, massa=1, venenatis=2, lectus=10, rhoncus=4, viverra=5, montes=1, netus=1, tempus=3, mus=1, non=5, proin=3, risus=4, cras=4, maecenas=7, hendrerit=3, class=1, sit=8, tortor=4, orcicras=1, anteinteger=1, fringilla=8, curabitur=3, sollicitudin=4, suspendisse=6, aliquet=6, amet=8, quisque=3, pretium=3, dui=9, nonlorem=1, libero=4, gravida=2, nulla=5, eget=12, consectetur=6}

5. Szűrés és rendezés

List<String> exceptList=

Arrays.asList(new String[] {"at", "et", "in", "ut"});

Stream<Entry<String, Long>> sortedWordCountStream=

wordCountMap.entrySet().stream().

filter(e -> !exceptList.contains(e.getKey())).

filter(e -> e.getValue()>=5).

sorted((e1, e2) ->

(e1.getValue().equals(e2.getValue())) ?

e1.getKey().compareTo(e2.getKey()) :

e2.getValue().compareTo(e1.getValue())

);

A generikus map-et kétszer szűrjük ( filter() művelet) úgy, hogy a kivételeket tartalmazó exceptList-ben ne szerepeljen a szó, valamint csak a legalább 5-ször előforduló szavakat hagyjuk meg. 71 db elemből álló folyam marad. Ebből a maradékból készítünk rendezett generikus folyamot ( sortedWordCountStream). A sorted() művelet két kulcs-érték párt hasonlít össze. A rendezés érték/darabszám szerint ( getValue()) csökkenő, azon belül kulcs/szavak szerint ( getKey()) növekvő sorrendet biztosít. Másképpen: ha az értékek megegyeznek, akkor a növekvő sorrendet a szavak ábécé sorrendje határozza meg, egyébként a darabszámok csökkenő sorrendje dönti el. Most már könnyen látható, hogy a leggyakrabban előforduló kevés szóból 15 van, 14 előfordulás nincs… Rendezett generikus folyam:

[nec=15, vel=15, ac=13, quis=13, vitae=13, eget=12, nunc=12, sed=12, mauris=11, lectus=10, donec=9, dui=9, eu=9, ornare=9, pellentesque=9, porttitor=9, aliquam=8, amet=8, dolor=8, fringilla=8, laoreet=8, quam=8, sit=8, ante=7, elit=7, eros=7, euismod=7, leo=7, maecenas=7, morbi=7, nisl=7, odio=7, pulvinar=7, scelerisque=7, sem=7, tellus=7, ullamcorper=7, velit=7, aliquet=6, arcu=6, blandit=6, consectetur=6, dapibus=6, eleifend=6, ipsum=6, lorem=6, maximus=6, placerat=6, porta=6, sapien=6, sodales=6, suspendisse=6, tempor=6, urna=6, vestibulum=6, cursus=5, dictum=5, est=5, felis=5, justo=5, ligula=5, malesuada=5, neque=5, nibh=5, non=5, nulla=5, purus=5, rutrum=5, suscipit=5, turpis=5, viverra=5]

6. Saját típusú listává konvertálás

Definiálunk egy WordCount POJO-t, String típusú word nevű, Long típusú count nevű, int típusú fontSize nevű tulajdonságokkal, getter/setter metódusokkal, és toString() függvénnyel.

List<WordCount> sortedWordCountList=

sortedWordCountStream.

map(e -> new WordCount(e.getKey(), e.getValue())).

collect(Collectors.toList());

A map() intermediate művelettel a rendezett generikus folyamot bejárva, előállítjuk a POJO/ WordCount típusú kimeneti objektumok rendezett generikus listáját. Továbbra is 71 elemmel dolgozunk. Rendezett generikus lista:

POJO{word: nec, count: 15, fontSize: 0}

POJO{word: vel, count: 15, fontSize: 0}

POJO{word: ac, count: 13, fontSize: 0}

POJO{word: quis, count: 13, fontSize: 0}

POJO{word: vitae, count: 13, fontSize: 0}

POJO{word: eget, count: 12, fontSize: 0}

POJO{word: nunc, count: 12, fontSize: 0}

POJO{word: sed, count: 12, fontSize: 0}

POJO{word: mauris, count: 11, fontSize: 0}

POJO{word: lectus, count: 10, fontSize: 0}

POJO{word: donec, count: 9, fontSize: 0}

POJO{word: dui, count: 9, fontSize: 0}

POJO{word: eu, count: 9, fontSize: 0}

POJO{word: ornare, count: 9, fontSize: 0}

POJO{word: pellentesque, count: 9, fontSize: 0}

POJO{word: porttitor, count: 9, fontSize: 0}

POJO{word: aliquam, count: 8, fontSize: 0}

POJO{word: amet, count: 8, fontSize: 0}

POJO{word: dolor, count: 8, fontSize: 0}

POJO{word: fringilla, count: 8, fontSize: 0}

POJO{word: laoreet, count: 8, fontSize: 0}

POJO{word: quam, count: 8, fontSize: 0}

POJO{word: sit, count: 8, fontSize: 0}

POJO{word: ante, count: 7, fontSize: 0}

POJO{word: elit, count: 7, fontSize: 0}

POJO{word: eros, count: 7, fontSize: 0}

POJO{word: euismod, count: 7, fontSize: 0}

POJO{word: leo, count: 7, fontSize: 0}

POJO{word: maecenas, count: 7, fontSize: 0}

POJO{word: morbi, count: 7, fontSize: 0}

POJO{word: nisl, count: 7, fontSize: 0}

POJO{word: odio, count: 7, fontSize: 0}

POJO{word: pulvinar, count: 7, fontSize: 0}

POJO{word: scelerisque, count: 7, fontSize: 0}

POJO{word: sem, count: 7, fontSize: 0}

POJO{word: tellus, count: 7, fontSize: 0}

POJO{word: ullamcorper, count: 7, fontSize: 0}

POJO{word: velit, count: 7, fontSize: 0}

POJO{word: aliquet, count: 6, fontSize: 0}

POJO{word: arcu, count: 6, fontSize: 0}

POJO{word: blandit, count: 6, fontSize: 0}

POJO{word: consectetur, count: 6, fontSize: 0}

POJO{word: dapibus, count: 6, fontSize: 0}

POJO{word: eleifend, count: 6, fontSize: 0}

POJO{word: ipsum, count: 6, fontSize: 0}

POJO{word: lorem, count: 6, fontSize: 0}

POJO{word: maximus, count: 6, fontSize: 0}

POJO{word: placerat, count: 6, fontSize: 0}

POJO{word: porta, count: 6, fontSize: 0}

POJO{word: sapien, count: 6, fontSize: 0}

POJO{word: sodales, count: 6, fontSize: 0}

POJO{word: suspendisse, count: 6, fontSize: 0}

POJO{word: tempor, count: 6, fontSize: 0}

POJO{word: urna, count: 6, fontSize: 0}

POJO{word: vestibulum, count: 6, fontSize: 0}

POJO{word: cursus, count: 5, fontSize: 0}

POJO{word: dictum, count: 5, fontSize: 0}

POJO{word: est, count: 5, fontSize: 0}

POJO{word: felis, count: 5, fontSize: 0}

POJO{word: justo, count: 5, fontSize: 0}

POJO{word: ligula, count: 5, fontSize: 0}

POJO{word: malesuada, count: 5, fontSize: 0}

POJO{word: neque, count: 5, fontSize: 0}

POJO{word: nibh, count: 5, fontSize: 0}

POJO{word: non, count: 5, fontSize: 0}

POJO{word: nulla, count: 5, fontSize: 0}

POJO{word: purus, count: 5, fontSize: 0}

POJO{word: rutrum, count: 5, fontSize: 0}

POJO{word: suscipit, count: 5, fontSize: 0}

POJO{word: turpis, count: 5, fontSize: 0}

POJO{word: viverra, count: 5, fontSize: 0}

7. Darabszámok összegyűjtése

List<Long> distinctCountList=

sortedWordCountList.stream().map(e -> e.getCount()).distinct().

collect(Collectors.toList());

A POJO típusú rendezett generikus listában lévő objektumoktól elkért darabszámok ( getCount() POJO függvény) közül a különbözőeket ( distinct() művelet) összegyűjtjük egy Long típusú generikus listába ( distinctCountList). Az egyediesítő művelet nincs hatással az adatok sorrendjére. Tízféle előfordulást kapunk. Generikus lista:

1	[15, 13, 12, 11, 10, 9, 8, 7, 6, 5]

8. Betűméret lépésköze

final int MAX_FONT_SIZE=32;

final int MIN_FONT_SIZE=16;

long countCount=distinctCountList.size();

double stepFontSize=(double)(MAX_FONT_SIZE-MIN_FONT_SIZE+1)/countCount;

A szófelhőben a szavak gyakorisága alapján határozzuk meg a betűméretet. A betűméret 32-ről indul és fokozatosan csökken 16-ig. A betűméret léptetéséhez a tízféle gyakoriság/előfordulás meghatározza a stepFontSize lépésközt. Lépésköz:

1.7

9. Betűméret kiszámítása

int i=0, gi=0;

while(i<sortedWordCountList.size()) {

long count=sortedWordCountList.get(i).getCount();

int fontSize=(int)Math.round(MAX_FONT_SIZE-gi*stepFontSize);

while(i<sortedWordCountList.size() &&

count==sortedWordCountList.get(i).getCount()) {

sortedWordCountList.get(i).setFontSize(fontSize);

i++;

}

gi++;

}

Csoportváltást alkalmazunk és a csoportot gi-vel indexeljük. Egy csoportba azok a POJO objektumok tartoznak, amelyeknél a szavak előfordulása megegyezik. Az algoritmus 2. lépésében az aktuális csoportra érvényesen kiszámítjuk a betűméretet ( fontSize), ami az algoritmus 3. lépésében a csoportba tartozó minden POJO objektumnál beállításra kerül a setFontSize() POJO eljárással. Az algoritmus 4. lépésében léptetjük a csoport gi indexét. A POJO-k esetén először csak a word és count tulajdonságok kerültek beállításra, de most már a fontSize tulajdonság is értéket kapott. Generikus lista:

POJO{word: nec, count: 15, fontSize: 32}

POJO{word: vel, count: 15, fontSize: 32}

POJO{word: ac, count: 13, fontSize: 30}

POJO{word: quis, count: 13, fontSize: 30}

POJO{word: vitae, count: 13, fontSize: 30}

POJO{word: eget, count: 12, fontSize: 29}

POJO{word: nunc, count: 12, fontSize: 29}

POJO{word: sed, count: 12, fontSize: 29}

POJO{word: mauris, count: 11, fontSize: 27}

POJO{word: lectus, count: 10, fontSize: 25}

POJO{word: donec, count: 9, fontSize: 24}

POJO{word: dui, count: 9, fontSize: 24}

POJO{word: eu, count: 9, fontSize: 24}

POJO{word: ornare, count: 9, fontSize: 24}

POJO{word: pellentesque, count: 9, fontSize: 24}

POJO{word: porttitor, count: 9, fontSize: 24}

POJO{word: aliquam, count: 8, fontSize: 22}

POJO{word: amet, count: 8, fontSize: 22}

POJO{word: dolor, count: 8, fontSize: 22}

POJO{word: fringilla, count: 8, fontSize: 22}

POJO{word: laoreet, count: 8, fontSize: 22}

POJO{word: quam, count: 8, fontSize: 22}

POJO{word: sit, count: 8, fontSize: 22}

POJO{word: ante, count: 7, fontSize: 20}

POJO{word: elit, count: 7, fontSize: 20}

POJO{word: eros, count: 7, fontSize: 20}

POJO{word: euismod, count: 7, fontSize: 20}

POJO{word: leo, count: 7, fontSize: 20}

POJO{word: maecenas, count: 7, fontSize: 20}

POJO{word: morbi, count: 7, fontSize: 20}

POJO{word: nisl, count: 7, fontSize: 20}

POJO{word: odio, count: 7, fontSize: 20}

POJO{word: pulvinar, count: 7, fontSize: 20}

POJO{word: scelerisque, count: 7, fontSize: 20}

POJO{word: sem, count: 7, fontSize: 20}

POJO{word: tellus, count: 7, fontSize: 20}

POJO{word: ullamcorper, count: 7, fontSize: 20}

POJO{word: velit, count: 7, fontSize: 20}

POJO{word: aliquet, count: 6, fontSize: 18}

POJO{word: arcu, count: 6, fontSize: 18}

POJO{word: blandit, count: 6, fontSize: 18}

POJO{word: consectetur, count: 6, fontSize: 18}

POJO{word: dapibus, count: 6, fontSize: 18}

POJO{word: eleifend, count: 6, fontSize: 18}

POJO{word: ipsum, count: 6, fontSize: 18}

POJO{word: lorem, count: 6, fontSize: 18}

POJO{word: maximus, count: 6, fontSize: 18}

POJO{word: placerat, count: 6, fontSize: 18}

POJO{word: porta, count: 6, fontSize: 18}

POJO{word: sapien, count: 6, fontSize: 18}

POJO{word: sodales, count: 6, fontSize: 18}

POJO{word: suspendisse, count: 6, fontSize: 18}

POJO{word: tempor, count: 6, fontSize: 18}

POJO{word: urna, count: 6, fontSize: 18}

POJO{word: vestibulum, count: 6, fontSize: 18}

POJO{word: cursus, count: 5, fontSize: 17}

POJO{word: dictum, count: 5, fontSize: 17}

POJO{word: est, count: 5, fontSize: 17}

POJO{word: felis, count: 5, fontSize: 17}

POJO{word: justo, count: 5, fontSize: 17}

POJO{word: ligula, count: 5, fontSize: 17}

POJO{word: malesuada, count: 5, fontSize: 17}

POJO{word: neque, count: 5, fontSize: 17}

POJO{word: nibh, count: 5, fontSize: 17}

POJO{word: non, count: 5, fontSize: 17}

POJO{word: nulla, count: 5, fontSize: 17}

POJO{word: purus, count: 5, fontSize: 17}

POJO{word: rutrum, count: 5, fontSize: 17}

POJO{word: suscipit, count: 5, fontSize: 17}

POJO{word: turpis, count: 5, fontSize: 17}

POJO{word: viverra, count: 5, fontSize: 17}

10. HTML tartalom előállítása

StringBuilder sbHTML=new StringBuilder("");

sortedWordCountList.forEach(wordCount ->

sbHTML.append("<span style=\"font-size: ").

append(wordCount.getFontSize()).append("px\">").

append(wordCount.toString()).append(" ")

);

sbHTML.append("");

A generikus lista POJO objektumain végighaladva, a forEach() záró művelettel összeállítható a weboldal szófelhőt tartalmazó része ( sbHTML). A 71 db szóból álló szófelhő HTML forráskódjának mérete 3409 bájt. HTML forráskód:

nec (15) vel (15) ac (13) quis (13) vitae (13) eget (12) nunc (12) sed (12) mauris (11) lectus (10) donec (9) dui (9) eu (9) ornare (9) pellentesque (9) porttitor (9) aliquam (8) amet (8) dolor (8) fringilla (8) laoreet (8) quam (8) sit (8) ante (7) elit (7) eros (7) euismod (7) leo (7) maecenas (7) morbi (7) nisl (7) odio (7) pulvinar (7) scelerisque (7) sem (7) tellus (7) ullamcorper (7) velit (7) aliquet (6) arcu (6) blandit (6) consectetur (6) dapibus (6) eleifend (6) ipsum (6) lorem (6) maximus (6) placerat (6) porta (6) sapien (6) sodales (6) suspendisse (6) tempor (6) urna (6) vestibulum (6) cursus (5) dictum (5) est (5) felis (5) justo (5) ligula (5) malesuada (5) neque (5) nibh (5) non (5) nulla (5) purus (5) rutrum (5) suscipit (5) turpis (5) viverra (5)

Eredmény

Szöveges formában:

Képként (a 3. lépés részeredményéből a WordClouds.com weboldalon generálva):

A bejegyzéshez tartozó teljes forráskódot ILIAS e-learning tananyagban tesszük elérhetővé tanfolyamaink résztvevői számára.

A feladat a Java SE szoftverfejlesztő tanfolyam szakmai moduljának több alkalmához is kötődik. A Stream API-val és a lambda kifejezésekkel sokszor foglalkozunk.

Ajánljuk a Java SE szoftverfejlesztő tanfolyam kategóriából

Dr. Sheldon Cooper kő-papír-olló-gyík-Spock játéka

Rácsrejtjelezés

Nemzeti pizza nap

Fibonacci-sorozat

Egy matematika érettségi feladat megoldása programozással 2017

Barátságos számok

“Címkefelhő generálása” bejegyzéshez 6 hozzászólás

Az azonos darabszámú szavakat a 10. lépésben egyetlen span elemmel is elő tudtam állítani. Megmutatnám a holnapi órán.

Válasz

Kiss Balázs

2020. október 13. - 10:14

Miklós: rendben, kíváncsi vagyok a megoldásodra. Én is átgondoltam ciklussal és funkcionális művelettel is. Hasonlítsuk majd össze a megoldásainkat.
Válasz

Végül erre jutottunk a 10. lépés közös továbbfejlesztésével. A csoportváltás algoritmust használtuk Miklóssal.

Java forráskód:

i=0;

sb.append("<span style=\"font-size: ").

append(sortedWordCountList.get(i).getFontSize()).

append("px\">");

sb.append(sortedWordCountList.get(i).toString()).

append(" ");

sb.append("");

sb.append("");

Szöveges eredmény:

nec (15) vel (15) ac (13) quis (13) vitae (13) eget (12) nunc (12) sed (12) mauris (11) lectus (10) donec (9) dui (9) eu (9) ornare (9) pellentesque (9) porttitor (9) aliquam (8) amet (8) dolor (8) fringilla (8) laoreet (8) quam (8) sit (8) ante (7) elit (7) eros (7) euismod (7) leo (7) maecenas (7) morbi (7) nisl (7) odio (7) pulvinar (7) scelerisque (7) sem (7) tellus (7) ullamcorper (7) velit (7) aliquet (6) arcu (6) blandit (6) consectetur (6) dapibus (6) eleifend (6) ipsum (6) lorem (6) maximus (6) placerat (6) porta (6) sapien (6) sodales (6) suspendisse (6) tempor (6) urna (6) vestibulum (6) cursus (5) dictum (5) est (5) felis (5) justo (5) ligula (5) malesuada (5) neque (5) nibh (5) non (5) nulla (5) purus (5) rutrum (5) suscipit (5) turpis (5) viverra (5)

A szöveg hossza: 1152.

Kaczur Sándor

2020. október 20. - 14:03

Szuper Miklós, Balázs: akit motivált ez a továbbfejlesztés, oldja meg ezt a részfeladatot funkcionális programozással. Várjuk a megoldást.
Válasz

T. Erik

2022. február 19. - 16:33

A Rómeó és Júlia példa átalakításával kaptam 23692 szót. Generáltam belőle szófelhőt:

Válasz
- Kiss Balázs
  
  2022. február 19. - 19:03
  
  Kösz Erik. Nagyon kreatív vagy. Megnézem majd az ILIAS-ra feltöltött megoldásodat, mert kíváncsi vagyok hogyan kezelted az írásjeleket a szavak végén.
  Válasz

1. Szövegforrás előkészítése

2. Szöveges tartalom előkészítése

3. Szólista elkészítése

4. Csoportosítás és megszámolás

5. Szűrés és rendezés

6. Saját típusú listává konvertálás

7. Darabszámok összegyűjtése

8. Betűméret lépésköze

9. Betűméret kiszámítása

10. HTML tartalom előállítása

Eredmény

Ajánljuk a Java SE szoftverfejlesztő tanfolyam kategóriából

“Címkefelhő generálása” bejegyzéshez 6 hozzászólás

Szólj hozzá! Válasz megszakítása