Embedding dat pro velké jazykové modely

DSpace Repository

Language: English čeština 

Embedding dat pro velké jazykové modely

Show simple item record

dc.contributor.advisor Kováč, Jozef
dc.contributor.author Nehéz, Šimon
dc.date.accessioned 2024-07-23T13:17:00Z
dc.date.available 2024-07-23T13:17:00Z
dc.date.issued 2023-11-05
dc.identifier Elektronický archiv Knihovny UTB
dc.identifier.uri http://hdl.handle.net/10563/56654
dc.description.abstract Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát.
dc.format 73 s. (99 194 znaků)
dc.language.iso sk
dc.publisher Univerzita Tomáše Bati ve Zlíně
dc.rights Bez omezení
dc.subject embedding cs
dc.subject veľké jazykové modely cs
dc.subject súborové formáty cs
dc.subject sémantická podobnosť cs
dc.subject embedding en
dc.subject large language models en
dc.subject file formats en
dc.subject semantic similarity en
dc.title Embedding dat pro velké jazykové modely
dc.title.alternative Embedding Data for Large Language Models
dc.type bakalářská práce cs
dc.contributor.referee Viktorin, Adam
dc.date.accepted 2024-06-03
dc.description.abstract-translated The bachelor thesis deals with the conversion of various file formats into vectors while evaluating the quality of these vectors. The theoretical part of the thesis describes multiple methods of converting text to vector representation, while the practical part includes the construction of a test dataset, the creation of a prototype web application for generating embeddings in Python and the evaluation of the experiment. The experiment showed minimal differences in the quality of embeddings between the file formats studied (maximum difference of 2.7 percent), with the CSV format being the most efficient in terms of time required to load the files. The TXT format achieved the lowest memory intensity while the HTML format was the slowest and most memory intensive. The work provides valuable insights into the performance of different file formats for data embedding
dc.description.department Ústav informatiky a umělé inteligence
dc.thesis.degree-discipline Softwarové inženýrství cs
dc.thesis.degree-discipline Software Engineering en
dc.thesis.degree-grantor Univerzita Tomáše Bati ve Zlíně. Fakulta aplikované informatiky cs
dc.thesis.degree-grantor Tomas Bata University in Zlín. Faculty of Applied Informatics en
dc.thesis.degree-name Bc.
dc.thesis.degree-program Softwarové inženýrství cs
dc.thesis.degree-program Software Engineering en
dc.identifier.stag 66827
dc.date.submitted 2024-05-10


Files in this item

Files Size Format View Description
nehéz_2024_dp.pdf 2.625Mb PDF View/Open None
nehéz_2024_op.pdf 149.8Kb PDF View/Open None
nehéz_2024_vp.pdf 320.5Kb PDF View/Open None

This item appears in the following Collection(s)

Show simple item record

Find fulltext

Search DSpace


Browse

My Account