Embedding dat pro velké jazykové modely
Show simple item record
dc.contributor.advisor |
Kováč, Jozef
|
|
dc.contributor.author |
Nehéz, Šimon
|
|
dc.date.accessioned |
2024-07-23T13:17:00Z |
|
dc.date.available |
2024-07-23T13:17:00Z |
|
dc.date.issued |
2023-11-05 |
|
dc.identifier |
Elektronický archiv Knihovny UTB |
|
dc.identifier.uri |
http://hdl.handle.net/10563/56654
|
|
dc.description.abstract |
Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát. |
|
dc.format |
73 s. (99 194 znaků) |
|
dc.language.iso |
sk |
|
dc.publisher |
Univerzita Tomáše Bati ve Zlíně |
|
dc.rights |
Bez omezení |
|
dc.subject |
embedding
|
cs |
dc.subject |
veľké jazykové modely
|
cs |
dc.subject |
súborové formáty
|
cs |
dc.subject |
sémantická podobnosť
|
cs |
dc.subject |
embedding
|
en |
dc.subject |
large language models
|
en |
dc.subject |
file formats
|
en |
dc.subject |
semantic similarity
|
en |
dc.title |
Embedding dat pro velké jazykové modely |
|
dc.title.alternative |
Embedding Data for Large Language Models |
|
dc.type |
bakalářská práce |
cs |
dc.contributor.referee |
Viktorin, Adam |
|
dc.date.accepted |
2024-06-03 |
|
dc.description.abstract-translated |
The bachelor thesis deals with the conversion of various file formats into vectors while evaluating the quality of these vectors. The theoretical part of the thesis describes multiple methods of converting text to vector representation, while the practical part includes the construction of a test dataset, the creation of a prototype web application for generating embeddings in Python and the evaluation of the experiment. The experiment showed minimal differences in the quality of embeddings between the file formats studied (maximum difference of 2.7 percent), with the CSV format being the most efficient in terms of time required to load the files. The TXT format achieved the lowest memory intensity while the HTML format was the slowest and most memory intensive. The work provides valuable insights into the performance of different file formats for data embedding |
|
dc.description.department |
Ústav informatiky a umělé inteligence |
|
dc.thesis.degree-discipline |
Softwarové inženýrství |
cs |
dc.thesis.degree-discipline |
Software Engineering |
en |
dc.thesis.degree-grantor |
Univerzita Tomáše Bati ve Zlíně. Fakulta aplikované informatiky |
cs |
dc.thesis.degree-grantor |
Tomas Bata University in Zlín. Faculty of Applied Informatics |
en |
dc.thesis.degree-name |
Bc. |
|
dc.thesis.degree-program |
Softwarové inženýrství |
cs |
dc.thesis.degree-program |
Software Engineering |
en |
dc.identifier.stag |
66827
|
|
dc.date.submitted |
2024-05-10 |
|
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account