Embedding dat pro velké jazykové modely
Zobrazit celý záznam
Není dostupný náhled
Název:
|
Embedding dat pro velké jazykové modely |
Autor: |
Nehéz, Šimon
|
Vedoucí: |
Kováč, Jozef
|
Abstrakt:
|
Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát. |
URI:
|
http://hdl.handle.net/10563/56654
|
Datum:
|
2023-11-05 |
Dostupnost:
|
Bez omezení |
Ústav:
|
Ústav informatiky a umělé inteligence |
Studijní obor:
|
Softwarové inženýrství |
Citace závěřečné práce
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
Zobrazit celý záznam
Prohledat DSpace
Procházet
-
Vše v DSpace
-
Tato kolekce
Můj účet