Embedding dat pro velké jazykové modely

Repozitář DSpace/Manakin

Jazyk: English čeština 

Embedding dat pro velké jazykové modely

Zobrazit celý záznam

Není dostupný náhled
Název: Embedding dat pro velké jazykové modely
Autor: Nehéz, Šimon
Vedoucí: Kováč, Jozef
Abstrakt: Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát.
URI: http://hdl.handle.net/10563/56654
Datum: 2023-11-05
Dostupnost: Bez omezení
Ústav: Ústav informatiky a umělé inteligence
Studijní obor: Softwarové inženýrství


Citace závěřečné práce

Soubory tohoto záznamu

Soubory Velikost Formát Zobrazit Popis
nehéz_2024_dp.pdf 2.625Mb PDF Zobrazit/otevřít None
nehéz_2024_op.pdf 149.8Kb PDF Zobrazit/otevřít None
nehéz_2024_vp.pdf 320.5Kb PDF Zobrazit/otevřít None

Tento záznam se objevuje v následujících kolekcích

Zobrazit celý záznam

Find fulltext

Prohledat DSpace


Procházet

Můj účet