Analysis of Chunking Strategies for LLM Applications and Proposal of a New Strategy
Zobrazit celý záznam
Není dostupný náhled
|
Název:
|
Analysis of Chunking Strategies for LLM Applications and Proposal of a New Strategy |
| Autor: |
Tayo, Aderiye Oluwasijibomi
|
| Vedoucí: |
Beltran Prieto, Luis Antonio
|
|
Abstrakt:
|
This thesis explores the impact of different text chunking strategies on the performance of Large Language Models (LLMs) in applications such as retrieval-augmented generation (RAG) and semantic search. It presents a comparative evaluation of sentence-based, recursive, and semantic chunking methods, analyzing their effectiveness in preserving context and meaning. Building on these insights, the thesis introduces a novel hybrid approachMarkdown-Aware Semantic Chunking (MASC)which leverages document structure and semantic similarity to optimize chunk formation. Empirical results demonstrate that MASC outperforms traditional methods across key evaluation metrics, offering improved accuracy, relevance, and faithfulness in LLM-generated responses. |
|
URI:
|
http://hdl.handle.net/10563/57753
|
|
Datum:
|
2024-10-27 |
|
Dostupnost:
|
Bez omezení |
|
Ústav:
|
Ústav informatiky a umělé inteligence |
|
Studijní obor:
|
Software Engineering |
Citace závěřečné práce
Soubory tohoto záznamu
|
K tomuto záznamu nejsou připojeny žádné soubory.
|
Tento záznam se objevuje v následujících kolekcích
Zobrazit celý záznam
Prohledat DSpace
Procházet
-
Vše v DSpace
-
Tato kolekce
Můj účet