Analysis of Chunking Strategies for LLM Applications and Proposal of a New Strategy

Repozitář DSpace/Manakin

Jazyk: English čeština 

Analysis of Chunking Strategies for LLM Applications and Proposal of a New Strategy

Zobrazit celý záznam

Není dostupný náhled
Název: Analysis of Chunking Strategies for LLM Applications and Proposal of a New Strategy
Autor: Tayo, Aderiye Oluwasijibomi
Vedoucí: Beltran Prieto, Luis Antonio
Abstrakt: This thesis explores the impact of different text chunking strategies on the performance of Large Language Models (LLMs) in applications such as retrieval-augmented generation (RAG) and semantic search. It presents a comparative evaluation of sentence-based, recursive, and semantic chunking methods, analyzing their effectiveness in preserving context and meaning. Building on these insights, the thesis introduces a novel hybrid approachMarkdown-Aware Semantic Chunking (MASC)which leverages document structure and semantic similarity to optimize chunk formation. Empirical results demonstrate that MASC outperforms traditional methods across key evaluation metrics, offering improved accuracy, relevance, and faithfulness in LLM-generated responses.
URI: http://hdl.handle.net/10563/57753
Datum: 2024-10-27
Dostupnost: Bez omezení
Ústav: Ústav informatiky a umělé inteligence
Studijní obor: Software Engineering


Citace závěřečné práce

Soubory tohoto záznamu

Soubory Velikost Formát Zobrazit

K tomuto záznamu nejsou připojeny žádné soubory.

Tento záznam se objevuje v následujících kolekcích

Zobrazit celý záznam

Find fulltext

Prohledat DSpace


Procházet

Můj účet