首页 / 术语表 / 分块
What is 分块(Chunking)?
分块将长文档切分为可舒适地放入 LLM 上下文窗口、且可独立检索的小片段。osFoundry 在笔记、知识库和上传文件创建时即自动进行分块。
Detail
简单的「每 N 个 token 切一刀」分块会丢失上下文。更好的策略会保留语义边界——按段落、标题或句子边界切分;可选地让分块互相重叠;可选地为每个分块附加周围上下文(例如父级标题)。
分块大小会影响检索质量。较小的分块更精确但丢失上下文;较大的分块上下文更多但检索信号更差。常见范围:200 至 1000 token,重叠 10% 至 20%。
How osFoundry approaches 分块(Chunking)
osFoundry 的分块流水线会在文档创建时自动运行。策略可在分块站中配置——可选语义、结构或固定大小;可调节大小和重叠。
Related terms
Related features