ホーム / 用語集 / チャンキング
What is チャンキング?
チャンキングは、長いドキュメントをLLMのコンテキストウィンドウに収まり、独立して検索可能な小さな塊に分割する処理です。osFoundryはノート、KB、アップロードされたファイルを作成時点で自動チャンキングします。
Detail
Nトークンごとに単純分割するチャンキングは文脈を失います。より良い戦略は意味的な境界を保つことです。段落、見出し、文の境界で分割し、必要に応じてチャンクを重ねたり、各チャンクに周辺コンテキスト(例: 親見出し)を付与したりします。
チャンクサイズはリトリーバル品質に影響します。小さなチャンクは精緻ですが文脈を失い、大きなチャンクは文脈は豊かでもリトリーバルの信号が弱くなります。一般的な範囲は200〜1000トークン、10〜20%のオーバーラップです。
How osFoundry approaches チャンキング
osFoundryのチャンキングパイプラインはドキュメント作成時に自動実行されます。戦略はチャンキングステーションで設定でき、意味的・構造的・固定サイズから選び、サイズとオーバーラップを調整できます。
Related terms
Related features