fil/docs/snippets/wasm/advanced/chunk_page_mapping.md at 2620d6b50d655aadbfda098fd570a34c8d7c5c09

hjess/fil

Fork 0

Files

Henrik Jess Nielsen b4c07d3693

Deploy fil (kreuzberg) / deploy (push) Successful in 49s

Details

Nomad changes

2026-06-01 23:40:55 +02:00

1.2 KiB

Raw Blame History

import init, { extractBytes } from "kreuzberg-wasm";

await init();

const config = {
  chunking: {
    maxChars: 1500,
    chunkOverlap: 300,
  },
  includeDocumentStructure: true,
};

const bytes = new Uint8Array(buffer);
const result = await extractBytes(bytes, "application/pdf", config);

// Map chunks back to pages for source attribution
const chunkPageMap = new Map<number, number[]>();

result.chunks?.forEach((chunk, chunkIndex) => {
  const firstPage = chunk.metadata?.firstPage;
  const lastPage = chunk.metadata?.lastPage;

  if (firstPage !== undefined && lastPage !== undefined) {
    for (let page = firstPage; page <= lastPage; page++) {
      if (!chunkPageMap.has(page)) {
        chunkPageMap.set(page, []);
      }
      chunkPageMap.get(page)!.push(chunkIndex);
    }
  }
});

// Use the mapping for source attribution
chunkPageMap.forEach((chunkIndices, pageNum) => {
  console.log(`Page ${pageNum}: Chunks ${chunkIndices.join(", ")}`);
  chunkIndices.forEach((idx) => {
    const chunk = result.chunks![idx];
    console.log(`  Content: "${chunk.content.substring(0, 60)}..."`);
  });
});

Snippet:syntax-only - Requires document structure parsing during extraction.

1.2 KiB Raw Blame History

1.2 KiB

Raw Blame History