v2.5.3 — 인덱싱이 5.6배 빨라졌습니다. 원인을 찾았습니다.

2026-04-16·5분
요약: v2.5.3은 6,500개 파일 라이브러리 인덱싱 시간을 171분에서 30.8분으로 단축했습니다 (5.6배 향상). 원인은 45MB짜리 Excel 파일 하나가 2시간 이상을 소비하고 있었던 것. 10MB 크기 상한과 텍스트 전용 추출로 병목을 제거했습니다.

171분 → 30.8분. 5.6배 빨라짐. 같은 6,512개 파일.

v2.5.3의 헤드라인 숫자입니다. 하지만 이 숫자 뒤의 이야기가 숫자 자체보다 더 흥미롭습니다 — 수정 방법이 "전부 빠르게 만들기"가 아니라 "전부를 느리게 만들고 있던 한 가지를 찾기"였기 때문입니다.

진단: Excel 파일 하나가 인덱싱 시간의 85%를 차지

6,512개의 실제 업무 문서 — IPO 제출 서류, 계약서, 재무 보고서, 스프레드시트 — 로 실측 프로파일링을 했습니다. 기존 인덱싱 속도는 분당 37.9개, 전체 인덱싱에 거의 3시간이 걸렸습니다.

파일별 소요 시간을 분석하자 답은 바로 나왔습니다: Excel 파일(.xlsx)이 전체 인덱싱 시간의 85.7%를 소비하고 있었습니다. 45MB짜리 스프레드시트 하나가 혼자서 2시간 넘게 걸렸습니다. 그 파일 하나가 전체 라이브러리의 병목이었습니다.

원인은 파서가 거대한 스프레드시트의 모든 셀을 추출하려 했던 것 — 사람이 절대 검색하지 않을 기계 생성 데이터 덤프까지 포함해서. 수정은 정밀하게 했습니다:

결과: 같은 6,512개 파일 라이브러리가 171.6분이 아닌 30.8분에 인덱싱 완료.

검색 응답: 더 빠르고 일관되게

검색이 실제보다 느리게 느껴지게 만들던 문제들도 수정했습니다:

목표: P95 검색 응답 ≤ 150ms, 기존 336ms 베이스라인 대비.

검색 랭킹: 본문 내용이 파일명과 공정하게 경쟁

기존에는 파일명의 키워드 매칭 한 번이 문서 본문에 같은 키워드가 수십 번 나오는 것보다 5배 높게 점수를 받았습니다. report.docx라는 이름의 파일이 "report"라는 단어가 가득한 50페이지 문서보다 항상 위에 나왔다는 뜻입니다.

v2.5.3은 파일명 부스트를 5.0x에서 2.5x로 줄이고 폴더 경로 시그널을 높였습니다. 관련 폴더에 있는 문서가 더 자연스럽게 올라오고, 본문 내용이 결과 상단에 공정한 기회를 얻습니다.

파서 품질: 80개 실제 문서로 8개 포맷 검증

합성 테스트 파일이 아닌 실제 업무 문서 — IPO 제출 서류, 계약서, 재무 보고서 — 로 모든 지원 파서를 테스트했습니다. 종합 품질 점수: 5점 만점에 4.3점.

구체적 수정 사항:

내부 개선

v2.5.3 받기

localsynapse.com에서 다운로드하세요. 이전 버전에서 업그레이드하는 경우, 파서 및 속도 개선의 전체 효과를 얻으려면 재인덱싱을 권장합니다.

무료. 오픈 소스 (Apache 2.0). Windows와 macOS.


관련 포스트

LocalSynapse 무료 체험

파일 내용 검색, 100% 오프라인, 무료

홈으로 이동

관련 글