빠르고 정확한 Text 검색은 dtSearch 입니다.
Terabytes를 순식간에 검색합니다

 



문서 필터와 데이터 지원
(Document Filters and Supported Data)

PDF 기사 : 문서 필터, 검색 엔진 & Binary 형식의 해부

문서 필터 개요 : dtSearch 제품은 광범위한 데이터 유형을 지원하기 위해 dtSearch의 자체 문서 필터가 제품에 내장되어 있습니다(상기 PDF 백서를 참조하십시오)

  • 지원되는 모든 데이터 유형에 대하여 검색된 전체 텍스트와 메타 데이터의 구문 분석, 인덱싱, 검색을 합니다.

  • 지원되는 모든 데이터 유형에 대하여 메타 데이터와 텍스트 데이터 전체를 Highlighted Hit로 표시할 수 있습니다(dtSearch는dtSearch에 자체 내장된 데이터를 HTML로 자동 변환한 다음에 수행합니다)

  • 지원되는 많은 데이터 유형의 경우, Highlighted Hit와 함께 통합 이미지도 표시됩니다.

지원되는 데이터 유형 : dtSearch의 자체 문서 필터는 광범위한 데이터 유형에 대해 Highlighted Hit 텍스트와 메타 데이터를 강조 표시하고 구문 분석, 인덱싱, 검사를 할 수 있습니다.  

  • 웹 콘텐츠 : HTML, XML/XSL, PDF, ASP.NET, CMS, PHP, WordPress, SharePoint 등의 통합 이미지와 텍스트를 지원합니다.

  • 기타 데이터베이스와 데이터 소스 : XML, Access, XBASE, CSV 지원 ; dtSearch Engine API는 BLOB 데이터의 전체 텍스트와 함께 NoSQL 및 SQL 유형의 데이터베이스 지원 ; dtSearch Engine API는 디스크 이미지, 네트워크 데이터 스트림과 기타 비 파일형 데이터도 지원합니다.

  • MS Office 형식 : Word(RTF/DOC/DOCX), PowerPoint(PPT/PPTX), Excel(XLS/XLSX), Access(MDB/ACCDB)와 OneNote(ONE)의 통합 브라우저 이미지와 텍스트를 지원하며 Office365에서 저장된 문서도 지원합니다.

  • 기타 “Office” 형식, PDF, 프린터 및 압축 형식 : 기타 “Office” 제품군 형식을 지원합니다. EMF 스풀(SPL) 파일, RAR, ZIP, GZIP, TAR 같은 압축 형식, PDF, PDF Portfolio와 수 많은 암호 PDF, New PDF 2.0을 지원합니다.

  • 이메일과 첨부 파일 : Outlook/Exchage(PST/OST/MSG)와 Thunderbird(MBOX/EML)의 통합 브라우저 이미지와 텍스트를 지원하며 Office365에서 저장된 이메일도 지원합니다.

  • 반복적으로 내장된 객체 : 지원되는 문서 양식 리스트 지원되는 이메일 유형과 MS Office 형식에서 반복적으로 내장된 객체를 지원합니다. 예를 들어, dtSearch 문서 필터는 PDF와 Access 데이터베이스를 모두 포함하여 ZIP 컨테이너로 구성된 이메일 첨부 파일을 지원하며 Access 데이터베이스의 경우에는 이미지가 내장된 PowerPoint도 포함합니다.

  • 클라우드 스토리지와 함께 dtSearch 사용(OneDrive, Amazon S3 등)

  • 지원되는 문서양식 리스트

Faceted 검색과 dtSearch Spider : dtSearch 제품은 디렉토리, 이메일(중첩 첨부 파일 포함)과 데이터베이스의 수와 관계없이 통합 검색을 합니다.

dtSearch Spider는 로컬/원격 온라인 콘텐츠를 검색에 추가하며, 로그인 양식 기반의 인증을 포함하여 공개 및 보안 온라인 콘텐츠를 지원하여 사이트 수준에 맞는 인덱싱을 할 수 있습니다. dtSearch 제품은 온라인과 오프라인 데이터 모두 Highlighted Hit와  통합 연관성 순위를 제공합니다. 개발자의 경우에는 Spider가 .NET API로 제공됩니다.

문서 필터 API : 모든 개발자 API(C++, Java, .NET의 현재 버전 포함)를 사용하여 개발자가 dtSearch의 텍스트 구문 분석, 추출, 변환 및 Hit-Highlighting 할 수 있습니다.  

  • “객체 추출” API를 사용하면 개발자가 내장된 개별 객체의 구조를 계층 구조로 탐색하여 압축되어 이메일에 첨부된 MS Access 데이터베이스의 MS Word에 있는 이미지와 같은 개별 객체를 선택하여 추출할 수 있습니다.  

  • 일반 dtSearch Engine 라이센스에는 dtSearch 인덱싱 검색 기능과 함께 문서 필터가 포함됩니다.

  • 문서 필터는 검색 없이 텍스트 구문 분석, 추출 및 변환만 필요한 개발자를 위한 별도의 라이센스로도 제공됩니다.



dtSearch 인덱싱/검색 개요
(Indexing and Searching Overview)

dtSearch 제품은 온라인과 오프라인의 광범위한 데이터 유형에서 테라바이트 단위의 텍스트를 즉시 검색합니다. 동시 검색 시간을 포함해서 1초도 안되어 검색을 합니다.

  • dtSearch Desktop with Spider와 dtSearch Network with Spider는 개별 또는 공유 네트워크 기반 검색을 Windows 환경에서 수행합니다.

  • dtSearch Web with Spider는 동시 검색 수에 관계 없이 인터넷과 인트라넷 환경에서 실행됩니다.

  • dtSearch Engine 개발자 SDK는 플랫폼에 따라 다양한 버전으로 제공됩니다. 인터넷이나 인트라넷 서버 환경에서 실행되는 dtSearch 엔진은 동시 검색 스레드 수에 관계 없이 효율적인 다중 스레드 검색을 지원합니다.

dtSearch 제품은 고객이 dtSearch를 어떻게 사용하는지, 고객의 문서 종류, 검색 작업 등 어떤 정보도 dtSearch로 보내지 않습니다 : 개인정보 보호규정

Price of Business - dtSearch - 기업의 데이터 액세스 고려사항

USA Daily Chronicles의 Segment Overview : 검색 엔진은 데이터를 검색 엔진 회사보내지 않는다.

   

인덱스 구축(Building an Index) : dtSearch는 데이터에 있는 개개의 고유 단어와 해당 위치를 저장하는 검색 인덱스를 구축하기 때문에 테라바이트의 텍스트도 즉시 검색할 수 있습니다.

  • 하나의 인덱스가 데이터, 연속된 복수의 디렉토리, 이메일/첨부 파일, 온라인 데이터와 기타 데이터베이스를 포함하여 테라바이트 까지 보유할 수 있습니다(지원 데이터 유형을 참고 하십시오)

  • dtSearch는 테라바이트 인덱스의 수에 관계없이 구축과 동시에 검색합니다.

  • 인덱싱은 간단합니다. 인덱싱할 폴더나 온라인 데이터를 가리키기만 하면 됩니다.

  • 가지고 있는 파일, 이메일이나 기타 콘텐츠를 dtSearch에 알릴 필요가 없습니다. dtSearch가 알아서 수행합니다.

  • 문서의 인덱싱, 검색과 표시로 인해 원본 파일이나 해시 값을 포함하여 다른 데이터가 변경되지 않습니다.

  • dtSearch는 Windows Task Scheduler를 통해 자동 인덱싱도 제공합니다.

  • 인덱싱 구축에 대한 중요한 팁은 대규모 데이터 컬렉션의 인덱싱 최적화를 참조 하십시오.

  • dtSearch 제품에는 웹 기반이나 원격 데이터와 함께 사용하는 캐싱 옵션도 포함되어 있습니다.

  • 인덱싱 안된 검색, 포렌식 팁 등에 대한 정보는 인덱싱 팁을 참고 하십시오.


인덱스 업데이트
(Updating an Index) : dtSearch는 검색에 영향을 주지 않고 새 항목이나 업데이트된 항목만 추가하고, 삭제된 항목을 제거하며, 인덱스를 압축하여 인덱스를 업데이트 할 수 있습니다.

  • 초기 인덱스 작성과 마찬가지로 인덱스 업데이트도 Windows Task Scheduler로 자동화 할 수 있습니다.

  • Windows Task Scheduler로 하는 것을 포함하여 인덱스 업데이트를 하여도 개별 또는 동시 검색이 잠기지 않습니다.

  • 인덱스 업데이트에 대한 도움말은 대규모 데이터 컬렉션의 인덱싱 최적화를 참조 하십시오.


인덱싱 Tip #1
: 인덱스를 작성하십시오. 인덱싱되지 않은 검색은 결코 효율적이지 않습니다. 인덱싱은 검색보다 훨씬 느리지만 인덱스를 구축한 다음 검색어를 검색하는데 걸리는 시간(포렌식과 e-discovery에서 전형적으로 보는 것처럼)은 인덱싱되지 않은 검색어를 실행하는데 걸리는 시간보다 훨씬 적습니다. 일단 인덱스가 구축되면, 더 많은 검색 단어와 조건을 고려할지라도 추가 검색 정말 순식간에 이루어집니다.  

인덱싱 Tip #2 : 암호화된 파일을 주의 하십시오. 인덱스를 작성한 후 dtSearch 제품은 읽을 수 없는 암호화된 파일의 로그를 생성합니다. 이 로그를 살펴보면 별도로 해독하고 dtSearch를 통해 다시 실행해야 되는 사항을 알 수 있습니다(포렌식 페이지에서 자세히 알아 볼 수 있습니다)

인덱싱 Tip #3 : Outlook/MAPI를 거치지 않고 이메일을 PST, OST, MSG 등의 파일로 직접 액세스 합니다. 자신의 개인 이메일 컬렉션을 검색하지 않는 경우(때로는 자신의 이메일을 검색하고 대규모 컬렉션이 있는 경우 조차도), Outlook/MAPI “Middleman”을 우회해서 데이터에 직접 액세스하는 것이 훨씬 더 효율적 입니다. (포렌식 페이지에서 자세히 알아 보기) 퍼지 검색을 잊지 마십시오. 이메일과 첨부 파일의 오타 가능성을 가려낼 수 있습니다.  

인덱싱 Tip #4 : 새 문서나 변경된 문서를 추가하고, 삭제된 문서를 제거하고, 업데이트된 인덱스를 압축하도록 dtSearch에 지시하여 인덱스를 업데이트 하십시오. 이러한 유형의 업데이트는 완전히 다시 인덱싱하는 것보다 훨씬 적은 시간이 소요됩니다. 더 좋은 점은 dtSearch가 수행 중인 동시 검색에 영향을 주지 않고 인덱스를 자동으로 업데이트 할 수 있다는 것 입니다.  

인덱싱 Tip #5 : 대규모 인덱스 작업을 하기 전에 인덱싱 최적화에 대한 일반적인 팁을 확인하십시오. 다음은 알아야 할 유형의 한가지 예 입니다 : 퍼지 검색과 같은 검색 옵션은 검색 시 조정 가능하지만, 대/소문자와 액센트 구분 인덱스를 작성하는 경우에 해당 설정을 변경하는 유일한 방법은 인덱스 전체를 다시 작성하는 것입니다. 대/소 문자와 액센트 구분 인덱싱을 사용하면 Frank, frank 와 FRANK를 동일한 단어가 아닌 다른 단어로 저장하게 되어 인덱스가 훨씬 커집니다. 더 나쁜 것은 대/소문자와 액센트 구분 인덱싱을 사용하는 경우에, Frank Harvey를 검색하면 frank harvey와 FRANK HARVEY를 모두 놓칠 수 있다는 것 입니다.(대용량 문서 컬렉션의 인덱싱 최적화에 대해 자세히 알아보기)

검색 Tip

 
 
평가판 Download



Copyright © 2020 by Hyubwoo. Info. Tech. Co., Ltd. All rights reserved.