Word document search engine

When you’re using a search engine to find the closest coffee shop, you’re probably not thinking about the technology behind it all. But later, you might wonder how did that search engine do that?

How did it sort through the entire internet so quickly and choose the result you saw on the page?

Each search engine uses its software program, but they all work similarly.

They all perform three basic tasks. First, they examine the content they learn about and have permission to see; that’s called crawling. Second, they categorize each piece of content; that’s called indexing. And, third, they decide which content is most useful to the searchers; that’s called ranking.

Document search engines are useful for a large volume of the dataset. Because it is hard to get any useful information from that volume of the dataset, it’s necessary to come up with a solution that can help the business needs in the short term as well as the long term.

The primary features for a document search engine

  1. Searching: Keyword-Based Search, Topic-Based Searching, Semantic Search

2. KeyPhrase Extraction.

3. Text Summarization.

4. Highlight the query result.

5. Document Categorization.

6. Feedback Learning / Query Re-ranking.

Top 10 open-source Document Search Engine

1. Ambar

Ambar

An open-source document search engine as well as a way to implement full-text document search into your workflow. Ambar comes with automated crawling, OCR, tagging, and instant full-text search. Based on open technology similar to JavaScript, Python, CSS.

This document search engine is compatible with all the common file types like ZIP archives, Mail archives (PST), MS Office documents (Word, Excel, PowerPoint, Visio, Publisher), OCR over images, email messages with attachments, Adobe PDF (with OCR), and several others. It is licensed under  MIT license.

Features:

  • Perform a Google-like search through your documents and images contents
  • Tag your documents to easily find what you need
  • Ambar supports all popular document formats
  • Ambar performs OCR on your images and PDFs
  • Easily deploy Ambar with a single docker-compose file
  • Use a simple REST API to integrate Ambar into your workflow

GitHub: https://github.com/RD17/ambar

2. Cider

The Cider document search engine is one of the valuable additions to our list.

The program is written in Java, this content integration framework can store parsed entities into Jena (http://jena.sourceforge.net/) RDF vocabularies and provides a knowledge-based enhanced semantic analysis of content. It is document extraction and retrieval. Moreover, it is released under the LGPL-3.0 license.

GitHub: https://github.com/yacy/cider

3. Open Semantic Search

Open Semantic Search

Another Dockerfile, JavaScript-based open-source document search engine; the Open Semantic Search supports different file formats, multiple data sources. The best thing about the open Semantic Search is that it is Free Software for your own Search Engine which is open-source enterprise-search and Open Standards for Linked Data, Semantic Web, and Linked Open Data integration.

Features:

  • Full text search
  • Thesaurus and Grammar (Semantic search)
  • Interactive filters(Faceted search)
  • Exploration, browsing, and preview(Exploratory search)
  • Collaborative annotation and tagging (Social search and collaborative filtering)
  • Data visualization
  • Monitoring: Alerts and Watchlists (Newsfeeds)
  • Automatic text recognition

GitHub: https://github.com/opensemanticsearch/open-semantic-search

4. IResearch search engine

IResearch

A performance document-oriented search engine library, IResearch is a cross-platform that is written entirely in C++. It is focused on the pluggability of different ranking/similarity models.

This software is provided under the Apache 2.0 Software license.

Features:

  • It has a  library that is meant to be treated as a standalone index
  • Indexed data is treated on a per-version/per-revision basis
  • It allows for trivial multi-threaded read/write operations on the index
  • A database record is represented as an abstraction called a document. A document is actually a collection of indexed/stored fields.

GitHub: https://github.com/iresearch-toolkit/iresearch

5. hOOt

hOOt

hOOt is a free and Smallest full-text search engine. This software built from scratch using inverted WAH bitmap Roaring bitmap index, highly compact storage, operating in database and document modes.

Features:

  • Blazing fast operating speed (see performance test section)
  • Incredibly small code size.
  • Uses WAH compressed BitArrays to store information.
  • Multi-threaded implementation, meaning you can query while indexing.
  • Highly optimized storage, typically ~60%  smaller than lucene.net (the more in the index the greater the difference).
  • Tiny size, only 38kb DLL (lucene.net is ~300kb).

GitHub: https://github.com/mgholam/hOOt

6. Perlin

Perlin is one of the free document search engines build on top of Perlin-core. This software is written on Rust. It is released under an MIT license.

GitHub: https://github.com/CurrySoftware/perlin

7. MetaFinder

MetaFinder

An open-source document search engine, MetaFinder can be easily downloaded for free use. Available on multiple platforms, you will not have to worry about the platform that you are using. The objective is to extract metadata.

MetaFinder is written with Python and licensed under the GPL-3.0 license.

GitHub: https://github.com/Josue87/MetaFinder

8. Search-engine

Search-engine is another highly innovative search engine for document searching that you can opt for.

Search-engine has written in Ruby, Python, JavaScript. it is used PostgreSQL, config.json.

GitHub: https://github.com/chihsuan/search-engine

9. Let’s CC

Let’s CC

Available in both professional and community editions, the  Let’s CC is another great free search engine service that you can use. The community edition is distributed under the CCL (Creative Commons License) and it is completely free to download. It is written in PHP.

GitHub: https://github.com/neomparam/letscc

10. Inteligent Document Finder

Document search engine tool that you can use. Programmed in Python, the software works on the Flask framework. It is licensed under  MIT license.

GitHub: https://github.com/Sarthakjain1206/Intelligent_Document_Finder

Conclusion

Such services don’t have to cost huge amounts of money since open-source solutions are available. We reviewed ten common open-source document search engines  which are all available for you to choose from.

If you have any additional software you would like to see in this list, then we would love to hear about them in the comments.

December 15, 2010


Blogging, File Sharing, web2.0

If you are looking for documents on the internet , you ‘d rather use specialized search engines which will bring you documents with indicated extensions such as word , pdf , ppt .Here is a compilation of the best document search engines I found online :
1- DocJax

docjax

2-Searchdocs
Use this search engine to find documents in the following ‘Documents Sharing Communities’

3-Find a PDF
Search PDF Files Easily and Quickly

4 – PDFfind
Search only PDF files online

5 – Brupt
Document Search Engine based on Google Customized Search.

6- 09h15
Search engine in various languages for documents , pdf , presentations and spreadsheets.

7- TypePDF
Searches through “1045691” of PDF documents and ebooks found in the world wide web.

8 –FreeBookSearch
This search will find documents on school, college and university websites .

9 – Osun
Searches for doc , pdf and ppt

10 – PDF Search Engine
Searches for documents with the following extensions : doc , pdf , chm , rft , txt

Please feel free to suggest more links to document search engines .

Существующий функционал текстового редактора Word можно расширить за счёт установки надстроек из магазина Microsoft Office. Надстройки внедряются в приложения офисного пакета 2013 и 2016 года, а также в веб-приложения Microsoft Office Online. Внедряясь в офисные приложения по типу расширений браузера, эти надстройки предлагают те или иные дополнительные возможности. Например, в Microsoft Word можно внедрить мини-поисковик Google.

Бесплатная надстройка — Search The Web – это поле поисковика Google, которое отдельной панелью справа встраивается в окно текстового редактора Microsoft Word. В этой же панели отображаются и результаты поиска Google.

Microsoft Word, в принципе, предусматривает возможность поиска информации в Интернете по выделенным в документе словам прямо из контекстного меню. Вот только эта возможность ограничена поиском исключительно в системе Bing, ведь этот поисковик также, как и Word, является детищем Microsoft. Bing, возможно, и неплохой поисковик для англоязычного контента, но вот с информацией на русском языке гораздо лучше работают Яндекс и Google. Поисковая база последнего будет доступна в окне Microsoft Word после внедрения надстройки Search The Web.

Как установить надстройку и работать с поисковиком Google внутри Microsoft Word?

  1. Установка надстройки Search The Web

Для добавления надстройки Search The Web необходимо перейти на вкладку инструментов Microsoft Word «Вставка». Кнопка установки надстроек из магазина Microsoft Office в текстовом редакторе Word 2016 и его веб-версии Word Online называется «Надстройки». После её нажатия увидим кнопку «Магазин». Жмём её.

Магазин

Версия Microsoft Word 2013 содержит кнопку установки надстроек также во вкладке инструментов «Вставка», но называется она «Приложения». После её нажатия станет доступна кнопка «Магазин».

Приложения

Магазин Microsoft Office откроется в небольшом окошке поверх окна текстового редактора. Среди имеющегося контента надстройку Search The Web проще всего отыскать, воспользовавшись поиском по магазину. Найдя Search The Web, кликаем надстройку.

Search The Web

В следующем окошке жмём «Доверять». Это своеобразная форма установки надстроек из магазина Microsoft Office.

Доверять

Поле этого в правой части окна Word увидим панель с поисковым полем для ввода ключевых слов.

Поле для ввода ключевых слов

Ярлык запуска Search The Web для удобства лучше добавить на панель быстрого доступа Microsoft Word. До этого ярлык можно отыскать при нажатии сначала кнопки «Надстройки» («Приложения» для Microsoft Word 2013), затем – кнопки «Мои надстройки». Вызвав на ярлыке Search The Web контекстное меню, получим доступ к опции добавления надстройки на панель быстрого доступа Microsoft Word.

Надстройки на панель

Ярлык Search The Web будет виднеться в числе прочих установленных приложений в общем списке.

  1. Как работает Google внутри Microsoft Word

Search The Web – надстройка Google — работает с выделенными в документе словами. Если панель надстройки активна, выделенные в документе слова автоматически появляются в поисковом поле. Что и остаётся сделать вручную, так это нажать кнопку поиска Search.

Search

В результатах выдач на панели справа, как и поисковых системах в окне браузера, увидим превью найденных по ключевому запросу материалов.

Превью найденных

Если данных превью недостаточно, можно открыть веб-страницу статьи. Двойной клик по ссылке автоматически откроет статью в окне штатного браузера Windows Internet Explorer.

Windows Internet Explorer

А в любом другом браузере или приложении ссылку можно открыть, скопировав её с помощью опции контекстного меню «Копировать ярлык».

Копировать ярлык

Загрузка…

Поиск Word — это поиск всех вхождений определенного слова или фразы в Word документе. Вы можете искать конкретный текст по полному совпадению или совпадению регулярного выражения.
Приложение «Поиск» позволяет искать и анализировать текст Word документа. Полученный файл содержит список всех случаев использования текста в Word. Используйте его для анализа содержимого Word документа, для изучения статистики текста в Word документе, для расчета всех определенных словарных входов в тексте. Приложение для поиск хорошо работает с большими файлами, вам не нужно устанавливать дополнительное программное обеспечение, которое может не дать вам исчерпывающего представления об использовании искомого слова в документе.
Для поиска с использованием регулярных выражений воспользуйтесь стандартом для регулярных выражений. Стандарт для регулярных выражений вы можете найти в интернете например на сайте wikipedia.org.
Приложение для поиска текста в Word документе работает онлайн через любой популярный браузер, на любой платформе Windows, MacOs, Linux или Android. Ваши документы хранятся у нас в надежном хранилище на протяжении 24 часов, а потом автоматически удаляются. Для немедленного удаления ваших документов просто нажмите кнопку удалить в окне скачивания результата.

Быстрый и легкий поиск

Быстрый и легкий поиск

Загрузите свой документ и нажмите кнопку «ПОИСК». Вы получите файл с результатами поиска сразу после выполнения операции.

Поиск с любого места

Поиск с любого места

Работает со всех платформ, включая Windows, Mac, Android и iOS. Все файлы обрабатываются на наших серверах. Вам не требуется установка плагинов или программного обеспечения.

Качественный поиск

Качественный поиск

. Все файлы обрабатываются с использованием Aspose APIs, которое используются многими компаниями из списка Fortune 100 в 114 странах мира.

Download PC Repair Tool to quickly find & fix Windows errors automatically

By default, Microsoft Word uses Bing as the default search engine to search for a word in Word documents. But if you wish, you can configure or change the default search engine in Microsoft Office from Bing to any other, like say, Google. Word includes a feature that lets you use another search engine and change it to your personal favorite. Here are the steps to configure the default search engine in Microsoft Office apps like Word.

Bing option

Press Windows Key + R to open the Run dialog box and type: regedit and hit OK. Next, navigate to the following key:

HKEY_CURRENT_USERSoftwareMicrosoftOffice15.0CommonGeneral

default search engine in Microsoft Office Word 2013

Now, in the right pane, create a new String Value and name it SearchProviderName.

Then right-click on it and select Modify. Mention the name of the search provider.

Search Modify

Create another new String Value and name it SearchProviderURI right-click it, and make the Value Data the path to the provider you want to use.

  • For Google: http://www.google.com/search?q=.
  • To set it as Yahoo use: http://search.yahoo.com/search?p=.

To configure Office.com as the default search engine, use http://office.microsoft.com/en-us/results.aspx?&ex=2&qu= in the Value Data box.

See the screenshot below to check you are on the right track, changing it to Google.

Values

Click OK and close out of Registry Editor. Now, open a Microsoft Office application such as Word, select a word or phrase, right-click it and check if you get “Search with Google” instead of Bing.

Trust this works for you!

Ezoic

Anand Khanse is the Admin of TheWindowsClub.com, a 10-year Microsoft MVP (2006-16) & a Windows Insider MVP (2016-2022). Please read the entire post & the comments first, create a System Restore Point before making any changes to your system & be careful about any 3rd-party offers while installing freeware.

The following is a list of document search engines that you can add to Google Scholar and Google Books and that have allowed me to discover interesting documentation.

  1. Academic Index

UPDATE: No longer available. — Its creator, Dr. Michael Bell, explains “As a meta-search engine, the Academic Index integrates into its search results only the first 1-2 pages returned from each site it searches. Because most sites rank search results as to relevance, this ensures that only the best (most relevant) information is returned to users.” [2]

  1. Base

The Bielefeld Academic Search Engine searches for academic web resources: journals, institutional repositories, digital collections etc.

  1. Directory of open-access journals (DOAJ)

The Directory of open-access journals gathers documentation on science, technology, medicine, social science and humanities (approximately 10.000 journals). The aim of the DOAJ is to increase the visibility and ease of use of the journals to promote their use and impact.

  1. DocHound

DocHound is the EU Interinstitutional Document Search tool by the Terminology Coordination Unit (TermCoord) of the European Parliament and it updates its content regularly, so you are sure to get up-to-date documentation. You will find basic documents, legislative drafting, procedures, documents from the EP and other institutions and bodies.

  1. CORE (COnnecting REpositoires)

CORE gathers content from repositories and journals around the world. CORE harvests all metadata records in a repository. For now, they only offer PDF files but hope to expand the service to include HTML, webpages, etc.

  1. RefSeek

This great site is like the Google for academics, science, and research. It strips results to show pages such as .edu or .org and includes more than 1 billion publications, such as web pages, books, encyclopedias, journals, and newspapers. In a test done by IT journalist, Stan Schroeder, when he searched for “flower”, RefSeek showed him documents from botany (as compared to Google that returned a list of florists!) [1]

For a comprehensive list and by topic, I recommend checking these pages.

  1. Top 11 Trusted (And Free) Search Engines for Scientific and Academic Research
  2. 100 Time-Saving Search Engines for Serious Scholars (Revised)

Share your favorite engine in the comments or send me a note to add it here.

References:

[1]          Schroeder, Stan. RefSeek is Google for Students and Scientists. 2008 [consulted on 2/1/2018].

[2]          Bell, Michael. Academic Index. 2003 [consulted on 2/1/2018].

 Posted February 4, 2018 by

Понравилась статья? Поделить с друзьями:
  • Word document scanner software
  • Word document to website
  • Word document saved but can find
  • Word document to web page
  • Word document read only