質問:
大量のファイル(電子書籍)をテキスト検索するソフトウェア
DVK
2014-03-09 08:19:10 UTC
view on stackexchange narkive permalink

次のことができるWindowsプログラム(「すべて」に類似)を探しています。

  • 数千のフォルダにある非常に大きな(2〜3 TB、10,000、さらには100,000のファイル)をスキャンします。 )ディレクトリを再帰的に
  • 「テキスト」ファイルごとに、その中のすべてのテキストに完全にインデックスを付けます
  • 特定の検索文字列が含まれているファイルを見つける機能を提供します。
  • 少なくとも「テキスト」ファイルには、.txt、.pdf、.epub、.mobiが含まれます。理想的には他の既知の電子書籍形式(.fb2、.doc、.docx)
  • 必要な高度な検索機能(検索用語のセットのすべて/いずれかを検索し、検索用語を無効にします。正規表現、理想的には。PCREは本当に理想的です。 。

オプションの必要な機能:

  • 他の形式でのインデックス作成と検索の両方で、英語以外のテキストをサポートします。具体的にはロシア語のテキスト(KOI-8、Windows-1251)
  • Unicodeのサポート(インデックス作成と検索)。
  • アーカイブ(少なくとも.zipと.rar)を調べることができます
  • 検索結果を表示するための優れたGUI(「すべて」アプリを考えてください)。高速フィルタリングされたグリッド、コピー場所、含まれているフォルダを開く、Windowsエクスプローラメニューのようにファイルをコピー/切り取るなど、見つかったすべてのファイルのアクションメニュー。
  • ファイルが追加/削除/変更されると、インデックスが自動的に更新されます。ファイルシステム、すべてが行う方法。
  • 理想的には、無料ですが、価格が妥当である限り必須ではありません。
  • WindowsXPが必要です。 Windows8の追加ボーナスポイント。
素敵なSFコレクション!
次回は、質問の特定のオペレーティングシステムにタグを付けてください。また、WindowsXPが必要であるとおっしゃいましたが、オプション機能に追加しました。どうか明らかにしてください。私はその点を見逃し、Windows 7(私が信じているWin8で動作する)の回答を書きましたが、それはまだ投稿します。
@Yos233-何もないよりも8つだけの優れたソフトウェアが欲しいです(必要に応じてコレクションをXPから8に移動できます)。しかし、現在はXPシステム上にあります。
**正規表現/ PCREはインデックス作成アプローチと互換性がないことに注意してください。**フルテキストインデックスは正規表現検索では利用できません。正規表現を提供するのに十分な情報がありません。正規表現ベースのアプローチの場合、従来の検索を実行する必要があります。
五 答え:
Yos233
2014-03-10 04:06:04 UTC
view on stackexchange narkive permalink

私が知る限り、Windows 7 Explorerには、必要なすべての基本機能と、いくつかのオプション機能があります。


Windowsでファイルディレクトリにインデックスを付けることができます(7 +)2つの方法で。ディレクトリに直接インデックスを付けるか、ライブラリにします。

直接インデックス:こちらをご覧ください: wikiHow:Windows7ファイルインデックスにフォルダを追加する方法

ライブラリの作成:エクスプローラーで[ライブラリ]に移動し、[新しいライブラリ]をクリックします。


Windowsの高度な検索はこれだけを探す必要がありましたが、ハウツーオタクには非常に有益な記事があります。 記事

また、ファイルコンテンツ検索が有効になっていることを確認してください: wikiHow:Windows7検索ファイルコンテンツを作成する方法


補遺:これを書いた後、OPがWindowsXPを要求していることに気づきました。一緒に来る他の誰かに受け入れられなくても、私はこれを維持しています(そして私は30分を無駄にしませんでした)。

それはどれくらいうまくスケーリングしますか?具体的には、インデックス作成と検索の両方でシステムを停止させることなく、質問に記載されているサイズを効果的に処理できますか?テキストPDFのコンテンツにインデックスを付けることはできますか? EPUB?
Explorerがシステムをダウンさせることはないと思います(検索が遅くなる可能性があります)。 PDFのインデックス作成は、Adobe IFilter .dll(http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025)から可能です。 EPUBに似たものが見つからなかったので、見つからない可能性があります。
システムをダウンさせませんか?数千のファイルが含まれているディレクトリを開く(検索を忘れる)のが失敗します!!!
あなたは質問をしました、そして私はあなたに私の最良の答えを与えました。私にとって、システムの停止とは、他のプロセス(つまり、CPUの占有)の速度を低下させることを意味します。はい、もちろん、何千ものファイルを検索するには時間がかかります。大規模なライブラリを非常に高速に検索できるプログラムは1つもないと思います。
私は索引付けについて言及していませんでした。結果の表示について言及していました。 *すべて*は何千もの結果をすばやく表示できます。 Windowsエクスプローラーがフリーズします
** N.B。**ウィンドウが時間の経過とともに遅くなる傾向がある理由の1つは、インデックス作成がデフォルトでオンになっていて、マシンの速度がますます遅くなることです。結果として、これはおそらく最も頻繁に切り替えられる*オフ*機能の1つです。
ソースをお願いします。検索を行ったところ、コンピューターの速度を低下させているインデックスに定量化可能なデータが見つかりませんでした。
Eduard Florinescu
2014-09-19 13:26:18 UTC
view on stackexchange narkive permalink

回復(デスクトップ検索)

Wikipediaでデスクトップ検索マネージャーのリストを見つけることができますが、私は見つけましたオープンソースプロジェクトを取り戻すは賢明な選択であり、無料(libreのように)であり、オープンソースであり、まだ開発中であるため、新しい機能が表示されます(全機能のリストはこちら a) >)。

簡単な説明

Regainは、JakartaLuceneをベースにしたJava検索エンジンです。さまざまな形式(HTML、XML、doc(x)、xls(x)、ppt(x)、oo、PDF、RTF、mp3、mp4、Java)のファイルのインデックス作成と検索を提供します。 TagLibraryを使用すると、検索結果をJSPベースのWebページに簡単に統合できます。

非常に便利な主な機能:

  • Webサーバー( LAN内のすべてのデバイスのLANでアクセス可能)
  • トレイアイコン(高速アクセス)
  • インデックス付きファイルのキャッシュバージョン(大きなPDFをロードしても料金がかからない場合があります)
  • 検索キーワード(強力なLucentキーワードセット)
  • 追加の形式をサポートできます(I-Filterをサポートします)
  • APIをサポートします

いくつかのスナップショット:

enter image description here

enter image description here

これを使いたいのですが、ドキュメントが不足しています...
miroxlav
2014-04-14 05:25:41 UTC
view on stackexchange narkive permalink

Copernic Desktop Search

フルテキストベースのアプローチの場合は、WindowsSearchまたは Copernic Desktop Search(フルバージョンで$ 50、無料バージョン( " Lite ")は、非営利目的で75,000ファイルに制限されています。

特に、Copernic DesktopSearchには必要なすべての機能があります。私はそれを4,000,000のドキュメントでテストしましたが、検索はまだ非常に高速でした。 AND、OR、NOT、NEARなどの演算子を認識して、検索をサポートします。

Zer0K
2014-09-21 15:37:20 UTC
view on stackexchange narkive permalink

たぶん DocFetcher が役立つかもしれません。

ホームページから:

アプリケーションはWindowsで実行され、 LinuxおよびMacOS Xであり、 Eclipseパブリックライセンスの下で利用可能になります。

注目すべき機能

  • ポータブルバージョン:Windows、Linux、Mac OS Xで動作するポータブルバージョンのDocFetcherがあります。これがどのように役立つかについては、このページの後半で詳しく説明します。
  • 64ビットのサポート:32ビットと64ビットの両方のオペレーティングシステムがサポートされています。
  • Linuxのサポート:DocFetcherには、MicrosoftOfficeを含むすべての主要なフォーマットに対する堅実なUnicodeサポートが付属しています。 OpenOffice.org、PDF、HTML、RTF、およびプレーンテキストファイル。唯一の例外はCHMであり、Unicodeはまだサポートされていません。
  • アーカイブのサポート:DocFetcherは、zip、7z、rar、およびtar全体のアーカイブ形式をサポートしています。 。* 家族。 zipアーカイブのファイル拡張子はカスタマイズできるため、必要に応じてzipベースのアーカイブ形式を追加できます。また、DocFetcherは無制限のアーカイブのネストを処理できます(たとえば、rarアーカイブを含む7zアーカイブを含むzipアーカイブなど)。
  • ソースコードファイルを検索: DocFetcherがプレーンテキストファイルを認識するファイル拡張子はカスタマイズできるため、DocFetcherを使用して、あらゆる種類のソースコードやその他のテキストベースのファイル形式を検索できます。 (これは、カスタマイズ可能なzip拡張子と組み合わせると非常にうまく機能します。たとえば、Jarファイル内のJavaソースコードを検索する場合などです。)
  • OutlookPSTファイル:DocFetcherを使用すると、Outlookの電子メールを検索できます。 Outlookは通常、PSTファイルに保存します。
  • HTMLペアの検出:デフォルトでは、DocFetcherはHTMLファイルのペア(「foo.html」という名前のファイルと「」という名前のフォルダーなど)を検出します。 foo_files ")、およびペアを単一のドキュメントとして扱います。この機能は最初はかなり役に立たないように見えるかもしれませんが、これが判明しました HTMLフォルダ内のすべての「乱雑さ」が結果から消えるため、HTMLファイルを再利用するときに、検索結果の品質が劇的に向上します。
  • インデックスからのファイルの正規表現ベースの除外:正規表現を使用して、特定のファイルをインデックスから除外できます。たとえば、Microsoft Excelファイルを除外するには、次のような正規表現を使用できます。。*。xls
  • MIMEタイプの検出:正規表現を使用して「mime-特定のファイルの「タイプ検出」。つまり、DocFetcherは、ファイル名を確認するだけでなく、ファイルの内容を確認することによって、実際のファイルタイプを検出しようとします。これは、ファイル拡張子が間違っているファイルに役立ちます。
  • 強力なクエリ構文:OR、AND、NOT DocFetcherなどの基本的な構成に加えて、ワイルドカードもサポートされています。 、フレーズ検索、ファジー検索(「...に類似する単語を見つける」)、近接検索(「これらの2つの単語は互いに最大10単語離れている必要があります」)、ブースト(「...を含むドキュメントのスコアを上げる」 ")

サポートされているドキュメント形式

  • Microsoft Office(doc、xls、ppt)
  • Microsoft Office 2007以降(docx、 xlsx、pptx、docm、xlsm、pptm)
  • Microsoft Outlook(pst)
  • OpenOffice.org(odt、ods、odg、odp、ott、ots、otg、otp)
  • ポータブルドキュメント形式(pdf)
  • EPUB(epub)
  • HTML(html、xhtml、...)
  • TXTおよびその他プレーンテキスト形式(カスタマイズ可能)
  • リッチテキスト形式(rtf)
  • AbiWord(abw、abw.gz、zabw)
  • Microsoftコンパイル済みHTMLヘルプ(chm)
  • MP3メタデータ(mp3)
  • FLACメタデータ(flac )
  • JPEG Exifメタデータ(jpg、jpeg)
  • Microsoft Visio(vsd)
  • スケーラブルベクターグラフィックス(svg)
Steve Barnes
2014-03-10 11:20:51 UTC
view on stackexchange narkive permalink

WinGrep

バイナリファイルでも、特定の単語をオンデマンドで検索できます(n.b.これは一部のPDF(スキャナーなど)ではうまく機能しません)。 wingrepを使用-無料で、.zipファイル内でも検索できます。私はPCの速度を常に遅くしたり、インデックスを作成しないために多くのディスクスペースを使用したりしませんが、その結果、それほど高速に実行されません。 Micro $ oftは無料なので、おそらくほとんどの種類のWindowsで動作します。

Calibre eBook Manager

ファイル内を検索しません AFAIK が、 eBook metadata を検索し、メタデータを編集できますが、 calibreには次の機能があります。

  • これは、特にeBookのライブラリを維持するためのものです。
  • フォーマット間で変換できます。
  • 多くのフォーマットのビューアが含まれます。
  • ほとんどのデバイスで電子書籍を管理できます。

無料でオープンソースであり、ほぼどこでも実行できます。

私は強くあなたが何をするにしてもそれを手に入れることをお勧めします。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...