質問:
イントラネットクローラーと検索エンジン
sorin
2014-02-12 01:50:15 UTC
view on stackexchange narkive permalink

イントラネットのウェブ検索エンジンを実装するための本当に無料の代替手段を探しています。

Google検索アプライアンス(GSA)がおそらく最高だと思いますが、それは非常に高価で、何百万ものページをクロールできるようにしたいと思っています。

SearchBloxを試しましたが、ドキュメントが不十分で直感に反していることに加えて、25.000ドキュメントの制限があります。これは、私がスケーリングしたいレベルと比較してほとんど何もありません。商用ライセンスへのアップグレードを検討したほうがよかったのかもしれませんが、経験上、料金はかかりません。

だから、今は他のアプローチを探しています

[Sphinx](http://en.wikipedia.org/wiki/Sphinx_(search_engine))を見たことがありますか?
特定の要件はありますか?良い質問と見なされるものについては、[このメタ](http://meta.softwarerecs.stackexchange.com/questions/336/what-is-required-for-a-question-to-contain-enough-information)を参照してください。
どのソースからクロールしますか? CMIS? WebDAV(ネットワーク共有ドライブ)?ローカルディスク?イントラネットのウェブサイト?
四 答え:
Angelo Fuchs
2014-02-12 02:15:26 UTC
view on stackexchange narkive permalink

Solrはこれを行うことができます。これを使用すると、クロールするデータソースを定義でき、データを解釈します。 Solrは無料でオープンソースです。

Solrは非常に高速な検索エンジン(Lucene)を備えており、大量のデータをインポートできます。 XML JSON HTML などの「フィールドのような」データ用に最適化されていますが、テキストを含むすべてのもの(Word、PDFなど)のコンバーターがあります。など)

インデックスを作成するイントラネットサイト(<100.000)がいくつか必要で、データベースにアクセスできる場合は、データインポートハンドラーを次のように設定する必要があります。

それ以外の場合は、データをサーバーに送信する独自​​のものをコーディングする必要があります。

これは開発ツールおよび not エンドユーザーのプログラム。いくつかのインターフェースを作成する必要があります。 (私の経験では、非常に簡単です)

さまざまなフィールド( meta title url 、 content language filetype ...)このフィールドを具体的に検索できます。検索を絞り込むことができます。ダウン。たとえば、イントラネット内のすべてのサイトに作成者がいて、そのフィールドにアクセスしてインデックスを作成できる場合、この作成者からのすべてのドキュメントを検索できますが、彼に関するすべてのドキュメントは無視してください。また、あいまい検索(「seach」で「search」を見つける)もサポートしています。

あるプロジェクト(および多くの場合、基盤となる検索エンジンLucene)でSolrを使用し、非常に感銘を受けました。 。データ処理エンジンの高い柔軟性は信じられないほどです。検索部分は非常に高速なので、いつかリストに追加して、その仕組みを理解できます:)

必要なのが検索クローラー&検索インターフェースだけである場合、Solrの構成オーバーヘッドは必要なものではない可能性があります。しかし、30.000.000のドキュメントを噛み砕くツールが必要な場合は、これが最適なツールです。私がそれを使用したプロジェクトでは(上記の量のドキュメントで)、Solrの検索時間よりもネットワークの待ち時間に問題がありました。インデックスを複製し、検索要求を他の要求に分散する負荷分散Solrインスタンスを使用できます。そしてそしてそして...このツールのさまざまな最適化の量は驚異的です。もちろん、これには、あまり直感的ではない可能性のある必要な構成が少し含まれています。

上記のように、 Solr Lucene のラッパーです。サイトの作成を行うための CMS がすでにあるので、利用できる Luceneプラグインがすでにある可能性があります。

Solr / Luceneの使用経験はありますか?気になりますか?
@Olliはい。答えを更新しました。念押し有難う :)
Nicolas Raoul
2014-02-12 15:31:59 UTC
view on stackexchange narkive permalink

Duckduckgoは、インターネットクローラーおよび検索エンジンです。

ソースコードは次のとおりです: https://github.com/duckduckgo

コンパイルして、イントラネットWebサイトのみをクロールするように構成し、イントラネット内のサーバーでホストすることができます。

とはいえ、Webインターフェイスのクロールはあまり効率的ではありません。コンテンツが実際に保存されている場所に戻ることができる場合は、(たとえばSolrを使用して)はるかに優れています。これにより、さまざまなアクセス権を持つユーザーにさまざまな結果を表示することもできます(たとえば、履歴書を検索できるのは人事担当者のみです)。

あなたはそれをやりました?使ったことがありますか?あなたの経験は何ですか?それについてもう少し教えていただけますか? (Duckduckgoでそれができるとは知らなかったので、とても興味があります)
独自のインスタンスをインストールする方法を簡単に説明する記事へのリンクがより役立ちます。そこには非常に多くのリポジトリがあるため、イントラネット検索エンジンとして評価を開始する場所を知ることは不可能です。
Nick Dickinson-Wilde
2014-02-12 04:02:16 UTC
view on stackexchange narkive permalink

Sphiderまたは(より良い) Sphider Plus

これまでのところ、どちらも素晴らしいと思います。 Sphider Plusが1000倍優れていることを除けば、ほとんど同じです。オリジナルを「ライト」バージョンと考えてください。これは本当にレックです。 Sphider plusの場合、これが主に説明する機能セットです。

  • PHP5または6が必要です。
  • データベース(MySQL-IIRCは他のいくつかのデータベースも使用できます) DBエンジン)

要件に一致する機能:

  • インデックスを作成するファイルの最大数はありません
  • HTMLにインデックスを付け、ビルドを通じてコンバーターでは、PDF、DOCX、XLSX、ODT、ODS、CSV、XLSファイルのインデックスを作成できます。
  • かなりリーズナブルな価格(25 EURO)
  • 強力な管理インターフェース
  • かなりの自動化(つまり、CRONによる自動インデックスの再作成など)
HTMLにインデックスを付けることはできますか?作戦は彼のイントラネットに索引を付ける何かを探しました。
ええ、それはそれが設計されているものです。私はそれを明確に述べていなかったようです。
申し訳ありませんが、最新のリリースは1年以上前であり、ウェブサイトは90年代に作成されたようです...
@sorin:私はウェブサイトが少し*醜い*であることに同意しなければなりません。しかし、今日Sphider Plusのリリースがありました-私が言ったように、それは私が主に話していたバージョン/フォークでした。
dgig
2016-06-15 02:08:07 UTC
view on stackexchange narkive permalink

利用可能なサイトもクロールする必要があるようですね。私が設定した無料のWebクローラーはHeritrixです。これはオープンソースであり、InternetArchiveの「WaybackMachine」が実行されるものです。

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

次に、検索の実際のインデックス作成を行うために、Solrのようなものと組み合わせる必要があると思います。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...