質問:
作家の母国語を推測する
Franck Dernoncourt
2014-07-28 08:24:50 UTC
view on stackexchange narkive permalink

英語で書かれたテキストが与えられたときに(たとえば、通常の間違いやフレーズなどに基づいて)作家の母国語を推測しようとするライブラリまたはプログラムを探しています:理想的には、それは各言語の可能性を与えるでしょう(例:0.8スペイン語、0.3フランス語、0.2イタリア語など)。可能であれば、無料のオープンソースであり、Windows 7 SP1 x64UltimateまたはUbuntuで動作します。

それは、ソフトウェアというよりも、コンピューター言語の研究アイデアのように聞こえます。 1人あたり数千ページ、1言語あたり数百人など、十分なトレーニングテキストが利用できる場合は、統計的手法を使用できます。もちろん、これは**優れた**コンピューター言語研究のアイデアです。
1 回答:
zelandiya
2014-10-06 04:07:14 UTC
view on stackexchange narkive permalink

これは、プログラムではなく、オンラインクイズであると私が知っている最も近いものです。 http://www.gameswithwords.org/WhichEnglish/

ただし、ソフトウェアに関しては、作成者の母国語を知っているテキストでトレーニングされた、監視対象のテキスト分類ライブラリ(PythonのNLTK、JavaのMallet)を試すことをお勧めします。ストップワードを保持し、n-gramを機能として使用して、ネイティブスピーカーが英語で話す方法の特定の特性をキャプチャすることをお勧めします。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...