作家の母国語を推測する

Franck Dernoncourt

2014-07-28 08:24:50 UTC

view on stackexchange narkive permalink

英語で書かれたテキストが与えられたときに（たとえば、通常の間違いやフレーズなどに基づいて）作家の母国語を推測しようとするライブラリまたはプログラムを探しています：理想的には、それは各言語の可能性を与えるでしょう（例：0.8スペイン語、0.3フランス語、0.2イタリア語など）。可能であれば、無料のオープンソースであり、Windows 7 SP1 x64UltimateまたはUbuntuで動作します。

それは、ソフトウェアというよりも、コンピューター言語の研究アイデアのように聞こえます。 1人あたり数千ページ、1言語あたり数百人など、十分なトレーニングテキストが利用できる場合は、統計的手法を使用できます。もちろん、これは**優れた**コンピューター言語研究のアイデアです。