Polski stemmer (Django/Python)

Zna ktoś jakiś system wyszukiwania opensource (np. xapian/sphinx), najlepiej z bindingami do Pythona?

Wziąłem na tapetę Xapian, niestety stemmera polskiego nie wdrożą, bo a) nie znają języka, b) nie znają licencji na stemmer ogólnodostępny w sieci.

Jak sobie radzicie z wyszukiwaniem polskich dokumentów?

  • Trochę stare i nie doszukałem się wsparcia dla Pythona, ale może warto przejrzeć: Lametyzator. Autor (współ)prowadzi też bloga Morfologik, gdzie można znaleźć linki do ciekawych narzędzi. Z Morfologika korzysta LanguageTool. Linki na stronie tego ostatniego prowadzą do GRAC, narzędzia gramatycznego napisanego w Pythonie. Znalazłem jeszcze Natural Language Toolkit - też w Pythonie.

    Może coś się przyda :)

    Jeszcze co do wyszukiwania: do Django jest bardzo przyjemny silnik zwany Haystack. Ma on wsparcie dla Xapiana, ale może korzystać np. z Whoosh, który jest napisany w czystym Pythonie.Trzecim silnikiem wyszukiwania, który może być użyty w Haystack jest Solr.

Zaloguj się, aby dodać swoją odpowiedź