Nerdblog.pl - Eksperyment programistyczno-lingwistyczny

Reklama na blogach - Blogvertising.pl

Eksperyment programistyczno-lingwistyczny

Dodano: 13.03.2009

Przez ostatnie trzy tygodnie zbierałem dwa razy dziennie wszystkie wpisy z Joggerowego RSSa i przepuszczałem je przez aspella w celu znalezienia błędów. Następnie zapisywałem wyniki do jednego pliku, który rósł i rósł i rósł. Celem eksperymentu było stworzenie słownika wyrażeń technicznych, które mógłbym ignorować oraz napisanie bota, który sprawdzałby wyrywkowo wpisy na głównej Joggera i zgłaszał błędy ortograficzne autorom.

Niestety, jak się szybko okazało Aspell jest dość głupim narzędziem i nie potrafi rozróżnić błędu od nieznanego mu słowa i nieznanego mu słowa od błędu. Ponadto nie da się pobierać informacji z dwóch słowników, więc wpisy po angielsku wrzucone na główną powodowały, że Aspell głupiał i oznaczał każde słowo jako błąd. Z tego powodu projekt zarzuciłem, wrzucając tylko na serwer listę słów, które zgromadziłem jako ciekawostkę. Zostały one posortowane alfabetycznie i wyciąłem z nich powtórzenia (brana była pod uwagę wielkość liter więc WebKit i Webkit to nie to samo). Może kiedyś komuś się przyda :)

2 komentarze

Reklamy: sklep komputerowy ,

Teoretycznie nadal da się wykorzystać to rozwiązanie sprawdzając błędny wyraz z podpowiedzią Aspella. Brak podpowiedzi – prawdopodobnie obcy wyraz, sprawdzić słownikiem angielskim + słownikiem technicznym, podpowiedź – sprawdzić odległość wyrazów za pomocą algorytmu Levenshteina (chociaż podejrzewam, że Aspell go używa) lub innego sprawdzającego ilość zmienionych liter i jeśli pasuje to powiadomić. Ale to może innym razem ;)

13.03.2009, 18:51

zuo FTW!

13.03.2009, 20:23

Ze względu na częsty trolling oraz osoby pokroju dzieci neostrady, komentowanie na blogu działa jedynie dla użytkowników serwisu blogowego Jogger.pl.

Jeśli chcesz przekazać mi swój komentarz, możesz zrobić to prywatnie poprzez sieć Jabber lub na maila. Przepraszam za utrudnienia.