Przez ostatnie trzy tygodnie zbierałem dwa razy dziennie wszystkie wpisy z Joggerowego RSSa i przepuszczałem je przez aspella w celu znalezienia błędów. Następnie zapisywałem wyniki do jednego pliku, który rósł i rósł i rósł. Celem eksperymentu było stworzenie słownika wyrażeń technicznych, które mógłbym ignorować oraz napisanie bota, który sprawdzałby wyrywkowo wpisy na głównej Joggera i zgłaszał błędy ortograficzne autorom.
Niestety, jak się szybko okazało Aspell jest dość głupim narzędziem i nie potrafi rozróżnić błędu od nieznanego mu słowa i nieznanego mu słowa od błędu. Ponadto nie da się pobierać informacji z dwóch słowników, więc wpisy po angielsku wrzucone na główną powodowały, że Aspell głupiał i oznaczał każde słowo jako błąd. Z tego powodu projekt zarzuciłem, wrzucając tylko na serwer listę słów, które zgromadziłem jako ciekawostkę. Zostały one posortowane alfabetycznie i wyciąłem z nich powtórzenia (brana była pod uwagę wielkość liter więc WebKit i Webkit to nie to samo). Może kiedyś komuś się przyda :)
Reklamy: sklep komputerowy ,
19-letni geek-webdesigner uczęszczający do ZSE w Bydgoszczy. więcej...
D4rky
Teoretycznie nadal da się wykorzystać to rozwiązanie sprawdzając błędny wyraz z podpowiedzią Aspella. Brak podpowiedzi – prawdopodobnie obcy wyraz, sprawdzić słownikiem angielskim + słownikiem technicznym, podpowiedź – sprawdzić odległość wyrazów za pomocą algorytmu Levenshteina (chociaż podejrzewam, że Aspell go używa) lub innego sprawdzającego ilość zmienionych liter i jeśli pasuje to powiadomić. Ale to może innym razem ;)