Dear friends,
I am testing www.gadone.com which is a basic search engine for the Myanmar Language. It has just crawled my.wikipedia.org for testing and evaluation. Of course, MITP will soon be crawled too. :) You may kindly advise which additional sites to be added for further evaluation.
Example Queries:
http://www.gadone.com/search?q=%E1%80%9B%E1%80%94%E1%80%BA%E1%80%80...
http://www.gadone.com/search?q=%E1%80%80%E1%80%AD%E1%80%AF%E1%80%9C...
Your suggestions and feedbacks will be well appreciated.
Nice day.
Warmest Regards,
Tun

PS/
Gadone beta is currently running on a single instance on a cloud and the users may experience slowness or even downtime during crawling, indexing and patching. 
Screenshots:

Views: 790

Reply to This

Replies to This Discussion

မော ဆိုတဲ့စာလုံးကို ရှာတဲ့အခါ မော်မောင်မောင့်မောင်း စတဲ့စကားလုံးများ ပါ Highlight လုပ် ထွက်လာပါတယ်။ မော နှင့် မောင်း ဟာ အဓိပ္ပါယ်အရသော်လည်းကောင်း၊ အသံအရသော်လည်းကောင်း၊ စကားစုအရသော်လည်းကောင်း ကွဲပြားခြားနားတဲ့အတွက် ရလဒ်မှာ မထည့်သွင်းသင့်လို့ ထင်ပါတယ် (Suggestion အနေနှင့် ထည့်သွင်းရင်တော့ သင့်တော်ပါတယ်)။

 

 

 

thanks bro.

if it searches for မော , then မော် ၊ မောင် ၊ မောင့် ၊ မောင်း  should not be matched. 

It could be a bug or simply because these documents also have the word 'မော' . the highlighting will still be an issue since we just do simple text matching.

http://www.gadone.com/search?q=မောင်

returns 1231

http://www.gadone.com/search?q=ေမာ

returns 448

ှso, apparently it knows they are different. I notice a few results were wrongly returned but still could not figure out why. could be typos on the page which mislead the word segmentation algorithm. will post here when the issue is resolved 

rgds

great job!

btw, nice domain name :)

thanks. :)
btw, can i reach you when i need help with redhat ? still struggling with CLIs :(

oops!

i'm just a user. and more on ubuntu distro GUI except LAMP testing. :)

i think u asked the wrong person. may be cuz of my avatar u confused with someone :D
there are many linux geeks in MITP.
for me, i can't even use vi in CLI properly yet.

i can be the Gadone user. :)

 

I think prioritizing is still needed to be improved. For example, the search "အိမ်သာ" or "မစင်" should have more weights and the articles with those titles should be first results since they are article titles. (Don't get the wrong idea on words. I wrote those two articles several months ago.)

It is not bcoz of prioritizing. Just that they are not crawled. The problem can be solved if dump xml data is used directly. but, it is a cheat. I would do that only as a last resort. :)

Web search engine crawls a site from the main page, by following all the hyper links hierarchically. Because of server resources limitation and time, the "depth" of crawling is fixed. As a result, some pages are not reached if they are so deep inside. Obviously, unlike gadone with a single instance, google does not have any limitations with their resources. i wonder how many thousands of instances they use to crawl the sites. 

Excuse me, i need to go to loo.

cheers

Aww I see. If that the case, plz use http://my.wikipedia.org/wiki/Special:AllPages . You will only need to go 2 levels of depth.
Thanks. Will try it out.

http://my.wikipedia.org/w/index.php?title=Special:AllPages&from=အသောကမင်း&to=ဦးပြုံးချို

is "အိမ်သာ" missing on the page ?

 

.Net Framework မှ OSI မော်ဒယ်လ် အထိ
Oceania မှ ကရင်နီအမျိုးသားတိုးတက်ရ... အထိ
ကရင်ပြည်နယ် မှ ကျဉ်စိုး အထိ
ကျည်းကန်ရှင်ကြီး မှ ကွမ်းရွက်ပင် အထိ
ကွမ်းလုံကူးတို့ဆိပ် မှ ခြေနီငှက် အထိ
ခြေမြန်တပ်ရင်းအမှတ် (၁၀၁) မှ ဂျွန်ပေါလ်စန် အထိ
ဂျွန်အဒမ် မှ စူပါ ကွန်ပျူတာ အထိ
စူပါနိုဗာ မှ တက်ကြွထက်သန်သူများ အထိ
တက်တိုး မှ တော်တီဆွေ၊ ကာတွန်း အထိ
တော်ပီဒိုနှင့် ‌ရေမြှုပ်... မှ  အထိ
နက္ခတ္တဗေဒ မှ ပန်ဒါဝက်ဝံကြီး အထိ
ပန်းကန်စက်ဦးသော် မှ ဖော်ပြစာရင်းအင်းပညာ အထိ
ဖော်မြူလာ ဝမ်း မှ ဘူမိ ဗေဒ အထိ
ဘူမိဗေဒ မှ မီချီဂန်ပြည်နယ် အထိ
မီတာ မှ မြန်မာ့အမျိုးသားခေါင်းဆ... အထိ
မြန်မာ့အလင်း မှ ရောဘတ် ကွက် အထိ
ရောဘတ် ဗေဒင်-ပိုရယ် မှ လူအိုရုံ အထိ
လူဦးရေ ထိမ်းချုပ်ရေး မှ သဘာဝဘေးအန္တရာယ် ကာကွယ်ရေ... အထိ
သဘောတူစာချုပ် မှ အင်ဒရူး ဂျက်ဆန် အထိ
အင်ဒရူး ဂျွန်ဆင် မှ အသောက အထိ
အသောကမင်း မှ ဦးပြုံးချို အထိ
ဦးပွား မှ ‌မြောက်အမေရိက အထိ

 

See below အိန္ဒြာကျော်ဇင် and အိမ်ဖြူတော်.

but the page http://my.wikipedia.org/wiki/Special:AllPages does not have link for အိန္ဒြာကျော်ဇင် and အိမ်ဖြူတော်.

လူဦးရေ ထိမ်းချုပ်ရေး မှ သဘာဝဘေးအန္တရာယ် ကာကွယ်ရေ... အထိ
သဘောတူစာချုပ် မှ အင်ဒရူး ဂျက်ဆန် အထိ
အင်ဒရူး ဂျွန်ဆင် မှ အသောက အထိ
အသောကမင်း မှ ဦးပြုံးချို အထိ
ဦးပွား မှ ‌မြောက်အမေရိက အထိ


thats why they are not reachable.
i know you can search dynamically but that requires much resources for crawling. crawlers look for the links but not search function. if no links on the page, then we have a problem.

RSS

© 2014   Created by Ko Chit.

Badges  |  Report an Issue  |  Terms of Service