Dear friends,
I am testing www.gadone.com which is a basic search engine for the Myanmar Language. It has just crawled my.wikipedia.org for testing and evaluation. Of course, MITP will soon be crawled too. :) You may kindly advise which additional sites to be added for further evaluation.
Example Queries:
http://www.gadone.com/search?q=%E1%80%9B%E1%80%94%E1%80%BA%E1%80%80...
http://www.gadone.com/search?q=%E1%80%80%E1%80%AD%E1%80%AF%E1%80%9C...
Your suggestions and feedbacks will be well appreciated.
Nice day.
Warmest Regards,
Tun

PS/
Gadone beta is currently running on a single instance on a cloud and the users may experience slowness or even downtime during crawling, indexing and patching. 
Screenshots:

Views: 815

Reply to This

Replies to This Discussion

မော ဆိုတဲ့စာလုံးကို ရှာတဲ့အခါ မော်မောင်မောင့်မောင်း စတဲ့စကားလုံးများ ပါ Highlight လုပ် ထွက်လာပါတယ်။ မော နှင့် မောင်း ဟာ အဓိပ္ပါယ်အရသော်လည်းကောင်း၊ အသံအရသော်လည်းကောင်း၊ စကားစုအရသော်လည်းကောင်း ကွဲပြားခြားနားတဲ့အတွက် ရလဒ်မှာ မထည့်သွင်းသင့်လို့ ထင်ပါတယ် (Suggestion အနေနှင့် ထည့်သွင်းရင်တော့ သင့်တော်ပါတယ်)။

 

 

 

thanks bro.

if it searches for မော , then မော် ၊ မောင် ၊ မောင့် ၊ မောင်း  should not be matched. 

It could be a bug or simply because these documents also have the word 'မော' . the highlighting will still be an issue since we just do simple text matching.

http://www.gadone.com/search?q=မောင်

returns 1231

http://www.gadone.com/search?q=ေမာ

returns 448

ှso, apparently it knows they are different. I notice a few results were wrongly returned but still could not figure out why. could be typos on the page which mislead the word segmentation algorithm. will post here when the issue is resolved 

rgds

great job!

btw, nice domain name :)

thanks. :)
btw, can i reach you when i need help with redhat ? still struggling with CLIs :(

oops!

i'm just a user. and more on ubuntu distro GUI except LAMP testing. :)

i think u asked the wrong person. may be cuz of my avatar u confused with someone :D
there are many linux geeks in MITP.
for me, i can't even use vi in CLI properly yet.

i can be the Gadone user. :)

 

I think prioritizing is still needed to be improved. For example, the search "အိမ်သာ" or "မစင်" should have more weights and the articles with those titles should be first results since they are article titles. (Don't get the wrong idea on words. I wrote those two articles several months ago.)

It is not bcoz of prioritizing. Just that they are not crawled. The problem can be solved if dump xml data is used directly. but, it is a cheat. I would do that only as a last resort. :)

Web search engine crawls a site from the main page, by following all the hyper links hierarchically. Because of server resources limitation and time, the "depth" of crawling is fixed. As a result, some pages are not reached if they are so deep inside. Obviously, unlike gadone with a single instance, google does not have any limitations with their resources. i wonder how many thousands of instances they use to crawl the sites. 

Excuse me, i need to go to loo.

cheers

Aww I see. If that the case, plz use http://my.wikipedia.org/wiki/Special:AllPages . You will only need to go 2 levels of depth.
Thanks. Will try it out.

http://my.wikipedia.org/w/index.php?title=Special:AllPages&from=အသောကမင်း&to=ဦးပြုံးချို

is "အိမ်သာ" missing on the page ?

 

.Net Framework မှ OSI မော်ဒယ်လ် အထိ
Oceania မှ ကရင်နီအမျိုးသားတိုးတက်ရ... အထိ
ကရင်ပြည်နယ် မှ ကျဉ်စိုး အထိ
ကျည်းကန်ရှင်ကြီး မှ ကွမ်းရွက်ပင် အထိ
ကွမ်းလုံကူးတို့ဆိပ် မှ ခြေနီငှက် အထိ
ခြေမြန်တပ်ရင်းအမှတ် (၁၀၁) မှ ဂျွန်ပေါလ်စန် အထိ
ဂျွန်အဒမ် မှ စူပါ ကွန်ပျူတာ အထိ
စူပါနိုဗာ မှ တက်ကြွထက်သန်သူများ အထိ
တက်တိုး မှ တော်တီဆွေ၊ ကာတွန်း အထိ
တော်ပီဒိုနှင့် ‌ရေမြှုပ်... မှ  အထိ
နက္ခတ္တဗေဒ မှ ပန်ဒါဝက်ဝံကြီး အထိ
ပန်းကန်စက်ဦးသော် မှ ဖော်ပြစာရင်းအင်းပညာ အထိ
ဖော်မြူလာ ဝမ်း မှ ဘူမိ ဗေဒ အထိ
ဘူမိဗေဒ မှ မီချီဂန်ပြည်နယ် အထိ
မီတာ မှ မြန်မာ့အမျိုးသားခေါင်းဆ... အထိ
မြန်မာ့အလင်း မှ ရောဘတ် ကွက် အထိ
ရောဘတ် ဗေဒင်-ပိုရယ် မှ လူအိုရုံ အထိ
လူဦးရေ ထိမ်းချုပ်ရေး မှ သဘာဝဘေးအန္တရာယ် ကာကွယ်ရေ... အထိ
သဘောတူစာချုပ် မှ အင်ဒရူး ဂျက်ဆန် အထိ
အင်ဒရူး ဂျွန်ဆင် မှ အသောက အထိ
အသောကမင်း မှ ဦးပြုံးချို အထိ
ဦးပွား မှ ‌မြောက်အမေရိက အထိ

 

See below အိန္ဒြာကျော်ဇင် and အိမ်ဖြူတော်.

but the page http://my.wikipedia.org/wiki/Special:AllPages does not have link for အိန္ဒြာကျော်ဇင် and အိမ်ဖြူတော်.

လူဦးရေ ထိမ်းချုပ်ရေး မှ သဘာဝဘေးအန္တရာယ် ကာကွယ်ရေ... အထိ
သဘောတူစာချုပ် မှ အင်ဒရူး ဂျက်ဆန် အထိ
အင်ဒရူး ဂျွန်ဆင် မှ အသောက အထိ
အသောကမင်း မှ ဦးပြုံးချို အထိ
ဦးပွား မှ ‌မြောက်အမေရိက အထိ


thats why they are not reachable.
i know you can search dynamically but that requires much resources for crawling. crawlers look for the links but not search function. if no links on the page, then we have a problem.

RSS

Latest Activity

nyiminthit posted a status
"TPlink-TD8816 modern Router ကို config လုပ္ခ်င္လို ့ပါ အင္တာနက္လိုင္းမတက္လို ့တိုင္ပတ္ေနလို ့ကူညီၾကပါဦး ခင္မ်ာ"
Monday
Htet Oo Zaw replied to GaaRa's discussion ႈွYatanarpon ADSL ႏွင့္ Elite Fiber(FTTX) အင္တာနက္လိုင္း ႏွစ္လိုင္းကုိ load balancing လုပ္ခ်င္လို.ပါ
Monday
Htet Oo Zaw updated their profile
Monday
zaw moe tun updated their profile
Sunday
Profile Iconေဇာ္ထြန္း ေနျပည္ေတာ္, zaw lin tun, Lina and 185 more joined MyanmarITPro - A Social Network for Myanmar IT Professionals
Sunday
Phyo Phyo posted a status
"I want to know banking network .How to operate network."
Jul 24
Phyo Phyo updated their profile
Jul 24
kohla and Nay Min are now friends
Jul 23
kyawzinlatt shared manawphyulay's blog post on Facebook
Jul 22
Hteinlinaung liked Aung Myint Tun's blog post အင္တာနက္သံုးရင္း တစ္ေန႔ကို $160 ရမည့္ Online ေငြရွာနည္း
Jul 20
လြဲေန replied to Kam's discussion Kerio winrout firewall တင္ရင္Blue screen တက္တယ္. Why? in the group Ask MITP
Jul 19
kglay@it posted a status
Jul 12

© 2014   Created by Ko Chit.

Badges  |  Report an Issue  |  Terms of Service