COMPINFO - კომპიუტერული ინფორმაცია - სიახლეები » Soft News » ქართული OCR მოდული Abbyy Finereader-ისთვის

http://www.compinfo.ge/index.php?area=1&p=news&newsid=1081


ადგილმდებარეობა  მთავარი » სიახლეები » Soft News
ქართული OCR მოდული Abbyy Finereader-ისთვის

 დღეს ბევრისთვის მართლაც ბედნიერი დღეა უბრალოდ ყველამ ამის შესახებ ჯერ არ იცის :-). ნება მომეცით წარმოგიდგინოთ ორი ახალგაზრდა გია მაჩაიძე და ჩვენი წევრი Power_VANO (ვანო ნარიმანიძე), ამ ორმა ადამიანდა იმუშავა და მათი შრომის ნაყოფის შედეგად შემიძლია წარმოგიდგინოთ ქართული ტექსტის ამომცნობი პროგრამა. მაშ ასე ვინც არ იცის ვუხსნი ეს არის ეგრეთწოდებული OCR სისტემა, ანუ დასკანირებულ ტექსტს აწვდით პროგრამას და იგი ცდილობს ფურცელზე არსებული ტექსტი ასოებად ამოიცნოს, ამის შემდეგ შეგიძლიათ ამოცნობილი ტექსტი, ვთქვათ საყვარელი WORD-ის ფორმატში შეინახოთ.  გასაგები ხდება რომ ტექსტს ხელით კომპიუტერში აკრეფვა აღარ სჭირდება.

ასეთი პროგრამები ბევრი არსებობს ინგლისური და რუსული ალფავიტისთვის, ასე ვთქვათ მათთან ასოები და დამწერლობა შედარებით სტანდარტიზირებულია. ჩვენთან სიტუაცია ცოტა რთულადაა, არსებობს აურაცხელი შრიფტი,  ერთ სტანდარტულზე არავინ მუშაობს, ყველა გამომცემლობას და რედაქციას თავისი არჩევანი მიაჩნია სწორედ. გარდა ამისა თვითონ ქართული შრიფტი არის საკმაოდ რთული კომპიუტერისთვის, შედეგად ქართული ამომცნობი პროგრამა აქამდე მხოლოდ ერთი პროგრამის სახით არსებობდა (ქორის დაფსობილი თვალები) და მისი ფასი ბევრისთვის ხელმიუწვდომელი იყო.



ამასობაში ყველასთვის ცნობილია რომ არსებობს პროგრამა Abbyy Finereader-ი რომელიც პრაქტიკულად ყველა დამწერლობას სცნობს გარდა ქართულისა. ნამდვილად გულდასაწყვეტია რომ ქართულს ეს პროგრამა ვერ ცნობს და ამდენი ხნის განმავლობაში ამაზე არც არავინ იფიქრა. მაგრამ ეს გარკვეულ დრომდე გრძელდებოდა. სანამ ორი ახალგაზრდა არ ჩაერია საქმეში, უფროსწორედ თავიდან ერთი ახალგაზრდა წვალობდა დამოუკიდებლად გია მაჩაიძე. მის მიერ შემუშავებული იყო საკუთარი მიზნებისთვის აღნიშნული Abbyy Finereader-ის ქართული ენის პლაგინი. შემდეგ ეს მოდული გადაეცა ვანო ნარიმანიძეს, რომელმაც ამ მოდულს კიდევ რამდენიმე შრიფტი ასწავლა, ამ დროისთვის პაკეტი ურთიერთ შეთანხმების შედეგად დანომრილია 0,3 ვერსიად. ანუ 0,1 ვერსია იყო გია მაჩაიძის მიერ გაკეთებული მოდული, შემდეგ მეორე ვერსიად დაინომრა ვერსია რომელიც ვანო ნარიმანიძემ ჩაასწორა, ჩემი თხოვნით ჩამატებული იყო კიდევ ერთი შრიფტის ამოცნობა, ამიტომ ამ ვერსიას უკვე მივანიჭეთ ნომერი 0,3.

ამჯერად პაკეტი სცნობს ქართული შრიფტებიდან: Acadnusx, Kolxeti,  chveulebrivi. ასევე შესაძლებელია რამდენიმე მიახლოებული მოხაზულობის მქონე შრიფტების ამოცნობა. ამჯერად მიმდინარეობს მუშაობა ეგრეთწოდებული ”პატერნების” შევსებაზე, ანუ პროგრამას ასწავლიან დამატებით სხვა შრიფტებს და მოხაზულობებს (გეგმაშია უნიკოდ შრიფტების სწავლებაც), იმედია უახლოეს მომავალში ყველა შესაძლებელი შრიფტი იქნება ჩამატებული მოდულში, მაგარმ ამ საქმეს აურაცხელი დრო დასჭირდება. საქმე იმაშია რომ პროგრამას სათითაო ასო უნდა ასწავლო, თუ გავითვალისწინებთ რამდენი შრიფტი არსებობს და რამდენი მოხაზულობაა, გასაგები გახდება რომ საქმე საკმაოდ ბლომადაა (ვიტყოდი რომ UGT-ს ცნობილ გაქარულებაზე მეტი საქმეა), ასევე  გასათვალისწინებელია ის გარემოება რომ ქართულ დამწერლობაში მიღებულია დიდ-პატარა ასოები და დიდი ანუ ბეჭდვითი ასოები, დღეისათვის ამ დიფერენციაციას ვეძახით ნუსხურს და მთავრულს (იდეაში ეს სწორე არ არის, მაგრამ კომპიუტერის გამო ასეთი სტერეოტიპი ჩამოყალიბდა). იდეაში მიმდინარე პაკეტი ჯერ დახვეწას საჭიროებს, მაგრამ მსურველებს უკვე შეუძლიათ მისი გამოყენება.

მოკლედ დღეისათვის გთავაზობთ თვითონ Abbyy Finereader 8,0-ის ვერსიას და ქართული ენების პაკეტს ნომრად 0,3. პაკეტს უხეშად დავარქვით Abbyy Finereader Georgian Language Recognition Pattern 0.3. განახლების მიხედვით ნომერაცია შეიცვლება და ახალ ახალ ვერსიაში შესაძლებლობისდამიხედვით შემოგთავაზებთ (უფროსწორედ ბიჭები გააკეთებენ ჩვენ კი ჩვენს საიტზე დავდებთ და თქვენ შემოგთავაზებთ). იმედია ბიჭებს შემართება და ძალები ამ საქმისთვის ეყოფათ, ისე თქვენი გამხნევება აშკარად არ აწყენდა მათ, ბოლო ბოლო უფასოთ რამხელა საქმეს გიკეთებთ ეს ორი ადამიანი. მოკლედ ვქაჩავთ, ვიხარებთ და არ გვავიწყდება დიდი მადლობის გადახდა და მუშა ხალხისთვის არ ვინანებთ გამამხნევებელ ტექსტებს.

P.S. თუ ვერ მოახერხებთ პაკეტის გამოყენებას, შეგიძიათ ავტორებს დაუკავშჳრდეთ ჩვენი ფორუმის მეშვეობით, ამ სიახლისტვის ახალი თემაა გახსნილი. ყველა კითხვა და წინადადება სასურველია ფორუმში დასვათ.

დასაქაჩათ კი გამოიყენეთ აი ეს ბმული: ქართული OCR მოდული Abbyy Finereader-ისთვის (ფაილის დასაქაჩათ ჩვენს საიტზე რეგისტრირებული უნდა იყოთ)



ბეჭდვითი ვერსიაბეჭდვითი ვერსია | 06-11-2006, 19:12:00 |
   
თემატური სტატიები


გამოხმაურება
პირველი გვერდი 1 2 » ბოლო გვერდი

Riablo
მესმის შენი სურვილი, მაგრამ მგონი ნამეტანი მომავალში გაიჭერი ისე რომ რეალურ დღევანდელობას არ უყურებ. უნიკოდი კი კაია, მაგრამ მოხაზულობა ანუ პატერნები არ ემთხვევა ზოგიერთი შრიფტის. გარდა ამისა გამოყენების მხრივ დიდი შანსია რომ ხალხი ისევ იგივე საქმეში გამოიყენებს ნამუშევარს, ან წარმოიდგინა დასკანირებული ერთ შრიფტშია და გარკვეულ ზომაში ეტევა, შენ კი ამოცნობას აკეთებ გადაგყავს მეორეში და მოცულობა ან იზრდება ან იცვლება. მესმიე რომ კომპისთვის პრობლემა არაა, ამგრამ ვისაც ზომების დაცვა უნდა მაგარ დისკომფორტში მოხვდება.
08-11-2006, 12:29:48 |

კავშირში როგორ არაა, მერე იმ წაკითხულ ტექსტს ხომ უნდა გამოყენება, ჰოდა სად უფრო დიდია მაგის გამოყენების სფერო? სტამბებში უნიკოდს არ იყენებენ და... პირადი მოხმარებისთვის კიდევ თუ გვინდა ან ფორუმის ფუნქციით გადაგვყავს უნიკოდში ან კონვერტ.ჯი-ს დახმარებით. თორემ მე პირიქით ძალიან მომწონს უნიკოდი და პირად მოხმარებაშიც ყოველთვის უნის ვიყენებ, და პროგრესის მომხრეც ვარ, მაგრამ დღევანდელი მდგომარეობა გვაფერხებს ცოტათი :(
08-11-2006, 11:39:04 | Power_VANO

მოიცა, მოიცა და რა შუაშია დასკანერებული დოკუმენტის შრიფტი იმასთან, თუ რომელი ჩარსეტით დაბრუნდება შედეგი? არანაირ კავშირში არაა აბსოლუტურად! არანაირში...
08-11-2006, 10:20:40 | Riablo

აააა, ეხლა შევამჩნიე, ეოკ, შემდეგ ვერსიაში გამოვასწორებ მაგ შეცდომას :)

უნკოდს რაც შეეხება კიდევ, აბა მითხარი, დღესდღეობით რისი ტექსტის წაკითხვა შეიძლება დაგჭირდეს, ნუ ნაკლებად უნიკოდ დოკუმენტების და მეტად ვთქვათ წიგნების, ჟურნალების და ა.შ. ამ ყველაფერში კი არა-უნიკოდ შრიფტებია გამოყენებული.
08-11-2006, 10:03:16 | Power_VANO

ვაახ კაცო, გეორგიან კი არ ტეხავს, გოერგიან ტეხავს-მეთქი. კითხვის დროს მაინც ვერ ხედავთ აპეჩატკებს?

გ ო ე რ გ ი ა ნ

უნიკოდზე ვერ დაგეთანხმებით. ნუ შევაფერხებთ პროგრესს. თუ ვინმეს უნდა, უკან გადმოაკონვერტიროს აკადემიურში.
08-11-2006, 09:57:52 | Riablo

Riablo
კი მუშაობს.

Shako
chugo
Riablo

არაფერს :)

TAZ
nikonep

დაყენების ინსტრუქცია დავწერე ფორუმში: http://compinfo.ge/forum/index.php?showtopic=419&st=0&gopid=5136&am p;#entry5136

Riablo
<<<მუშა რეჟიმში, ზემოთ წერია Goergian - ტეხავს>>>
რატო ტეხავს? რუსულს რუსსკი უწერია? ყველა ენა ინგლისურად წერია, ასე რომ არ ტეხამს :)

<<<პატერნი მშვენივრად გებულობს უნიკოდს და ქენით სიკეთე - აკადემიურში ნუ დააბრუნებთ შედეგს - უნიკოდ ჩარაქტერები ჩაუყარეთ.>>>
აკადემიური იმიტომ ჩავდე რომ ყველაფერი მარტივად იყოს. აკადემიურის უნიკოდში გადაყვანა პრობლემა არაა, მაგისთვის არსებობს http://www.convert.ge და + ფორუმ.ჯესაც და კომპიონფოს ფორუმსაც აქვს ეგ ფუნცია როცა პოსტავ დააჭირე abg=>აბგ-ს და გადაიყვანს უნიკოდში.

თანაც თუ უნიკოდს გავუკეთებ ძირითად ენად აკადემიურში იქნება მერე გადმოსაყვანი...
07-11-2006, 17:51:44 | Power_VANO

როგორ უნდა დავაინსტალირო?
07-11-2006, 17:08:38 | nikonep

დავაყენე - მუშაობს!

ისე, ბიჭებს მიეცით სამი შენიშვნა ჩემგან

1) georgian დიდი ასოთი იწერება
2) მუშა რეჟიმში, ზემოთ წერია Goergian - ტეხავს
3) პატერნი მშვენივრად გებულობს უნიკოდს და ქენით სიკეთე - აკადემიურში ნუ დააბრუნებთ შედეგს - უნიკოდ ჩარაქტერები ჩაუყარეთ.

ისე დიდი მადლობა
07-11-2006, 13:07:18 | Riablo

როგორ დავაყენო?
07-11-2006, 12:57:19 | TAZ

ჩემთვის ნამდვილად ბედნიერი დღე გამოდგა:) ჯიგრები ხართ...
07-11-2006, 11:49:26 | chugo

კომენტარის დატოვება
თქვენ არ შეგიძლიათ კომენტარების დატოვება.