ქართული OCR მოდული Abbyy Finereader-ისთვის
დღეს ბევრისთვის მართლაც ბედნიერი დღეა უბრალოდ ყველამ ამის შესახებ ჯერ არ იცის :-). ნება მომეცით წარმოგიდგინოთ ორი ახალგაზრდა გია მაჩაიძე და ჩვენი წევრი Power_VANO (ვანო ნარიმანიძე), ამ ორმა ადამიანდა იმუშავა და მათი შრომის ნაყოფის შედეგად შემიძლია წარმოგიდგინოთ ქართული ტექსტის ამომცნობი პროგრამა. მაშ ასე ვინც არ იცის ვუხსნი ეს არის ეგრეთწოდებული OCR სისტემა, ანუ დასკანირებულ ტექსტს აწვდით პროგრამას და იგი ცდილობს ფურცელზე არსებული ტექსტი ასოებად ამოიცნოს, ამის შემდეგ შეგიძლიათ ამოცნობილი ტექსტი, ვთქვათ საყვარელი WORD-ის ფორმატში შეინახოთ. გასაგები ხდება რომ ტექსტს ხელით კომპიუტერში აკრეფვა აღარ სჭირდება.
ასეთი პროგრამები ბევრი არსებობს ინგლისური და რუსული ალფავიტისთვის, ასე ვთქვათ მათთან ასოები და დამწერლობა შედარებით სტანდარტიზირებულია. ჩვენთან სიტუაცია ცოტა რთულადაა, არსებობს აურაცხელი შრიფტი, ერთ სტანდარტულზე არავინ მუშაობს, ყველა გამომცემლობას და რედაქციას თავისი არჩევანი მიაჩნია სწორედ. გარდა ამისა თვითონ ქართული შრიფტი არის საკმაოდ რთული კომპიუტერისთვის, შედეგად ქართული ამომცნობი პროგრამა აქამდე მხოლოდ ერთი პროგრამის სახით არსებობდა (ქორის დაფსობილი თვალები) და მისი ფასი ბევრისთვის ხელმიუწვდომელი იყო.
ამასობაში ყველასთვის ცნობილია რომ არსებობს პროგრამა Abbyy Finereader-ი რომელიც პრაქტიკულად ყველა დამწერლობას სცნობს გარდა ქართულისა. ნამდვილად გულდასაწყვეტია რომ ქართულს ეს პროგრამა ვერ ცნობს და ამდენი ხნის განმავლობაში ამაზე არც არავინ იფიქრა. მაგრამ ეს გარკვეულ დრომდე გრძელდებოდა. სანამ ორი ახალგაზრდა არ ჩაერია საქმეში, უფროსწორედ თავიდან ერთი ახალგაზრდა წვალობდა დამოუკიდებლად გია მაჩაიძე. მის მიერ შემუშავებული იყო საკუთარი მიზნებისთვის აღნიშნული Abbyy Finereader-ის ქართული ენის პლაგინი. შემდეგ ეს მოდული გადაეცა ვანო ნარიმანიძეს, რომელმაც ამ მოდულს კიდევ რამდენიმე შრიფტი ასწავლა, ამ დროისთვის პაკეტი ურთიერთ შეთანხმების შედეგად დანომრილია 0,3 ვერსიად. ანუ 0,1 ვერსია იყო გია მაჩაიძის მიერ გაკეთებული მოდული, შემდეგ მეორე ვერსიად დაინომრა ვერსია რომელიც ვანო ნარიმანიძემ ჩაასწორა, ჩემი თხოვნით ჩამატებული იყო კიდევ ერთი შრიფტის ამოცნობა, ამიტომ ამ ვერსიას უკვე მივანიჭეთ ნომერი 0,3.
ამჯერად პაკეტი სცნობს ქართული შრიფტებიდან: Acadnusx, Kolxeti, chveulebrivi. ასევე შესაძლებელია რამდენიმე მიახლოებული მოხაზულობის მქონე შრიფტების ამოცნობა. ამჯერად მიმდინარეობს მუშაობა ეგრეთწოდებული ”პატერნების” შევსებაზე, ანუ პროგრამას ასწავლიან დამატებით სხვა შრიფტებს და მოხაზულობებს (გეგმაშია უნიკოდ შრიფტების სწავლებაც), იმედია უახლოეს მომავალში ყველა შესაძლებელი შრიფტი იქნება ჩამატებული მოდულში, მაგარმ ამ საქმეს აურაცხელი დრო დასჭირდება. საქმე იმაშია რომ პროგრამას სათითაო ასო უნდა ასწავლო, თუ გავითვალისწინებთ რამდენი შრიფტი არსებობს და რამდენი მოხაზულობაა, გასაგები გახდება რომ საქმე საკმაოდ ბლომადაა (ვიტყოდი რომ UGT-ს ცნობილ გაქარულებაზე მეტი საქმეა), ასევე გასათვალისწინებელია ის გარემოება რომ ქართულ დამწერლობაში მიღებულია დიდ-პატარა ასოები და დიდი ანუ ბეჭდვითი ასოები, დღეისათვის ამ დიფერენციაციას ვეძახით ნუსხურს და მთავრულს (იდეაში ეს სწორე არ არის, მაგრამ კომპიუტერის გამო ასეთი სტერეოტიპი ჩამოყალიბდა). იდეაში მიმდინარე პაკეტი ჯერ დახვეწას საჭიროებს, მაგრამ მსურველებს უკვე შეუძლიათ მისი გამოყენება.
მოკლედ დღეისათვის გთავაზობთ თვითონ Abbyy Finereader 8,0-ის ვერსიას და ქართული ენების პაკეტს ნომრად 0,3. პაკეტს უხეშად დავარქვით Abbyy Finereader Georgian Language Recognition Pattern 0.3. განახლების მიხედვით ნომერაცია შეიცვლება და ახალ ახალ ვერსიაში შესაძლებლობისდამიხედვით შემოგთავაზებთ (უფროსწორედ ბიჭები გააკეთებენ ჩვენ კი ჩვენს საიტზე დავდებთ და თქვენ შემოგთავაზებთ). იმედია ბიჭებს შემართება და ძალები ამ საქმისთვის ეყოფათ, ისე თქვენი გამხნევება აშკარად არ აწყენდა მათ, ბოლო ბოლო უფასოთ რამხელა საქმეს გიკეთებთ ეს ორი ადამიანი. მოკლედ ვქაჩავთ, ვიხარებთ და არ გვავიწყდება დიდი მადლობის გადახდა და მუშა ხალხისთვის არ ვინანებთ გამამხნევებელ ტექსტებს.
P.S. თუ ვერ მოახერხებთ პაკეტის გამოყენებას, შეგიძიათ ავტორებს დაუკავშჳრდეთ ჩვენი ფორუმის მეშვეობით, ამ სიახლისტვის ახალი თემაა გახსნილი. ყველა კითხვა და წინადადება სასურველია ფორუმში დასვათ.
დასაქაჩათ კი გამოიყენეთ აი ეს ბმული: ქართული OCR მოდული Abbyy Finereader-ისთვის (ფაილის დასაქაჩათ ჩვენს საიტზე რეგისტრირებული უნდა იყოთ)
ბეჭდვითი ვერსია | 06-11-2006, 19:12:00 |
|
|
სტატიის შეფასება |
ეს გვერდი უკვე შეაფასეს!
შეფასება: |
5 |
შეფასება: |
1.6 |
|
|
Riablo
მესმის შენი სურვილი, მაგრამ მგონი ნამეტანი მომავალში გაიჭერი ისე რომ რეალურ დღევანდელობას არ უყურებ. უნიკოდი კი კაია, მაგრამ მოხაზულობა ანუ პატერნები არ ემთხვევა ზოგიერთი შრიფტის. გარდა ამისა გამოყენების მხრივ დიდი შანსია რომ ხალხი ისევ იგივე საქმეში გამოიყენებს ნამუშევარს, ან წარმოიდგინა დასკანირებული ერთ შრიფტშია და გარკვეულ ზომაში ეტევა, შენ კი ამოცნობას აკეთებ გადაგყავს მეორეში და მოცულობა ან იზრდება ან იცვლება. მესმიე რომ კომპისთვის პრობლემა არაა, ამგრამ ვისაც ზომების დაცვა უნდა მაგარ დისკომფორტში მოხვდება.