Bilgisayar Kağıdın Tahtına Oturuyor

Bürokrasi tümüyle kağıt üzerinde işliyor. Bu yüzden dijital dünya için bu alan büyük önem taşıyor.Gutenberg’in matbaasının yerini alacak teknolojileri bu yazıda inceledik.İki Almanya’nın birleşmesinden sonra, 1989′da istihbarat servisinin tüm çalışanları “sistematik yok etme” adı verilen, önemli belgelerin ortadan kaldırılması işiyle meşguldüler. Sonuç mu? Gizli operasyonlar, kağıt üzerinde kaydı olmayan ‘personel’ gibi konularda tutulmuş belgelerin parçalarıyla dolu tam 16.000 çuval.
Uzmanlara göre, bu bilgileri tekrar elle oluşturmak yüzlerce yıl alabilir. Ama Fraunhofer Enstitüsü’nün Üretim Sistemleri ve Tasarım Teknolojisi (IPK) kısmı bu işi beş yılda halletmeyi planlıyor. Bunun için, metin tanıma yazılımlarında da kullanılan teşhis yöntemleri kullanılacak.
Google’ın büyük mücadelesi
Uzmanlar, ellili yılların ortalarından bu yana bilgisayarlara harf ve rakamları okutmak için ter döküyorlar. Bu yüzden, metin tanıma günümüzde sıradan bir şey. Örneğin Google’ı düşünün. Arama motoru devi, şu anda erişebildiği tüm kütüphanelerin arşivlerini tarıyor ve internette, kitap arama sonuçlarında görünebilmesi için hepsini dijital ortama taşıyor. Cep telefonu alanında da benzer eğilimler var. Örneğin Linguatec’in “Shoot & Translate” adlı yazılımı, cep telefonunuzun kamerasıyla resmini çektiğiniz yazıları, örneğin bilmediğiniz dildeki bir menüyü birkaç saniye içinde bir başka dile çevirebiliyor. Elbette yazılımın metni çevi-rebilmesi için öncelikle düzgün şekilde tanıyabilmesi lazım. Bunun için kullanılan teknoloji Optik Karakter Tanıma (Optical Character Recognition ya da daha yaygın şekliyle OCR) olarak biliniyor ve optik tarama yöntemiyle, basılı karakterleri tanıyor.
OCR zamandan tasarruf sağlıyor ve halihazırda basılı bir metni sil baştan yazma zorunluluğunu ortadan kaldırıyor.Boston’daki MİT’te (Massachusetts Teknoloji Enstitüsü) daha sonra internetin öncülerinden biri olan Lawrence Roberts, daha altmışlarda karakterlerin otomatik tanınması için ilk prosedürleri geliştirmişti.
Ancak o günlerde sadece desen eşleme yönteminin kullanılıyor olması hiç pratik değildi. Yazılım, karşısına çıkan bir karakteri önceden kaydedilmiş bir karakter küme-siyle karşılaştırıyordu ve bundaki sorun da hiçbir karakterin bir diğerine benzememesi gerekliliğiydi. Şayet karakterler yana yatık yazılırsa desen eşleme hiçbir işe yaramıyordu. Bu yüzden, hiçbir harfin bir diğerine benzemediği OCR-A ve OCR-B gibi özel yazıtipleri geliştirildi. Bu, karakter tanıma oranını bir anda yükseltti. Ancak uygulamada insanın karşısına genelde “normal” yazıtipleri çıkar. İlk “omnifont” yani yazı tipinden bağımsız OCR sisteminin geliştirilmesi bu yüzden 1976′ya, Ray Kurzweil’in keşfine kadar bekleyecekti.
Yine de günümüzde bile bir tarayıcı tek başına metinleri “doğru olarak” okumaya yetmiyor. Eğer özel yazılım kullanılmazsa, tarayıcı altı üstü bir bit eşlem dosyası oluşturabiliyor. Hesaplamalar ya da fotoğraflar bu şekilde sayısallaştırılabiliyor. Ancak böyle bir dosyada örneğin bir sözcük aramak mümkün değil. Yani arama gibi işlevler için bit eşlem (Bitmap) dosyaları, yüksek renk derinliği ya da tarama çözünürlüğü bir fark yaratmıyor.
Metinleri oluşturabilmek için OCR programlarının kullanılması gerekiyor. Ev ve ofis kullanımının yanı sıra profesyonel pazar için de çok sayıda karakter tanıma yazılımı var (mesela Abbyy FineReader OCR ) ya da formları tanımak için OCR Systems’in FormPro’su gibi araçlar kullanılıyor.
Karakter tanımada üç yaklaşım
Karakterleri tanımanın başlıca üç yolu var. Modern Optik Karakter Tanıma (OCR) yazılımları genellikle duyarlığı artırmak için üçünü birden kullanıyor.
BÖLÜMLEME:

Bu prosedürde algoritma mürekkebin çok olduğu alanları, yüzeylerin nasıl dizildiğini ve beyaz alanları kontrol ediyor. Bu bulgular istatistiksel olarak değerlendiriliyor. Örneğin A’nın ortasında boyalı alanın çok olduğu hemen dikkatinizi çekecektir. Diğer yandan, B harfinde boyalı alan sola ve sağa dağılmış durumda.
DESEN ESLEME:

Bu yöntemdeyse karakterler önceden kaydedilmiş bir tarz kümesiyle karşılaştırılıyor. Örnekte gördüğünüz farklı A harfleri, taranan karakterler kıyaslanıyor. Örneğin popüler OCR yazılımı Abbyy FineReader, A harfi için 48 farklı desen şablonu kullanıyor.
ÖZELLİK ESLEME:

Desen Eşlemede tüm desen önemliyken, bu yöntemde yapı sınıflandırın bir karakteri, onu oluşturan parçalara bölüyor. Böylelikle A harfi yukarı çapraz bir çizgi, aşağı çapraz bir çizgi ve ikisini birleştiren ortada yatay bir çizgiden oluşuyor. Eğer ortada çizgi yoksa o zaman harf büyük olasılıkla A değil.
Metin tanıma nasıl işliyor?
Otomatik metin tanımanın birkaç adımı var:
İLK ADIM YÖN BELİRLEME: Tarama konusunda eskiden beri söylenegelen bir laf vardır: Kaynak ne kadar iyiyse tarama sonucu da o kadar iyidir. Yeni testler, kirlenmiş ya da mürekkep bulaşmış kağıtların bu işleme ket vurabildiğim gösteriyor. Diğer yandan, kaynak materyal iyiyse metin tanıma oranı %100′e bile ulaşabiliyor. Peki, metin düz mü yerleştirilmiş, yoksa ters mi? Bu adım çok önemli, çünkü metnin tanınıp tanınmayacağını bu aşama belirliyor. OCR yazılımı dosyanın herhangi bir yerine atlayıp metnin o kısmını tanımaya çalışıyor. Eğer bunu başaramazsa her seferinde bit eşlem dosyasını 90 derecelik açıyla döndürüyor ve tekrar deniyor. Metindeki sadece yatay değil dikey unsurlar da sorun çıkarabiliyor.Böylece gelişigüzel örnekleme yapan OCR, metnin yönünü belirliyor.
İKİNCİ ADIM SAYFA AYARI VE HİZALAMA: Klasik OCR programları daima bir seferde tek bir sayfayla uğraşır. Eğer iki sayfa bir anda taranıyorsa, OCR programı taranan dosyayı sayfalara ayırır. Bir düzeltme algoritması, örneğin kalitesiz faks gönderiminden kaynaklanan hataları giderebilir. Ama burada da sorunlar var. Örneğin, temizleme işlemi sırasında bir “ö” harfi kolayca “o”ya dönüşebiliyor. Bir diğer sorun da yeni tarayıcıların çok hassas çalışmaması ve satırları yatay olarak hizalayamaması. Programlar böyle hataları otomatikman gideriyor.
ÜÇÜNCÜ ADIM YERLEŞİM ANALİZİ: Şimdiye kadar değindiğimiz iki adım da hazırlık amaçlıydı. Şimdiyse sıra yerleşim analizinde. Programlar bunun için bölümleme (segmentation) denilen bir işlem gerçekleştiriyor, yani sayfanın hangi kısımlarında metin, hangi kısımlarında grafik olduğunu, barkot ya da boşluk gibi unsurları tanımlıyor. Bu işlem sayfa sayfa yapılıyor. Sayfa yapısı bu işlem sırasında giderek daha küçük parçalara bölünüyor. Sayfalar metin bloklarına, sonra paragraflara, sonra satırlara, sözcüklere ve son olarak da harflere ayrılıyor. Uzmanlar buna Çok düzeyli Belge Analizi (Multilevel Document Analysis) adını veriyor.
İyi ama program yazıyla resmi nasıl ayırt ediyor ve paragraflarla satırları nasıl tanıyor? Geçtiğimiz yıllarda, özellikle de giderek daha hızlı çalışan programların yazılmasıyla bu alanda çok şey değişti. Öncelikle renkli belgeler ikilileştirme (binarization) denilen bir işlemle siyah beyaza dönüştürülüyor. Bunu, kağıda uzaktan gözünüzü kısarak bakmak gibi düşünebilirsiniz. Harfleri tam okuyamasanız da sayfanın yapısını, metin bloklarını, beyaz boşlukları, resimleri ayırt edebilirsiniz. Bazı renk geçişleri fotoğraflara işaret ederken, düz satırlar bir paragrafı anlatır. OCR programları da sayfanın bölümlenmiş yapısını işte bu şekilde oluşturuyor.
Bu elbette hataya açık bir yöntem, özellikle de arka plandaki bir resmin üzerinde yazı varsa. Programlar bu zorluğun üstesinden gelmek için aşamalı bir yaklaşımı benimsiyor ve yaptıkları hatalardan ders çıkarıyor. Mesela metin tanıma işe yaramazsa, yazılım karşısındakinin büyük olasılıkla metin olmadığını anlıyor. Metin blokları tanımlandıktan sonra iş kolaylaşıyor. Boşluklara bakılarak paragraflar, satırlar ve sözcükler ayrıştırılıyor. Karakterler ise sözcük düzeyinde ele alınıyor.
DÖRDÜNCÜ ADIM METİN TANIMA: Bu aşamada işler daha ilginç bir hal alıyor. OCR yazılımının tüm becerisini ortaya koyması ve karakterleri elinden geldiğince iyi tanıması gerekiyor. Karakter tanıma için kullanılan iki yöntem var: Desen eşleme ve özellik eşleme.Desen eşlemede, bir karakter bilinen bir karakter kümesiyle karşılaştırılıyor. Eğer eşleşirse, tanınmış sayılıyor. Bu yöntem kulağa çok mantıklı gelse de, pratikte bazı sorunlar var: Zira desen eşlemede karakterlerin %ıoo uyuşması gerekiyor. Ayrıca desenlerin tanınabilmesi için kullanılan yazıtipinin de karakter kümesinde yer alması şart. Bunlar yetmezmiş gibi, yazıtipi kalın, italik ya da farklı boyutlarda olabilir. Tüm bunlar, desen eşlemenin işini zorlaştırıyor.
Bu yüzden günümüzde özellik eşleme giderek ağırlık kazanıyor. Karakterler yine daha küçük bileşenlere bölünüyor, örneğin küçük bir “b” harfi dikey bir çizgi ve küçük bir yarım çember olarak parçalanıyor. OCR yazılımı bu harfin tüm yazıtiplerinin bu özelliklere sahip olduğunu biliyor. Söz konusu yöntemin dezavantajı ise özellik eşlemede karakterlerin sadece belli bir olasılıkla tanınabilmesi. Yine de bu OCR için sorun çıkarmıyor çünkü yazılım önce farklı özellikleri arayıp sonra olasılıkları birleştiriyor. Her şeyin altından kalkan bir tanıma algoritması olmadığı için, programlar farklı yöntemleri bir arada kullanıyor (kutuya bakınız). Bazı programlar farklı tanıma yöntemlerini değişik motorlar halinde kullanıp bağımsız çalışmalarına izin veriyor. Sonuçta her bir motor kendi sonuçlarını ortaya koyuyor ve çoğunluğun dediği oluyor.
BESİNCİ ADIM TEKRAR SÖZCÜKLER: Metin tanıma karakter düzeyinde gerçekleşse de tekrar sözcüklere dönüş büyük önem taşıyor. Dördüncü adımın sonunda OCR programı farklı olasılıklara sahip çok sayıda karakter üretiyor. Bunlar sözcükler halinde bir araya getirildiklerinde yine her bir sözcüğün ayrı bir olasılığı bulunuyor. Bu yüzden sözcükler öncelikle sözlükteki sözcüklerle karşılaştırılıyor.
Birçok program bu yüzden ilgili dili daha en baştan ayarlamaya imkan veriyor; bu da işleri hızlandırıyor. OCR yazılımı üreticileri bu yüzden çok sayıda dili destekliyorlar, örneğin Abbyy neredeyse 200 dili tanıyor. Yine de aranan tek şey terimler değil. Kökek bileşimlerini denetleyen biçimbilim (morfoloji) sözlükleri de bu aşamada kullanılıyor. Ek olarak, kullanıcı tanımlı sözlüklere de başvuruluyor. Böylece, örneğin kimyacıların deoksiribonükleik asit (DNA) sözcüğünü eklemesi mümkün oluyor. İşlemin
son bir aşaması daha var: OCR programları, sözcüklerin farklı bağlamlarda kullanılma sıklığını da inceliyor.
ALTINCI ADIM BİÇİMLEME: Metin tanıma yorucu bir iş; çünkü sayfalar önce karakterlere ayrılıyor, tanınıyor ve tekrar birleştiriliyor. OCR yazılımı, bölümleme sonucu elde ettiği bilgiye dayanarak sayfayı orijinal şekline tekrar getiriyor. Sonra da çıkış biçiminde, örneğin DOC ya da PDF olarak kodluyor. Her OCR yazılımı bazı özel biçimlerle çalışıyor.
Belge yönetimi
Ancak OCR kullanmak işin ancak yarısı. Bir metnin bilgisayara hatasız olarak aktarılması ya da sunucuda bulunması yeterli değil; belgeler aynı zamanda kolayca bulunabilmeli. Akıllı arama ve erişim yönetimi işte bunu üstleniyor ve kullanıcının düzenleme sürecine müdahalesini ortadan kaldırıyor. NTFS gibi standart dosya sistemleri arama sırasında çok zorlanıyor. Dosya sistemlerinde kullanıcılar dosya adı, uzantısı, boyutu ve değişiklik tarihi gibi özniteliklere dayalı arama gerçekleştirebiliyorlar. Ayrıca NTFS ve benzerleri ancak temel seviyede erişim ve sürümleme (versioning) işlevi sunuyor.
İşte Belge Yönetim Sistemleri (DMS) bu noktada sahneye çıkıyor. Bu programların, yönetilen belgeler için net olarak belirlenmiş giriş / çıkış kuralları bulunuyor ve bu kurallar, kullanıcıya atanan role göre değişebiliyor. Ayrıca veritabanı destekli meta veri yönetimi, geliştirilmiş sürüm denetimi ve dizin temelli belge tarama gibi özellikleri de var. Şu anda piyasadaki ürünlerin çoğu kapsam ve işlev bakımından DFR (Belge Dosyalama ve Bulma) ISO 10166 standardı üzerine kurulu.
Bir DMS sistemi kullanıcıyla arşiv belleği arasında çalışıyor ve karmaşık görevler üstleniyor. Yine de bu sistemlerin unsurları yıllardır belirlenmiş durumda: bir bellek, veritabanı ve erişim sistemi. Sıkça kullanılan belgeler bellekte tutuluyor. Depolama Alanı Ağları (Storage Area Network) diye bilinen bu bellek alanları günümüzde petabyte düzeyinde. Bu ağ depolama alanını, üzerindeki belgelerin düzenlenmeye açık olduğu büyük bir dosya sunucusu olarak düşünebilirsiniz. Uzmanlar bu sunuculara Dosya Mahzeni de (File Vault) diyor. Şirketlerde kullanılan belgelerin büyük kısmı yapılandırılmamış. Bu oran, uzmanların tahminince %8o’lere varıyor. Bu da demek oluyor ki “A isimli çalışanın B müşterisiyle son üç yılda yaptığı işlerden kârı 10.000 lirayı geçenleri listele” tarzı bir sorguda bulunmak mümkün değil; en azından hızlı ve eksiksiz bilgi istiyorsanız. Bu sebepten ötürü DMS’lerin ikinci özelliği, veritabanı. Yazılımların sıralanmamış veriye yapı kazandırmak gibi bir becerisi de bulunuyor.
Bu yapı oluşturulduktan sonra belgeleri bütün dosya sistemlerinin sunduğu bilgi alanlarına göre aramak mümkün oluyor. Örneğin, müşteri numarası, sipariş numarası ya da sorumlu personel. Erişim sistemi, aynı dosyanın eşzamanlı olarak iki kişi tarafından düzenlenmesini ve erişim çakışmalarının çıkmasını da önlüyor. Bir de büyük şirketlerde işlemleri yöneten iletişim sunucuları var. Ayrıca bazı DMS sistemlerinin çok aşamalı arşivleme sistemleri de var. Bunlar, dosyaları en son haliyle saklıyor. Çoğu zaman, bu iş için bağlantılı dönüşüm sunucuları da kullanılıyor. Bu sunucular dosyanın son halini, uzun vadede kullanılacak olan dosya biçimine dönüştürüyor.
Modern bir Belge Yönetim Sistemi (DMS) nasıl çalışıyor?
Okumak başka şey, anlamak başka. Bu şema, yazılımın nasıl çalıştığını ve hangi tür dosyaları düzenlediğini gösteriyor.

DMS ilk önce mevcut meta verileri, örneğin Word dosyasındaki yazar bilgilerini okumaya çalışıyor. Eğer meta verisi yoksa eldeki belge yapılandırılmamış demek. Belge Yönetim Seferi bu sefer metni arayıp anahtar sözcüklere bakarak sınıflandırıyor. Faks mesajındaki sözcükler, bunun bir ileti olduğunu gösteriyor. Bulunan nitelikler bir meta tabanında toplanıyor. Böylelikle, yapılandırılmamış dosyaya ek verilerden oluşan yapılandırılmış bir küme eklenmiş oluyor. Sınıflandırma genelde eksik ya da hatalı olabiliyor. Meta verilerini tamamlamanın iki yolu var: elle etiketleme ya da öğrenen sistemler.
DMS, belgelere yapı kazandırıyor
Salt veritabanlarıyla karşılaştırıldığında DMS’lerin ayırt edici bir özelliği, organize olmayan belgelere yapı kazandırabilmeleri. Bir örnek verelim: Bir şirkete, faksla sipariş geliyor. Belge taranıyor ve OCR sayesinde okunarak DMS’e aktarılıyor. DMS, belgede anahtar sözcük aramaya başlıyor ve bu sınıflandırma sistemi sayesinde siparişler için kesilecek faturaları hazırlıyor. Bu sistemler yaklaşık değerler sunduğu ve %ıoo isabetle çalışmadıkları için elle etiketleme de mümkün.
Benzerlik vektörleri ve sinir ağları kullanıldığında DMS’ler bir adım ileri taşınıyor ve öğrenme özelliği kazanıyor. Ama bugün kullanıcılar için DMS’lerin sunduğu en büyük avantaj aranabilirlik. Böylece, bir şirketin çalışanları “Miktar”, “Ürün kodu,” “Müşteri Adresi” gibi anahtar sözcükleri kullanarak siparişlerde arama yapabiliyor. DMS tüm bu bilgileri meta verileri için ayrı bir dosyada saklıyor.
Bunlar genelde bir DTD (Belge Tipi Tanımı) üzerine kurulu XML dosyasında tutuluyor. Meta veri yönetimine ek olarak, DMS’lerin hepsi arama dizini de sağlıyor.
Bunu bir kitabın dizinine benzetebilirsiniz (aşağıdaki kutuya bakınız!). Ayrıca belgeler sözcük sözcük denetleniyor ve sınıflandırmaya uygun şekilde meta veriler oluşturuluyor. Dizinin yaratılması sırasında, bir de dijital not oluşturuluyor ve belgedeki her bir sözcüğün konumu buraya kaydediliyor. DMS sistemi belgeleri değil de dizinleri tarayarak sorguları şimşek hızında yanıtlayabiliyor.
Yenilikler ve zorluklar
Günümüzde metin tanıma projeleri genellikle Google Books’ta ya da büyük kütüphanelerde olduğu gibi büyük çaplı. OCR üreticileri, tanıma algoritmalarını paralelleştirme üzerinde çalışıyorlar. Bu, OCR işlemci gücünün tamamını kullansa bile tarama sürecini hızlandıracak. 3B tarama alanında da yeni açılımlar beliriyor. Mesela BSB’nin (Bavyera Devlet Kütüphanesi) dijital kütüphane sorumlusu Dr. Markus Brantl, “3B tarama muhteşem kapaklara sahip eski kitaplar için çok önemli,” diyor.
WEBLiNKLERİ:
Modern tanıma sistemlerinin kullanım alanları
Books.google.com
Basılı eserlere internetten erişilebilmesi için
www.linguatec.de/products/mtr/shoot/trans
Cep telefonuyla fotoğrafını çektiğiniz metinlerin çevirisini görün
Kategori: Yazılım

yorum değil bir soru sormak istiyorum ben taranmış bir evrağımızın dtd olarak değilde doc olarak kaydetmek istiyorum.ben word oalrak desemde o bana dtd olarak veriyor taranmış evraktaki tablo bozuluyor bunun için ne yapabilirim mailime cevap veririseniz sevinirim iyi günler
Hangi yazılımı kullanıyorsunuz? “dtd” bir döküman uzantısı değildir, xml veya onun gibi bir markup language de içeriğin hangi kurallara göre ayrımlanacağını belirler.