HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition | allainews.com

May 16, 2024, 4:45 a.m. | Honghui Chen, Yuhang Qiu, Jiabao Wang, Pingping Chen, Nam Ling

cs.CV updates on arXiv.org arxiv.org

arXiv:2405.09125v1 Announce Type: new
Abstract: Internal Language Model (LM)-based methods use permutation language modeling (PLM) to solve the error correction caused by conditional independence in external LM-based methods. However, random permutations of human interference cause fit oscillations in the model training, and Iterative Refinement (IR) operation to improve multimodal information decoupling also introduces additional overhead. To address these issues, this paper proposes the Hierarchical Attention autoregressive Model with Adaptive Permutation (HAAP) to enhance the location-context-image interaction capability, improving autoregressive generalization …

abstract arxiv attention autoregressive context cs.ai cs.cv error error correction hierarchical however human interference iterative language language model modeling permutations random recognition solve text training type vision

More from arxiv.org / cs.CV updates on arXiv.org

Having Second Thoughts? Let's hear it 8 hours ago | arxiv.org

abstract arxiv brain cognitive +20

Towards Imbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation 8 hours ago | arxiv.org

abstract arxiv attention cs.cv +15

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis 8 hours ago | arxiv.org

abstract arxiv challenge cs.cv +13

From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets 8 hours ago | arxiv.org

abstract accuracy arxiv cnns +20

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation 8 hours ago | arxiv.org

arxiv cs.cv cs.ro domain +10

Self-supervised Feature-Gate Coupling for Dynamic Network Pruning 8 hours ago | arxiv.org

abstract arxiv computational cost +16

An Organic Weed Control Prototype using Directed Energy and Deep Learning 8 hours ago | arxiv.org

abstract array arxiv control +15

You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet 8 hours ago | arxiv.org

abstract arxiv attention attention mechanisms +20

Generative Adversarial Networks in Ultrasound Imaging: Extending Field of View Beyond Conventional Limits 8 hours ago | arxiv.org

abstract adversarial arxiv beyond +18

Senior Machine Learning Engineer

@ GPTZero | Toronto, Canada

View on ai-jobs.net

ML/AI Engineer / NLP Expert - Custom LLM Development (x/f/m)

@ HelloBetter | Remote

View on ai-jobs.net

Doctoral Researcher (m/f/div) in Automated Processing of Bioimages

@ Leibniz Institute for Natural Product Research and Infection Biology (Leibniz-HKI) | Jena

View on ai-jobs.net

Seeking Developers and Engineers for AI T-Shirt Generator Project

@ Chevon Hicks | Remote

View on ai-jobs.net

Technical Program Manager, Expert AI Trainer Acquisition & Engagement

@ OpenAI | San Francisco, CA

View on ai-jobs.net

Director, Data Engineering

@ PatientPoint | Cincinnati, Ohio, United States

View on ai-jobs.net