Liquid AI ने जारी किया LFM2.5-VL-450M: 450M पैरामीटर का विजन-लैंग्वेज मॉडल जो एज डिवाइस पर 250ms से भी कम समय में इमेज समझता है

By Sribash Ghorai On April 13, 2026

9 min read • 1.2k views

Liquid AI LFM2.5-VL-450M fast vision-language model processing images under 250ms on edge devices — This thumbnail showcases Liquid AI’s LFM2.5-VL-450M, a powerful 450M parameter vision-language model designed for ultra-fast image processing under 250ms on edge devices.

नमस्ते दोस्तों! आज के तेज़ दुनिया में आर्टिफिशियल इंटेलिजेंस (AI) को छोटे-छोटे डिवाइस पर चलाना बहुत ज़रूरी हो गया है। Cloud पर भेजे बिना, privacy सुरक्षित रखते हुए, रीयल-टाइम काम करने वाला AI चाहिए। इसी को ध्यान में रखते हुए Liquid AI ने 11 अप्रैल 2026 को अपना नया मॉडल LFM2.5-VL-450M लॉन्च किया है। यह 450 मिलियन पैरामीटर वाला विजन-लैंग्वेज मॉडल (VLM) है जो इमेज देखकर न सिर्फ समझता है, बल्कि बाउंडिंग बॉक्स (bounding box) भी निकालता है, 8 भाषाओं में काम करता है और एज डिवाइस (जैसे Jetson Orin, Samsung S25 Ultra) पर 250 मिलीसेकंड से भी कम समय में जवाब देता है।

यह मॉडल छोटे हार्डवेयर पर भी पावरफुल है। अगर आप AI, टेक, स्मार्टफोन, इंडस्ट्री 4.0 या कृषि टेक्नोलॉजी में रुचि रखते हैं तो यह खबर आपके लिए बहुत महत्वपूर्ण है। इस ब्लॉग पोस्ट में हम सरल हिंदी में पूरी डिटेल समझाएंगे – क्या है यह मॉडल, क्या नया है, कैसे काम करता है, कहाँ इस्तेमाल हो सकता है और आप इसे कैसे ट्राई कर सकते हैं। चलिए शुरू करते हैं!

Table of Contents

[Open][Close]

विजन-लैंग्वेज मॉडल (VLM) क्या होता है?
Liquid AI के बारे में
LFM2.5-VL-450M की मुख्य नई विशेषताएं
तकनीकी स्पेक्स (Technical Specifications)
परफॉर्मेंस बेंचमार्क्स – पुराने मॉडल और कॉम्पिटिशन से बेहतर
अलग-अलग हार्डवेयर पर स्पीड टेस्ट (Q4_0 Quantization)
रीयल-वर्ल्ड यूज केस – भारत के संदर्भ में
इसे कैसे डाउनलोड और इस्तेमाल करें?
फायदे और सीमाएं
निष्कर्ष: AI का नया युग शुरू

विजन-लैंग्वेज मॉडल (VLM) क्या होता है?

सबसे पहले समझते हैं कि विजन-लैंग्वेज मॉडल क्या है। आम भाषा में कहें तो यह AI का ऐसा वर्शन है जो इमेज और टेक्स्ट दोनों को एक साथ समझता है। जैसे आप फोटो देखकर कहते हैं “यह कुत्ता है”, वैसे ही मॉडल फोटो देखकर जवाब दे सकता है। पुराने AI सिर्फ टेक्स्ट पढ़ते थे, लेकिन VLM इमेज को भी “देख” सकता है।

LFM2.5-VL-450M इसमें आगे बढ़ गया है। यह सिर्फ “क्या है” नहीं बताता, बल्कि कहाँ है (bounding box) भी बताता है। साथ ही यह 8 भाषाओं – अरबी, चाइनीज, फ्रेंच, जर्मन, जापानी, कोरियन, पुर्तगाली और स्पेनिश – में काम करता है। हिंदी यूजर्स के लिए भी यह उपयोगी है क्योंकि इंग्लिश के साथ मल्टीलिंगुअल सपोर्ट भविष्य में और बढ़ सकता है।

Liquid AI के बारे में

Liquid AI एक अमेरिकी कंपनी है जो छोटे-छोटे लेकिन बहुत तेज़ और efficient AI मॉडल बनाती है। उनका मकसद है – “AI को हर जगह उपलब्ध कराना, सिर्फ बड़े क्लाउड सर्वर पर नहीं”। पहले उन्होंने LFM2-VL-450M जारी किया था। अब LFM2.5-VL-450M उसका अपडेटेड वर्शन है। कंपनी ने pre-training को 10 ट्रिलियन टोकन्स से बढ़ाकर 28 ट्रिलियन टोकन्स कर दिया और reinforcement learning (RL) + preference optimization से मॉडल को और स्मार्ट बनाया।

LFM2.5-VL-450M की मुख्य नई विशेषताएं

Bounding Box Prediction (ऑब्जेक्ट लोकेशन) पुराने मॉडल में यह बिल्कुल नहीं था (RefCOCO-M पर 0 स्कोर)। अब यह 81.28 स्कोर करता है। मतलब – मॉडल इमेज में ऑब्जेक्ट देखकर JSON फॉर्मेट में बताता है: [{“label”: “कुर्सी”, “bbox”: [0.2, 0.3, 0.8, 0.7]}]। यह इंडस्ट्रियल रोबोट, वेयरहाउस या स्मार्ट कैमरे के लिए गेम-चेंजर है।
मल्टीलिंगुअल सपोर्ट MMMB बेंचमार्क पर 54.29 से बढ़कर 68.09 हो गया। 8 भाषाओं में विजुअल क्वेश्चन आंसरिंग। ग्लोबल यूज के लिए परफेक्ट।
Instruction Following और Function Calling MM-IFEval पर 32.93 → 45.00। यूजर का निर्देश बिल्कुल फॉलो करता है। टेक्स्ट-ओनली मोड में function calling भी सपोर्ट करता है (BFCLv4: 21.08)।
Ultra-Fast Edge Inference 512×512 इमेज पर NVIDIA Jetson Orin पर सिर्फ 242ms! Samsung S25 Ultra पर 2.4 सेकंड (फिर भी मोबाइल पर बहुत तेज़)। 4 FPS वीडियो स्ट्रीम पर हर फ्रेम को पूरी तरह समझ सकता है।

तकनीकी स्पेक्स (Technical Specifications)

पैरामीटर: 450 मिलियन
लैंग्वेज बैकबोन: LFM2.5-350M
विजन एन्कोडर: SigLIP2 NaFlex (86M)
कॉन्टेक्स्ट विंडो: 32,768 टोकन्स
वोकैबुलरी: 65,536
इमेज रेजोल्यूशन: नेटिव 512×512 (बिना क्रॉप या डिस्टॉर्ट)
इमेज हैंडलिंग: बड़े इमेज को 512×512 टाइल्स में बांटता है + थंबनेल एन्कोडिंग
क्वांटाइजेशन: Q4_0 (एज पर तेज़)

रेकमेंडेड सेटिंग्स: temperature=0.1, min_p=0.15, repetition_penalty=1.05

परफॉर्मेंस बेंचमार्क्स – पुराने मॉडल और कॉम्पिटिशन से बेहतर

Liquid AI ने VLMEvalKit से टेस्ट किए। कुछ मुख्य स्कोर:

RefCOCO-M (Visual Grounding): 81.28 (पहले 0)
MMMB (Multilingual): 68.09 (पहले 54.29)
MM-IFEval (Instruction Following): 45.00 (पहले 32.93)
MMVet (Open-ended): 41.10 (पहले 33.85)
CountBench (ऑब्जेक्ट काउंटिंग): 73.31 (पहले 47.64)
POPE: 86.93
RealWorldQA: 58.43

SmolVLM2-500M जैसे दूसरे 500M मॉडल से भी ज्यादातर टास्क में बेहतर। ध्यान दें – यह knowledge-intensive या बहुत fine-grained OCR के लिए नहीं बना है।

अलग-अलग हार्डवेयर पर स्पीड टेस्ट (Q4_0 Quantization)

रेजोल्यूशन	Jetson Orin	Samsung S25 Ultra	AMD Ryzen AI Max+ 395
256×256	233 ms	950 ms	637 ms
512×512	242 ms	2.4 s	944 ms

Jetson Orin पर 250ms से कम – मतलब हर सेकंड 4 फ्रेम प्रोसेस!

रीयल-वर्ल्ड यूज केस – भारत के संदर्भ में

कृषि और मशीनरी: ट्रैक्टर या ड्रोन पर लगा कैमरा फसल की बीमारी पहचान सकता है, bounding box से लोकेशन बताएगा। ऑफलाइन काम करेगा, इंटरनेट की जरूरत नहीं।
फैक्ट्री और वेयरहाउस: Jetson Orin पर चलते हुए वर्कर, फोर्कलिफ्ट, इन्वेंट्री को ट्रैक करेगा। Privacy सुरक्षित, डेटा क्लाउड पर नहीं जाएगा।
स्मार्टफोन और वियरेबल्स: Samsung S25 Ultra जैसे फोन पर रीयल-टाइम ऑब्जेक्ट डिटेक्शन। स्मार्ट ग्लासेस, डैशकैम, सिक्योरिटी कैमरे के लिए परफेक्ट।
रिटेल और ई-कॉमर्स: शेल्फ चेकिंग, प्रोडक्ट मैचिंग, कैटलॉग ऑटोमेशन।

भारत में जहां स्मार्टफोन बहुत हैं और इंटरनेट कभी-कभी धीमा होता है, ऐसे on-device AI का भविष्य बहुत बड़ा है।

इसे कैसे डाउनलोड और इस्तेमाल करें?

मॉडल पूरी तरह ओपन है!

Hugging Face: https://huggingface.co/LiquidAI/LFM2.5-VL-450M
Playground: https://playground.liquid.ai/chat?model=lfm2.5-vl-450m
LEAP प्लेटफॉर्म: https://leap.liquid.ai/models?model=lfm2.5-vl-450m

सरल Python कोड उदाहरण (Hugging Face Transformers से):

Python

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image

model = AutoModelForImageTextToText.from_pretrained("LiquidAI/LFM2.5-VL-450M", device_map="auto")
processor = AutoProcessor.from_pretrained("LiquidAI/LFM2.5-VL-450M")

image = Image.open("your_image.jpg")
conversation = [{"role": "user", "content": [{"type": "image", "image": image}, {"type": "text", "text": "इस इमेज में क्या है? JSON में bounding box निकालो"}]}]

inputs = processor.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(processor.batch_decode(outputs, skip_special_tokens=True)[0])

Docs: https://docs.liquid.ai

फायदे और सीमाएं

फायदे:

बहुत कम पावर और मेमोरी
Privacy (सारा प्रोसेसिंग लोकल)
रीयल-टाइम (वीडियो स्ट्रीमिंग)
मल्टीलिंगुअल
आसानी से फाइन-ट्यून कर सकते हैं

सीमाएं: Knowledge-heavy सवाल या बहुत छोटे टेक्स्ट OCR में कमजोर।

निष्कर्ष: AI का नया युग शुरू

Liquid AI का LFM2.5-VL-450M साबित करता है कि छोटा मॉडल भी बहुत पावरफुल हो सकता है। Edge AI, on-device AI और structured visual intelligence का भविष्य यही है। भारत जैसे देश में जहां लाखों छोटे-छोटे डिवाइस हैं, यह टेक्नोलॉजी स्मार्ट फैक्ट्री, स्मार्ट फार्मिंग और स्मार्टफोन ऐप्स को अगले लेवल पर ले जा सकती है।

आप भी इसे आज ही Hugging Face पर ट्राई करें और कमेंट में बताएं कि आपको कौन-सा यूज केस सबसे अच्छा लगा। अगर आपको AI, मशीन लर्निंग या एज कंप्यूटिंग पर और पोस्ट चाहिए तो सब्सक्राइब करें!

शेयर करें अगर यह गाइड आपके काम की लगी। सब्सक्राइब करें ताकि Codex, MCP, AGENTS.md जैसी नई गाइड्स मिलती रहें।

इसी तरह की और टेक्नोलॉजी खबरें पढ़ने के लिए हमारे अन्य लेख भी जरूर पढ़ें।

Anthropic Harness Design (2026): लंबे समय तक चलने वाले AI Apps बनाने का आसान तरीका

Google ने लॉन्च किया Gemma-powered Dictation APP 2026; यहां है इसका पहला लुक

Google ने लॉन्च किया TurboQuant! अब AI मॉडल 6 गुना कम मेमोरी में चलेगा, जानिए कैसे

Tags: #Image Understanding AI #LFM2.5-VL-450M #Liquid AI #विज़न लैंग्वेज मॉडल

विजन-लैंग्वेज मॉडल (VLM) क्या होता है?

Liquid AI के बारे में

LFM2.5-VL-450M की मुख्य नई विशेषताएं

तकनीकी स्पेक्स (Technical Specifications)

परफॉर्मेंस बेंचमार्क्स – पुराने मॉडल और कॉम्पिटिशन से बेहतर

अलग-अलग हार्डवेयर पर स्पीड टेस्ट (Q4_0 Quantization)

रीयल-वर्ल्ड यूज केस – भारत के संदर्भ में

इसे कैसे डाउनलोड और इस्तेमाल करें?

फायदे और सीमाएं

निष्कर्ष: AI का नया युग शुरू

Sribash Ghorai

Related Articles

5 बड़े फायदे: Chandigarh University ने Intel India के साथ शुरू किया IndiaAI Data Lab

AI Startup Anthropic ने IPO के लिए किया आवेदन, $965 बिलियन वैल्यूएशन के साथ रचा इतिहास

Microsoft Build 2026: Satya Nadella और Qualcomm CEO Cristiano Amon ने दिखाया AI का भविष्य

Leave a Comment Cancel reply