भारत के स्टार्टअप का AI में डंका, ChatGPT और Gemini को पछाड़ा, बुलबुल’ और ‘विजन’ ने जीता सबका दिल

Updated on 09-Feb-2026

अभी लोगों को लगता है कि AI की दुनिया में सिर्फ अमेरिका और चीन का राज है. लेकिन अब बेंगलुरु के एक स्टार्टअप ने लोगों की सोच बदलने की तैयारी कर ली है. भारत के अपने ‘Sarvam AI’ ने ऐसा कमाल कर दिखाया है कि दुनिया हैरान है. इनके नए AI टूल्स ने न सिर्फ सुर्खियां बटोरी हैं, बल्कि कुछ मामलों में ChatGPT और Google Gemini जैसे दिग्गजों को भी पछाड़ दिया है. इसे कहते हैं ‘Sovereign AI’ यानी भारत का अपना एआई, जो अब ग्लोबल मंच पर अपनी धाक जमा रहा है.

भारत का अपना ‘Sovereign AI’

जब AI मॉडल की बात आती है, तो सुर्खियों में अक्सर अमेरिका और चीन रहते हैं. भारत, अपनी विशाल प्रतिभा के बावजूद, शायद ही कभी कोर AI डेवलपमेंट के सोर्स के रूप में देखा गया हो. लेकिन बेंगलुरु स्थित स्टार्टअप Sarvam AI जिसे वह “सॉवरेन एआई” (Sovereign AI) कहता है, के साथ उस धारणा को बदल रहा है.

कंपनी भारत में बिल्कुल शुरुआत से मूलभूत AI मॉडल बना रही है. इस हफ्ते इसके दो टूल्स, Sarvam Vision और Bulbul, काफी चर्चा बटोर रहे हैं और वह भी सही कारणों से.

Sarvam Vision: दिग्गजों को पीछे छोड़ा

Sarvam Vision अपने विशेषज्ञता के क्षेत्र ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) में कुछ बेंचमार्क पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और चर्चित मॉडल्स को हरा रहा है. कंपनी के को-फाउंडर प्रत्यूष कुमार के अनुसार, सर्वम विजन ने olmOCR-Bench पर 84.3% एक्यूरेसी स्कोर हासिल किया है. यह स्कोर Gemini 3 Pro और हालिया DeepSeek OCR v2 से अधिक है, जबकि ChatGPT काफी नीचे रैंक किया गया.

डॉक्यूमेंट समझ: इसने OmniDocBench v1.5 पर भी अच्छा स्कोर किया (कुल 93.28%). यह विशेष रूप से जटिल लेआउट, तकनीकी टेबल और गणितीय सूत्रों को समझने में मजबूत है, वे क्षेत्र जहां पारंपरिक ओसीआर अक्सर खराब फॉर्मेटिंग और ज्यादा कंटेंट के कारण संघर्ष करते हैं.

आलोचक भी बने प्रशंसक

इस प्रदर्शन ने दुनियाभार के लोगों का ध्यान आकर्षित किया है. टेक कमेंटेटर Deedy Das, जिन्होंने पहले छोटे इंडिक-भाषा मॉडल बनाने पर सवाल उठाए थे, ने हाल ही में स्वीकार किया कि उन्होंने कंपनी को कम करके आंका था. दास ने एक्स (X) पर लिखा, “मैं सर्वम के बारे में गलत था… उन्होंने बाजी पलट दी है. उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच और ओसीआर मॉडल हैं… और कीमत भी बहुत वाजिब है.”

Bulbul V3: भारत की अपनी AI आवाज

ओसीआर टूल के अलावा, सर्वम ने अपना नया एआई वॉयस मॉडल Bulbul V3 भी लॉन्च किया है. यह एक टेक्स्ट-टू-स्पीच (TTS) एआई मॉडल है जिसका उद्देश्य AI का उपयोग करके ऑडियो जनरेट करना है. यह ElevenLabs (इस क्षेत्र की सर्वश्रेष्ठ मानी जाने वाली कंपनी) के टूल्स के समान है.

भारतीय भाषाओं के लिए: सर्वम ने नोट किया कि बुलबुल V3 भारतीय भाषाओं के लिए प्राकृतिक और अभिव्यंजक आवाजें देने के लिए डिज़ाइन किया गया है. वर्तमान में, यह 11 भारतीय भाषाओं में 35 से अधिक आवाजों का सपोर्ट करता है. योजना इसे कुल 22 भाषाओं तक विस्तारित करने की है. KissanAI के संस्थापक प्रतीक देसाई ने लिखा, “हम अपने इंडिक यूज-केस के लिए बुलबुल का उपयोग करते हैं, जबकि ElevenLabs की लागत भारतीय भाषाओं के लिए कोई मतलब नहीं रखती थी.”

यह भी पढ़ें: दवाई से लेकर एयरपोर्ट की लाइनें तक, ये सरकारी ऐप आपके के काम को बना देंगे आसान, हर किसी के मोबाइल होने चाहिए इंस्टॉल

Sudhanshu Shubham

सुधांशु शुभम मीडिया में लगभग आधे दशक से सक्रिय हैं. टाइम्स नेटवर्क में आने से पहले वह न्यूज 18 और आजतक जैसी संस्थाओं के साथ काम कर चुके हैं. टेक में रूचि होने की वजह से आप टेक्नोलॉजी पर इनसे लंबी बात कर सकते हैं.

Connect On :