گوگل در جدیدترین بهروزرسانی هوش مصنوعی Gemini، ویژگی را معرفی کرده که امکان آپلود فایلهای صوتی را برای کاربران در پلتفرمهای اندروید، iOS و وب فراهم میکند. این قابلیت، که از ۱۷ شهریور ۱۴۰۴ (۸ سپتامبر ۲۰۲۵) به طور رسمی فعال شده، به کاربران اجازه میدهد فایلهای صوتی با فرمتهای پرکاربرد مانند MP3، M4A و WAV را آپلود کرده و از امکاناتی مانند رونویسی (transcription)، خلاصهسازی محتوا، استخراج نکات کلیدی و تحلیل محتوای صوتی بهرهمند شوند. این بهروزرسانی، که یکی از ویژگیهای درخواستی کاربران بوده، جایگاه Gemini را در رقابت با سایر مدلهای هوش مصنوعی مانند ChatGPT تقویت میکند.
جزئیات این ویژگی جدید
این ویژگی بهعنوان بخشی از سیستم جامع آپلود فایلهای Gemini ارائه شده که پیشتر امکان پردازش اسناد، تصاویر و ویدیوها را فراهم کرده بود. کاربران میتوانند تا ۱۰ فایل صوتی را بهصورت همزمان با یک دستور (prompt) آپلود کنند. در نسخه وب، این قابلیت از طریق گزینه (Upload files) در دسترس است، در حالی که در اپلیکیشن موبایل، کاربران باید روی دکمه (+) کلیک کرده و گزینه (Files) را انتخاب کنند.
این ویژگی جدید محدودیت هایی نیز دارد:
- کاربران رایگان: تا ۱۰ دقیقه صوت.
- کاربران دارای اشتراک Google AI Pro یا Google AI Ultra: تا ۳ ساعت صوت.
اندازه فایلهای غیر ویدیویی هم به ۱۰۰ مگابایت محدود شده و سقف آپلود پس از مدتی بازنشانی میشود. این محدودیتها به کاربران کمک میکند تا محتوای صوتی خود را بهصورت موثر مدیریت کنند، اما کاربران رایگان ممکن است برای استفاده گستردهتر به اشتراکهای پولی نیاز داشته باشند.
کاربرد ها
این قابلیت برای طیف وسیعی از کاربران، از جمله تحلیلگران محتوا، مدرسان، دانشجویان و مدیران کسبوکار، کاربردهای گستردهای دارد. برای مثال، کاربران میتوانند پادکستها، سخنرانیها، جلسات کاری یا یادداشتهای صوتی را آپلود کرده و خلاصهای از نکات کلیدی یا متن کامل رونویسیشده را دریافت کنند. این ویژگی با سایر ابزارهای Gemini، مانند خلاصهسازی ویدیوهای یوتیوب یا پردازش فایلهای PDF، یکپارچه شده و تجربهای یکپارچه و چندمنظوره ارائه میدهد. به گفته گزارش ها، این بهروزرسانی پاسخی به نیاز کاربران برای پردازش محتوای صوتی بوده و Gemini را به ابزاری رقابتیتر تبدیل کرده است.
توصیهها برای کاربران
برای کاربرانی که به دنبال بهرهبرداری حداکثری از این ویژگی هستند، توصیه میشود از فرمتهای صوتی با کیفیت بالا استفاده کنند تا دقت رونویسی افزایش یابد. همچنین، کاربران رایگان باید محدودیتهای زمانی را در نظر داشته باشند و در صورت نیاز به پردازش حجم بیشتری از محتوا، به گزینههای اشتراک پولی مانند Google AI Pro یا Ultra فکر کنند.
جمع بندی
این بهروزرسانی نشاندهنده تعهد گوگل به توسعه هوش مصنوعی چندمنظورهای است که نیازهای متنوع کاربران را در حوزههای آموزشی، حرفهای و شخصی برآورده میکند. با فعال شدن این قابلیت، Gemini به ابزاری قدرتمند برای مدیریت و تحلیل محتوای صوتی تبدیل شده و انتظار میرود در آینده شاهد بهبودهای بیشتری در این پلتفرم باشیم.
دیدگاه خود را بنویسید