microsoft
/

Phi-4-multimodal-instruct

@@ -29,7 +29,7 @@ import PIL.Image
 from transformers.image_processing_utils import BatchFeature
 from transformers.image_utils import ImageInput
-from transformers.processing_utils import ProcessingKwargs, ProcessorMixin, Unpack, TextKwargs, ImagesKwargs, VideosKwargs, AudioKwargs, CommonKwargs, ProcessorChatTemplateKwargs
 from transformers.tokenization_utils_base import TextInput
 from transformers.utils import logging
@@ -73,7 +73,7 @@ class ChatTemplateLoadKwargs(TypedDict, total=False):
 class AllKwargsForChatTemplate(
-    TextKwargs, ImagesKwargs, VideosKwargs, AudioKwargs, CommonKwargs, ProcessorChatTemplateKwargs
 ):
     processor_kwargs: ProcessingKwargs = {
         **ProcessingKwargs.__annotations__,

 from transformers.image_processing_utils import BatchFeature
 from transformers.image_utils import ImageInput
+from transformers.processing_utils import ProcessingKwargs, ProcessorMixin, Unpack, TextKwargs, ImagesKwargs, VideosKwargs, AudioKwargs, ProcessorChatTemplateKwargs
 from transformers.tokenization_utils_base import TextInput
 from transformers.utils import logging
 class AllKwargsForChatTemplate(
+    TextKwargs, ImagesKwargs, VideosKwargs, AudioKwargs, ProcessorChatTemplateKwargs
 ):
     processor_kwargs: ProcessingKwargs = {
         **ProcessingKwargs.__annotations__,