Transformer + 大模型二刷项目bug记录

烤冷面加肠不加蛋

308人浏览 · 2025-07-17 13:55:29

烤冷面加肠不加蛋 · 2025-07-17 13:55:29 发布

1.报错缺SentencePiece

raise ValueError(
ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available, provide a model path with a SentencePiece tokenizer.model file.Currently available slow->fast convertors: ['AlbertTokenizer', 'BartTokenizer', 'BarthezTokenizer', 'BertTokenizer', 'BigBirdTokenizer', 'BlenderbotTokenizer', 'CamembertTokenizer', 'CLIPTokenizer', 'CodeGenTokenizer', 'ConvBertTokenizer', 'DebertaTokenizer', 'DebertaV2Tokenizer', 'DistilBertTokenizer', 'DPRReaderTokenizer', 'DPRQuestionEncoderTokenizer', 'DPRContextEncoderTokenizer', 'ElectraTokenizer', 'FNetTokenizer', 'FunnelTokenizer', 'GPT2Tokenizer', 'HerbertTokenizer', 'LayoutLMTokenizer', 'LayoutLMv2Tokenizer', 'LayoutLMv3Tokenizer', 'LayoutXLMTokenizer', 'LongformerTokenizer', 'LEDTokenizer', 'LxmertTokenizer', 'MarkupLMTokenizer', 'MBartTokenizer', 'MBart50Tokenizer', 'MPNetTokenizer', 'MobileBertTokenizer', 'MvpTokenizer', 'NllbTokenizer', 'OpenAIGPTTokenizer', 'PegasusTokenizer', 'Qwen2Tokenizer', 'RealmTokenizer', 'ReformerTokenizer', 'RemBertTokenizer', 'RetriBertTokenizer', 'RobertaTokenizer', 'RoFormerTokenizer', 'SeamlessM4TTokenizer', 'SqueezeBertTokenizer', 'T5Tokenizer', 'UdopTokenizer', 'WhisperTokenizer', 'XLMRobertaTokenizer', 'XLNetTokenizer', 'SplinterTokenizer', 'XGLMTokenizer', 'LlamaTokenizer', 'CodeLlamaTokenizer', 'GemmaTokenizer', 'Phi3Tokenizer']

解决方案

pip install sentencepiece

2.警告You are using the legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you.

应该是可以忽略，对中文没有影响

3.tqdm报错找不到目录，但是列出来的目录位置是正确的

nltk.download('punkt')

nltk.download('punkt_tab')

两个都重新运行一下

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

实践出真知-AI Agent-New

在直播盗录播治理场景中，由于等挑战，现有盗录播治理方案存在的核心问题。盗录播风险召回Agent 2.0 旨在，实现。并且通过，提升。

智能体开发者社区

Gemini 生成图片代码怎么用？告别繁琐操作，AI 导出鸭一站式实现代码规范导出

智能体开发者社区

【无标题】

随着企业级AI应用进入快速发展阶段，越来越多组织开始建设属于自己的知识库系统、AI Agent平台以及数字员工体系。关键词：Dify企业版、Dify企业版服务商、Dify服务商、Dify最佳服务商、JOTO、聚托科技。作为专业的Dify企业版服务商，JOTO围绕企业AI建设形成了一整套实施方法论。因此对于希望长期建设企业AI能力的组织来说，专业服务团队的重要性正在不断提升。而在众多AI应用开发平台