python unicode错误:为什么我使用了encode(utf-8)却一直得到这个字符?
for p in articles2: url = p.find('a')['href'] title = p.find('h3').get_text().strip().encode("utf-8") print(title) 输出: c3\xa9gie de d\xc3\xa9fense active et pr\xc3\xa9ventive\xc2\xbb' b'Zoom sur la course effr\xc3\xa9n\xc3\xa9e pour trouver un vaccin' b'On vous le dit' b'\xc3\x89dition du jour (PDF)' b'Son port est d\xc3\xa9sormais obligatoire : Le prix du masque plafonn\xc3\xa9' b'Baisse de 20% des prix des produits agricol
0 2023-12-01
编程技术问答社区
警告。有些字符不能被解码,被替换为REPLACEMENT CHARACTER。
我正在创建一个脚本来从网站下载一些MP3播客,然后将其写入某个位置.我快要完成了,文件正在下载和创建.但是,我遇到了一个无法完全解码二进制数据并且MP3文件无法播放的问题. 这是我的代码: import re import os import urllib2 from bs4 import BeautifulSoup import time def getHTMLstring(url): html = urllib2.urlopen(url) soup = BeautifulSoup(html) soupString = soup.encode('utf-8') return soupString def getList(html_string): urlList = re.findall('(http://podcast\.travelsinamathematicalworld\.co\.uk\/mp3/.*\.mp3)', ht
0 2023-12-01
编程技术问答社区
我如何使用Python抓取和搜刮这个特定的网站并将数据保存在一个文本文件中?
好吧,所以我正在做这个项目,该项目在孟加拉语语言上实现Word2Vec,以找到类似的单词上下文单词,并且作为先决条件,我试图抓取某些新闻和博客网站,然后刮擦链接以构建链接数据语料库.到目前为止,我在Chrome浏览器上使用Google Colab. 这是我爬行的Python代码...(我确实从Internet获得了代码片段的帮助,我最近才了解所有这些) ) import requests import urllib.parse from urllib.parse import urlparse, urljoin from bs4 import BeautifulSoup import colorama from urllib.request import urlopen from urllib.request import Request # init the colorama module colorama.init() GREEN = colorama.Fore.G
0 2023-12-01
编程技术问答社区
从网站上搜刮数据时,Python的重音符问题
我是尼古拉(Nicola),他是python的新用户,没有计算机编程的真实背景.因此,我确实需要一些问题.我写了一个代码来刮下此网页的数据: http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02 基本上,我的代码的目标是从页面中的所有表中刮擦数据,然后将其写入TXT文件. 在这里,我粘贴代码: #!/usr/bin/env python from mechanize import Browser from BeautifulSoup import BeautifulSoup import urllib2, os def extract(soup): table = soup.findAll
0 2023-12-01
编程技术问答社区
Python 3时BeautifulSoup的 "非法多字节序列 "错误
.html保存到本地磁盘,我正在使用美丽的套(BS4)来解析它. 它运行良好,直到最近更改为python 3. 我在另一台计算机2中测试了相同的.html文件,它起作用并返回页面内容. soup = BeautifulSoup(open('page.html'), "lxml") 带有Python 3的机器不起作用,它说: UnicodeDecodeError: 'gbk' codec can't decode byte 0x92 in position 298670: illegal multibyte sequence 四处搜索,我在下面尝试过,但都没有起作用:(是'r'或'rb'没有很大的不同) soup = BeautifulSoup(open('page.html', 'r'), "lxml") soup = BeautifulSoup(open('page.html', 'r'), 'html.parser') soup = Beauti
0 2023-12-01
编程技术问答社区
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe7' in position 17710: ordinal not in range(128)
我正在尝试从存档的Web Crawl 中打印一个字符串,但是当我这样做时,我会收到此错误: print page['html'] UnicodeEncodeError: 'ascii' codec can't encode character u'\xe7' in position 17710: ordinal not in range(128) 尝试打印unicode(page['html'])我得到: print unicode(page['html'],errors='ignore') TypeError: decoding Unicode is not supported 有什么想法我如何正确编码此字符串,或者至少要打印它?谢谢. 解决方案 您需要编码您保存以显示它的Unicode,而不是 decode it -Unicode是未编码的表单.您应始终指定编码,以便您的代码可移植. "通常"的选择是utf-8: print page['html']
0 2023-12-01
编程技术问答社区
Python-BeautifulSoup html解析处理gbk编码不佳--中文网络抓取问题
我一直在修补以下脚本: # -*- coding: utf8 -*- import codecs from BeautifulSoup import BeautifulSoup, NavigableString, UnicodeDammit import urllib2,sys import time try: import timeoutsocket # http://www.timo-tasi.org/python/timeoutsocket.py timeoutsocket.setDefaultSocketTimeout(10) except ImportError: pass h=u'\u3000\u3000\u4fe1\u606f\u901a\u4fe1\u6280\u672f' address=urllib2.urlopen('http://stock.eastmoney.com/news/1408,20101022101395594.
0 2023-12-01
编程技术问答社区
使用lxml和request进行HTML搜刮时出现unicode错误
我试图像提供的在这里.他们提供的示例很好.但是,当我尝试与 我尝试过谷歌搜索,但找不到解决方案.我非常感谢任何帮助.我想知道是否有一种使用Python将其复制成HTML的方法. 编辑: from lxml import html import requests page = requests.get('http://cancer.sanger.ac.uk/cosmic/gene/analysis?ln=PTEN&ln1=PTEN&start=130&end=140&coords=bp%3AAA&sn=&ss=&hn=&sh=&id=15#') tree = html.fromstring(page.text) 谢谢. 解决方案 简短答案:使用page.content,而不是page.text. 来自 LXML.Etree中的解析器可以立即处理Unicode Strings ...但是,这需要Unicode字符串并未指定矛盾的编码,因此谎言他们的真实编码
0 2023-12-01
编程技术问答社区
中文UTF-8字符在Weblogic 10.3中显示不正确,但在Tomcat 6中没有。
我正在使用Java EE和Spring开发一个需要输出中文UTF-8字符的网站.我有一个执行请求的servlet.getRequestDisPatcher(...).向前(请求,响应)在某些处理后向JSP.在这个servlet中,在进行前进之前,我有 response.setCharacterEncoding("UTF-8"); response.setContentType("text/html; charset=UTF-8"); 在JSP文件的顶部(以及项目中的每个JSP文件),我有: 作为测试,我在该JSP页面上有一个中文UTF-8字符.当我将此应用程序部署到Tomcat 6并击中Servlet时,浏览器检测到页面为UTF-8并输出中文字符:采 当我将其部署到Weblogic 10并击中Serv
0 2023-12-01
编程技术问答社区
Webkit。编码
我在Ubuntu上使用GVIM创建了一个HTML文件.当我使用Safari或Google Chrome在Windows上打开此文件时,它无法正确显示ép.当我使用vim:设置编码的Windows盒上的编码时?它返回Latin1,然后在Ubuntu上返回UTF-8. 任何人都可以解释为什么会发生这种情况以及如何解决此问题? 解决方案 您需要考虑Chrome应该如何知道要使用的编码. 通常,如果您无法控制标题,则使用HTTP标头或A . 我想在您的情况下您都没有.如果您尚未设置源代码编码,例如魔术评论标头(例如# vim: set fileencoding=),然后编码您的编辑器报告将取决于系统默认值.无论如何,您浏览器都不知道如何解释. 其他解决方案 确保您实际上将文件保存为UTF-8
0 2023-12-01
编程技术问答社区
Google字体中无法接近的字形和符号
在网站上实现字体后,在Google字体样品表上显示的一些字形. 例如,查看Piazzolla的此预览: https://fonts.google.com/specimen/specimen/piazzolla?piazzolla?piazzolla?preview.prevext = piazzlela; %84%A6%E2%86%92%E2%86%92%E2%86%97%E2%86%97&preview.text_type = Custom&Query&Query = Piazzolla#标准风格 注意箭头如何使用字体提供的自定义字形. 然后,将其与此 codepen 不使用同一字形. (随机代码块安抚stackoverflow,因为没有需要嵌入问题中的代码.) 这使我相信Google并没有为整个字体提供服务,并且可能有一种可以访问更多字符的方法. 任何帮助将不胜感激.谢谢! 解决方案 GF API具有高级功
0 2023-11-30
编程技术问答社区
在网页上显示未安装的字体
可能的重复: 网络中的非标准字体? 我创建了一个Unicode字体,我想在网页上使用它.我希望人们看到并阅读字体.他们可以在不安装字体的情况下这样做吗?类似于从服务器运行字体? 如果我没记错的话,我已经看过很长时间了. 解决方案 您可以使用 css3's @font-face @font-face 特征.但是您必须提供必要的字体格式. fontsquirrel的真正有价值的是,它包含在所有主要浏览器中显示字体所需的所有格式和黑客,这并不容易正确. 其他解决方案 您可以使用 @font-face 在您的CSS中,您的字体将使用 @font-face规则声明. @font-face { font-family: 'MyWebFont'; src: url('webfont.eot'); /* IE9 Compat Modes */ src: url('webfont.eot?#iefix') format('embedded-opentype'),
0 2023-11-30
编程技术问答社区
通过特定字形对字体进行子集
我有一个14MB TTF,其中大部分简化了汉字. 我想通过创建一个仅包含HTML页面中的特定字符的子集来减小大小. 因此,理想情况下,我想通过(Linux)程序一个文本块,并根据包含的字符重新创建字体. ,例如 ./magic-font-squisher input.tff "ABC123水小长" 或 ./magic-font-squisher input.tff /path/to/test.html 新字体将只有这9个字符. 解决方案 已经使用了 ./subset.pl --chars="ABC 123 水小长" input.ttf output.ttf 这正是我想要的. 我如何找到它 google font directory 包含一个 subset 工具. readme 说 - 字符串=:仅为指定字符串生成子集.对...有用 创建菜单子集.通常,我们使用字体中的子set.pl 但是,优化器. 搜索字
0 2023-11-30
编程技术问答社区
在火狐和IE中使用utf8的网页字体时出现的特殊字符问题
我使用utf-8编码和字体" lato"和" open sans''的char ü有问题. 使用Safari和Chrome没问题,但是当我在Windows或Mac上Firefox或IE时,可以在此处看到问题: " lato"和" Open Sans"是Google的Web字体-Helvetica是本地字体. 在browserstack-同一问题上也测试了它. 那么我该如何解决? 解决方案 原因是您的字母"ü"以分解形式表示为" u",其次是二聚体,例如,例如在 中 Von der Gründung im Musikpark zur Marktführerschaft 用"ü" u+00fc拉丁小字母U替换为"ü"(U+0075拉丁小字母U+0308结合透明二的).它们看起来可能完全相同,但是它们可能不会 - 在这种情况下,由于LATO不包含U+0308,因此浏览器
0 2023-11-30
编程技术问答社区
如何从一个字体文件中删除字符?
我已经下载了 dejavu开源font font 并想使用它的webfont,但是即使转换它,我收到一个大文件,因为我使用的网站只会是几种语言(阿拉伯语,法语,Amazigh),然后我不需要一些字符. 因此,是否可以浏览字体文件并删除我不需要的不必要的Unicode字符? 解决方案 使用 fontforge ,您可以打开Element> - > Font Info - > - > Unicode Ranges.您将看到所有可用的范围,并且可以单击一键选择整个Unicode范围.然后,您可以使用Encoding - > Detach & Remove Glyphs来调整选择并删除. 另外,您可以使用Edit - > Select - > Select by Script. 其他解决方案 我发现的最简单方法是使用pyftsubset工具 fonttooldor"> fonttools .这是一个例子: $ pyftsubset NotoSans-Regula
0 2023-11-30
编程技术问答社区
是否每个浏览器都支持所有的unicode?
我想通过使用Unicode而不是小图像来减少HTTP-重复的数量. 我想使用的图标包括✔,►等. 有关所有必需字符的完整列表,请参见在这里 默认情况下所有浏览器是否支持这些字符? 如果默认不支持,我可以添加对这些字符的支持吗? 需要哪些CSS和HTML才能以跨浏览器方式添加这些字符? 另外,我正在制作一个使用以下语言的Unicode网站: यो भाषामा म वेबसाईट बनाउँदै छु 是否可以在每个浏览器和每个操作系统上都能看到此语言? 如果可以提供此支持,则需要哪些CSS和HTML代码? 我需要为此包含一个WebFont吗? 我可以使用哪些WebFont,以及如何以跨浏览器方式添加它们? 解决方案 这是 fonts 的问题,而不是浏览器支持.除非在浏览器本身中使用严重的错误,只要用户安装了您要使用的字符的字体,它就应该在没有问题的情况下显示. 现在,在每个通用操作系统中内置的所有字体中的所有字形的交集都是一个不
0 2023-11-30
编程技术问答社区
用Unicode补充多语言平面符号创建网络字体
我做了传统纸牌游戏的概念验证在线实施.为了避免实际绘制卡片的图片,我使用了相应的Unicode字符(例如U++++++++++++ 1F0A1🂡).虽然这在现代Linux桌面上很棒(其中 dejavu sans用于显示这些字符),其他操作系统(例如Windows或Android)似乎缺少可以显示字符的字体. 一个简单的解决方案是通过@font-face加载dejavu sans.为了避免下载所有Dejavu Sans,我想创建一个仅包含相关代码点的字体.原则上 font Squirrel的Webfont Generator 允许它,但是我无法与它一起使用它来与它一起工作Unicode平面1(扑克符号为). 是否有一些简单的方法来创建@font-face兼容字体,该字体包含u+1f0a0 to u+1f0df? 解决方案 您可以尝试调整用于创建Dejavu-lgc的Dejavu构建脚本.那是,或直接在fontforge中进行编辑. 其他解决方案 是的,有.这就
0 2023-11-30
编程技术问答社区
Perl只打印匹配的内容
我正在Perl开发一个网络爬网.它从页面提取内容,然后进行模式匹配以检查内容的语言. Unicode值用于匹配内容. 有时提取的内容包含多种语言.我在此处使用的图案匹配打印了所有文本,但我只想打印与模式中指定的Unicode值的文本. my $uu = LWP::UserAgent->new('Mozilla 1.3'); my $extractorr = HTML::ContentExtractor->new(); # create response object to get the url my $responsee = $uu->get($url); my $contentss = $responsee->decoded_content(); $range = "([\x{0C00}-\x{0C7F}]+)"; # match particular language if ($contentss =~ m/$range/) { $ext
0 2023-11-30
编程技术问答社区