며칠이나 골치 썩이던, 웹페이지에서 한글을 읽어다가 MySQL에 쓰는 문제를 완료.

출처: http://python.kr/viewtopic.php?p=57995&sid=64c9286c1a9876783aa4569c3047539a

※ python code에서의 세팅

           1. encoding: utf8
           2. DB를 연결한 후에 다음의 코드로 글자와 관련된 세팅을 확인

conn.query("set character_set_connection=utf8;")
conn.query("set character_set_server=utf8;")
conn.query("set character_set_client=utf8;")
conn.query("set character_set_results=utf8;")
conn.query("set character_set_database=utf8;")


※ MySQL의 character 세팅


           1. Config Wizard에서 utf8로 세팅

Example code

#-*- coding: utf8 -*-
#import urllib
#import BeautifulSoup
from BeautifulSoup import BeautifulSoup
import MySQLdb
import urllib2

#url = 'http://weather.local.naver.com/AreaCityWeather.nhn?m=subsi&fct=11H20301'
page=urllib2.urlopen("http://weather.local.naver.com/AreaCityWeather.nhn?m=subsi&fct=11H20301")
params = []

#soup = BeautifulSoup.BeautifulSoup( urllib.urlopen(url).read() )
soup = BeautifulSoup(page, fromEncoding="utf8")

inc1 = soup('table', {'width':'593', 'style':'border:1px solid #DCDDE0'})[0]
days = [inc2.contents[0] for inc2 in inc1('span', {'class':'gray01 b'})]
states = [inc2.contents[0] for inc2 in inc1('td', {'class':'gray01 ls'})]
params.extend( zip(days, states) )

for inc1 in soup('table', {'width':'117',}):
   day = inc1('span', {'class':'gray01 b'})[0].contents[0]
   state = inc1('td', {'height':'25', 'class':'gray01 ls'})[0].contents[0]
   params.append( (day, state) )

#print params
conn = MySQLdb.connect(host='localhost', db='weather', user='????', passwd='????')

#DB를 연결한 후에, 반드시 다음의 다섯줄을 추가해 주어야 한다
conn.query("set character_set_connection=utf8;")
conn.query("set character_set_server=utf8;")
conn.query("set character_set_client=utf8;")
conn.query("set character_set_results=utf8;")
conn.query("set character_set_database=utf8;")

#cursor = conn.cursor()
#db_info = {'host':'localhost', 'db':'weather', 'user':'root', 'passwd':'????', 'encoding': 'utf8',}
#conn = MySQLdb.connect(**db_info)
cursor = conn.cursor()
cursor.execute ("DROP TABLE IF EXISTS data")
cursor.execute ("""CREATE TABLE data(day VARCHAR(10),state VARCHAR(50))""")

for inc in params:
   query = ( "INSERT INTO data(day, state) VALUES('%s', '%s')" % inc )
#   query = ("INSER INTO data VALUES('%s','%s')"%inc)
   print query
#   cursor.execute(uery)
   cursor.execute( query.encode('utf8'))
   cursor.execute('COMMIT')

#   cursor.execute('''INSER INTO data VALUES('%s','%s')'''%inc)
   result=cursor.fetchall()
   print result
cursor.close()


만약 캐릭터셋이 euckr이나 Latin1이라면 DB 접속후에

conn.query("set character_set_connection=euckr;")
conn.query("set character_set_server=euckr;")
conn.query("set character_set_client=euckr;")
conn.query("set character_set_results=euckr;")
conn.query("set character_set_database=euckr;")

그리고, my.ini 파일에서

[mysqld]
character-set-client-handshake = FALSE
로 해버리면 한글이 잘 될 수도 있다.

Posted by trigger
,